Appearance
AI 视频提示词结构化生成方法论
概述
基于知识库中 14 篇 AI 视频相关笔记 的经验沉淀,形成一套从需求分析到提示词输出的结构化流程。
适用场景:用 Seedance、可灵、即梦等工具生成 AI 视频时编写提示词 目标:减少试错次数,一次写出结构清晰、可稳定输出的提示词
一、前期准备(写提示词之前)
1.1 确定三个身份
视频提示词的开头必须先设定三个身份,动作永远是最后出现的东西:
① 人物身份 → 他是谁?什么时代/阶层?
② 环境身份 → 这是什么场景?什么年代?
③ 场景身份 → 这个空间有什么情绪基调?示例:
- ❌
一个人在房间裡走来走去 - ✅
这是一个70年代审讯室,角色是个疲惫的侦探,房间昏暗压抑,他在踱步思考
原理:AI 通过身份推导画面,而不是通过行为。同样的动作放在不同身份下,输出完全不同。
1.2 明确镜头语言
写提示词前先决定拍摄逻辑,三种模式选一种:
| 模式 | 特点 | 适用场景 |
|---|---|---|
| 纪实感 | 手持微晃、低角度、前景遮挡 | 真实感、沉浸感 |
| 广告感 | 稳定平滑、高饱和、精准构图 | 产品展示、品牌 |
| 情绪感 | 缓慢推轨、光影渐变、环境叙事 | 剧情、MV |
禁止混合:
手持感 + 电影级平滑推轨会让 AI 在两种逻辑间摇摆。
二、提示词结构模板
2.1 标准模板
[镜头说明] + [场景身份] + [人物身份] + [动作链] + [情绪/状态] + [画质约束]2.2 分步填写
第一步:镜头说明(放在最前面!)
格式:{镜头类型} + {拍摄距离} + {镜头运动} + {光线结构}
示例:低角度镜头,中景,缓缓推进,手持微晃,轮廓光+环境光核心:镜头说明放在提示词最前面。AI 顺序执行,先定义镜头容器 → 所有动作自然发生在该容器内部。
第二步:场景身份
格式:{空间类型} + {时代/风格} + {光线/天气} + {环境状态}
示例:70年代审讯室,昏暗,一盏吊灯从天花板垂下,墙面有污渍第三步:人物身份
格式:{人物身份} + {服装/妆造} + {当前状态}
示例:疲惫的中年侦探,衬衫领口敞开,脸上有汗,眼神涣散第四步:动作链
格式:{起始状态} + {触发原因} + {主动作} + {身体联动} + {结束状态}
示例:原本靠在墙边,听到门外脚步声,缓缓抬起头,肩膀随之绷紧,视线锁定门的方向动作链书写原则:
- 减少动词堆砌,增加状态词(迟疑地、持续地、重心偏移地)
- 一个提示词只有一个主动作,其他是附属
- 用状态约束替代时间词(不用"先停再抬手"→用"保持平衡站姿,手臂逐渐抬起")
第五步:情绪/状态
格式:{微表情} + {肢体语言} + {环境呼应}
示例:眼皮微微颤动,手指无意识地敲击桌面,房间里只有灯管的嗡嗡声避免抽象情绪词(紧张、悲伤)→ 拆解到五官:眨眼频率、眉部状态、嘴唇抿或张
第六步:画质约束
格式:{风格词} + {画质词}(保持在 2-3 个词以内)
示例:电影感,4k,写实风格三、不同场景的模板变体
3.1 单人表演
[低角度中景,镜头缓慢推进] [角色坐在床边] [一个刚失恋的年轻人,衣着随意,头发凌乱]
[他低头看着手中的手机,屏幕亮着,拇指悬停在屏幕上方,肩膀轻微起伏]
[眼眶微红,嘴唇抿着,呼吸不均匀] [电影感,自然光]3.2 多人互动
[全景,固定镜头] [白天的咖啡厅角落] [两个人面对面坐著]
{主角:一个神情紧张的男人,身体前倾,双手握着杯子不放
配角:靠在椅背上,双臂交叉,表情冷淡}
[男人嘴唇动了动想说话又停住,配角则偏过头看了一眼窗外]
[氛围僵硬,两人之间没有眼神交流] [电影感,柔和日光]多人公式:
主角色(位置+主动作+情绪)+ 副角色(位置+回应动作+情绪)+ 互动关系
3.3 产品/场景展示
[低角度慢慢拉远,稳定云台] [极简白色工作室] [一款电子产品放置在桌面上]
[灯光从左侧照亮产品表面,阴影缓慢移动,产品缓缓旋转一周]
[光泽均匀,暗部细节清晰] [广告感,超写实,8k]3.4 动作/打斗
[低角度手持,微微晃动] [昏暗的巷道] [两个对峙的人影]
[一个人率先冲出,右拳挥出,身体随转动重心前移,另一人侧身躲避]
[爆发力,紧张] [电影感,冷色调]复杂动作 → 先用分镜拆解为 6-8 个阶段 → 每个阶段单独生成 动作链:起始状态 → 预备动作 → 身体发力 → 主动作 → 结束定格
四、提示词检查清单(写完后自查)
❌ 剪掉的内容
- [ ] 情绪词(高级感、电影感、唯美感)→ 用具体信息替代
- [ ] 重复词(同义反复不会叠加效果)
- [ ] 人类句式(不要写故事,要写结构)
✅ 确认的内容
- [ ] 镜头说明在最前面
- [ ] 三个身份已设定(人物+环境+场景)
- [ ] 只有一个主动作
- [ ] 情绪已拆解到五官/肢体
- [ ] 参考图维度单一(每张图只负责一个维度)
五、进阶技巧
5.1 时间轴法(复杂场景)
把角色、背景、镜头的运动分配到不同时间段:
[0-3秒] 镜头稳定,角色静坐,背景静止
[3-6秒] 镜头缓缓推进,角色开始抬头,背景光影渐变
[6-9秒] 镜头推至特写,角色表情变化,背景完全虚化5.2 反推优化
当已有参考视频时:
- 定位起始帧 → 爆发点 → 结束帧
- 提取相机运动参数(焦距变化、位移方向)
- 用参数化指令替代感性描述
5.3 角色声音同步
如果视频含对白,在提示词最后补充声音参数:
语气:按对话内容分段控制(句号减速、省略号停顿、感叹号爆发)
音色:按角色身份设定六、常见错误
| 错误 | 说明 | 解决 |
|---|---|---|
| 多个主动作 | 跑+回头看+说话 → AI 扭曲 | 只保留一个主动作 |
| 指令冲突 | 手持感 + 平滑运镜 | 选一种拍摄逻辑 |
| 情绪词泛滥 | 紧张地、悲伤地 → 无效 | 拆解到五官动作 |
| 堆砌参考图 | 一张图想同时控制构图+光线+风格 | 每张图只负责一个维度 |
| 先写动作再写镜头 | AI 顺序执行,镜头丢了 | 镜头放最前面 |