AI 视频提示词结构化生成方法论

概述

基于知识库中 14 篇 AI 视频相关笔记 的经验沉淀，形成一套从需求分析到提示词输出的结构化流程。

适用场景：用 Seedance、可灵、即梦等工具生成 AI 视频时编写提示词目标：减少试错次数，一次写出结构清晰、可稳定输出的提示词

一、前期准备（写提示词之前）

1.1 确定三个身份

视频提示词的开头必须先设定三个身份，动作永远是最后出现的东西：

① 人物身份   → 他是谁？什么时代/阶层？
② 环境身份   → 这是什么场景？什么年代？
③ 场景身份   → 这个空间有什么情绪基调？

示例：

❌ 一个人在房间裡走来走去
✅ 这是一个70年代审讯室，角色是个疲惫的侦探，房间昏暗压抑，他在踱步思考

原理：AI 通过身份推导画面，而不是通过行为。同样的动作放在不同身份下，输出完全不同。

1.2 明确镜头语言

写提示词前先决定拍摄逻辑，三种模式选一种：

模式	特点	适用场景
纪实感	手持微晃、低角度、前景遮挡	真实感、沉浸感
广告感	稳定平滑、高饱和、精准构图	产品展示、品牌
情绪感	缓慢推轨、光影渐变、环境叙事	剧情、MV

禁止混合：手持感 + 电影级平滑推轨 会让 AI 在两种逻辑间摇摆。

二、提示词结构模板

2.1 标准模板

[镜头说明] + [场景身份] + [人物身份] + [动作链] + [情绪/状态] + [画质约束]

2.2 分步填写

第一步：镜头说明（放在最前面！）

格式：{镜头类型} + {拍摄距离} + {镜头运动} + {光线结构}
示例：低角度镜头，中景，缓缓推进，手持微晃，轮廓光+环境光

核心：镜头说明放在提示词最前面。AI 顺序执行，先定义镜头容器 → 所有动作自然发生在该容器内部。

第二步：场景身份

格式：{空间类型} + {时代/风格} + {光线/天气} + {环境状态}
示例：70年代审讯室，昏暗，一盏吊灯从天花板垂下，墙面有污渍

第三步：人物身份

格式：{人物身份} + {服装/妆造} + {当前状态}
示例：疲惫的中年侦探，衬衫领口敞开，脸上有汗，眼神涣散

第四步：动作链

格式：{起始状态} + {触发原因} + {主动作} + {身体联动} + {结束状态}
示例：原本靠在墙边，听到门外脚步声，缓缓抬起头，肩膀随之绷紧，视线锁定门的方向

动作链书写原则：

减少动词堆砌，增加状态词（迟疑地、持续地、重心偏移地）
一个提示词只有一个主动作，其他是附属
用状态约束替代时间词（不用"先停再抬手"→用"保持平衡站姿，手臂逐渐抬起"）

第五步：情绪/状态

格式：{微表情} + {肢体语言} + {环境呼应}
示例：眼皮微微颤动，手指无意识地敲击桌面，房间里只有灯管的嗡嗡声

避免抽象情绪词（紧张、悲伤）→ 拆解到五官：眨眼频率、眉部状态、嘴唇抿或张

第六步：画质约束

格式：{风格词} + {画质词}（保持在 2-3 个词以内）
示例：电影感，4k，写实风格

三、不同场景的模板变体

3.1 单人表演

[低角度中景，镜头缓慢推进] [角色坐在床边] [一个刚失恋的年轻人，衣着随意，头发凌乱] 
[他低头看着手中的手机，屏幕亮着，拇指悬停在屏幕上方，肩膀轻微起伏] 
[眼眶微红，嘴唇抿着，呼吸不均匀] [电影感，自然光]

3.2 多人互动

[全景，固定镜头] [白天的咖啡厅角落] [两个人面对面坐著]
{主角：一个神情紧张的男人，身体前倾，双手握着杯子不放
 配角：靠在椅背上，双臂交叉，表情冷淡}
[男人嘴唇动了动想说话又停住，配角则偏过头看了一眼窗外]
[氛围僵硬，两人之间没有眼神交流] [电影感，柔和日光]

多人公式：主角色（位置+主动作+情绪）+ 副角色（位置+回应动作+情绪）+ 互动关系

3.3 产品/场景展示

[低角度慢慢拉远，稳定云台] [极简白色工作室] [一款电子产品放置在桌面上]
[灯光从左侧照亮产品表面，阴影缓慢移动，产品缓缓旋转一周]
[光泽均匀，暗部细节清晰] [广告感，超写实，8k]

3.4 动作/打斗

[低角度手持，微微晃动] [昏暗的巷道] [两个对峙的人影]
[一个人率先冲出，右拳挥出，身体随转动重心前移，另一人侧身躲避]
[爆发力，紧张] [电影感，冷色调]

复杂动作 → 先用分镜拆解为 6-8 个阶段 → 每个阶段单独生成动作链：起始状态 → 预备动作 → 身体发力 → 主动作 → 结束定格

四、提示词检查清单（写完后自查）

❌ 剪掉的内容

[ ] 情绪词（高级感、电影感、唯美感）→ 用具体信息替代
[ ] 重复词（同义反复不会叠加效果）
[ ] 人类句式（不要写故事，要写结构）

✅ 确认的内容

[ ] 镜头说明在最前面
[ ] 三个身份已设定（人物+环境+场景）
[ ] 只有一个主动作
[ ] 情绪已拆解到五官/肢体
[ ] 参考图维度单一（每张图只负责一个维度）

五、进阶技巧

5.1 时间轴法（复杂场景）

把角色、背景、镜头的运动分配到不同时间段：

[0-3秒] 镜头稳定，角色静坐，背景静止
[3-6秒] 镜头缓缓推进，角色开始抬头，背景光影渐变
[6-9秒] 镜头推至特写，角色表情变化，背景完全虚化

5.2 反推优化

当已有参考视频时：

定位起始帧 → 爆发点 → 结束帧
提取相机运动参数（焦距变化、位移方向）
用参数化指令替代感性描述

5.3 角色声音同步

如果视频含对白，在提示词最后补充声音参数：

语气：按对话内容分段控制（句号减速、省略号停顿、感叹号爆发）
音色：按角色身份设定

六、常见错误

错误	说明	解决
多个主动作	跑+回头看+说话 → AI 扭曲	只保留一个主动作
指令冲突	手持感 + 平滑运镜	选一种拍摄逻辑
情绪词泛滥	紧张地、悲伤地 → 无效	拆解到五官动作
堆砌参考图	一张图想同时控制构图+光线+风格	每张图只负责一个维度
先写动作再写镜头	AI 顺序执行，镜头丢了	镜头放最前面

AI 视频提示词结构化生成方法论 ​

概述 ​

一、前期准备（写提示词之前） ​

1.1 确定三个身份 ​

1.2 明确镜头语言 ​

二、提示词结构模板 ​

2.1 标准模板 ​

2.2 分步填写 ​

第一步：镜头说明（放在最前面！） ​

第二步：场景身份 ​

第三步：人物身份 ​

第四步：动作链 ​

第五步：情绪/状态 ​

第六步：画质约束 ​

三、不同场景的模板变体 ​

3.1 单人表演 ​

3.2 多人互动 ​

3.3 产品/场景展示 ​

3.4 动作/打斗 ​

四、提示词检查清单（写完后自查） ​

❌ 剪掉的内容 ​

✅ 确认的内容 ​

五、进阶技巧 ​

5.1 时间轴法（复杂场景） ​

5.2 反推优化 ​

5.3 角色声音同步 ​

六、常见错误 ​

关联笔记 ​