Skip to content

AI 视频提示词结构化生成方法论

概述

基于知识库中 14 篇 AI 视频相关笔记 的经验沉淀,形成一套从需求分析到提示词输出的结构化流程。

适用场景:用 Seedance、可灵、即梦等工具生成 AI 视频时编写提示词 目标:减少试错次数,一次写出结构清晰、可稳定输出的提示词


一、前期准备(写提示词之前)

1.1 确定三个身份

视频提示词的开头必须先设定三个身份,动作永远是最后出现的东西

① 人物身份   → 他是谁?什么时代/阶层?
② 环境身份   → 这是什么场景?什么年代?
③ 场景身份   → 这个空间有什么情绪基调?

示例

  • 一个人在房间裡走来走去
  • 这是一个70年代审讯室,角色是个疲惫的侦探,房间昏暗压抑,他在踱步思考

原理:AI 通过身份推导画面,而不是通过行为。同样的动作放在不同身份下,输出完全不同。

1.2 明确镜头语言

写提示词前先决定拍摄逻辑,三种模式选一种:

模式特点适用场景
纪实感手持微晃、低角度、前景遮挡真实感、沉浸感
广告感稳定平滑、高饱和、精准构图产品展示、品牌
情绪感缓慢推轨、光影渐变、环境叙事剧情、MV

禁止混合:手持感 + 电影级平滑推轨 会让 AI 在两种逻辑间摇摆。


二、提示词结构模板

2.1 标准模板

[镜头说明] + [场景身份] + [人物身份] + [动作链] + [情绪/状态] + [画质约束]

2.2 分步填写

第一步:镜头说明(放在最前面!)

格式:{镜头类型} + {拍摄距离} + {镜头运动} + {光线结构}
示例:低角度镜头,中景,缓缓推进,手持微晃,轮廓光+环境光

核心:镜头说明放在提示词最前面。AI 顺序执行,先定义镜头容器 → 所有动作自然发生在该容器内部。

第二步:场景身份

格式:{空间类型} + {时代/风格} + {光线/天气} + {环境状态}
示例:70年代审讯室,昏暗,一盏吊灯从天花板垂下,墙面有污渍

第三步:人物身份

格式:{人物身份} + {服装/妆造} + {当前状态}
示例:疲惫的中年侦探,衬衫领口敞开,脸上有汗,眼神涣散

第四步:动作链

格式:{起始状态} + {触发原因} + {主动作} + {身体联动} + {结束状态}
示例:原本靠在墙边,听到门外脚步声,缓缓抬起头,肩膀随之绷紧,视线锁定门的方向

动作链书写原则

  • 减少动词堆砌,增加状态词(迟疑地、持续地、重心偏移地)
  • 一个提示词只有一个主动作,其他是附属
  • 用状态约束替代时间词(不用"先停再抬手"→用"保持平衡站姿,手臂逐渐抬起")

第五步:情绪/状态

格式:{微表情} + {肢体语言} + {环境呼应}
示例:眼皮微微颤动,手指无意识地敲击桌面,房间里只有灯管的嗡嗡声

避免抽象情绪词(紧张、悲伤)→ 拆解到五官:眨眼频率、眉部状态、嘴唇抿或张

第六步:画质约束

格式:{风格词} + {画质词}(保持在 2-3 个词以内)
示例:电影感,4k,写实风格

三、不同场景的模板变体

3.1 单人表演

[低角度中景,镜头缓慢推进] [角色坐在床边] [一个刚失恋的年轻人,衣着随意,头发凌乱] 
[他低头看着手中的手机,屏幕亮着,拇指悬停在屏幕上方,肩膀轻微起伏] 
[眼眶微红,嘴唇抿着,呼吸不均匀] [电影感,自然光]

3.2 多人互动

[全景,固定镜头] [白天的咖啡厅角落] [两个人面对面坐著]
{主角:一个神情紧张的男人,身体前倾,双手握着杯子不放
 配角:靠在椅背上,双臂交叉,表情冷淡}
[男人嘴唇动了动想说话又停住,配角则偏过头看了一眼窗外]
[氛围僵硬,两人之间没有眼神交流] [电影感,柔和日光]

多人公式:主角色(位置+主动作+情绪)+ 副角色(位置+回应动作+情绪)+ 互动关系

3.3 产品/场景展示

[低角度慢慢拉远,稳定云台] [极简白色工作室] [一款电子产品放置在桌面上]
[灯光从左侧照亮产品表面,阴影缓慢移动,产品缓缓旋转一周]
[光泽均匀,暗部细节清晰] [广告感,超写实,8k]

3.4 动作/打斗

[低角度手持,微微晃动] [昏暗的巷道] [两个对峙的人影]
[一个人率先冲出,右拳挥出,身体随转动重心前移,另一人侧身躲避]
[爆发力,紧张] [电影感,冷色调]

复杂动作 → 先用分镜拆解为 6-8 个阶段 → 每个阶段单独生成 动作链:起始状态 → 预备动作 → 身体发力 → 主动作 → 结束定格


四、提示词检查清单(写完后自查)

❌ 剪掉的内容

  • [ ] 情绪词(高级感、电影感、唯美感)→ 用具体信息替代
  • [ ] 重复词(同义反复不会叠加效果)
  • [ ] 人类句式(不要写故事,要写结构)

✅ 确认的内容

  • [ ] 镜头说明在最前面
  • [ ] 三个身份已设定(人物+环境+场景)
  • [ ] 只有一个主动作
  • [ ] 情绪已拆解到五官/肢体
  • [ ] 参考图维度单一(每张图只负责一个维度)

五、进阶技巧

5.1 时间轴法(复杂场景)

把角色、背景、镜头的运动分配到不同时间段:

[0-3秒] 镜头稳定,角色静坐,背景静止
[3-6秒] 镜头缓缓推进,角色开始抬头,背景光影渐变
[6-9秒] 镜头推至特写,角色表情变化,背景完全虚化

5.2 反推优化

当已有参考视频时:

  1. 定位起始帧 → 爆发点 → 结束帧
  2. 提取相机运动参数(焦距变化、位移方向)
  3. 用参数化指令替代感性描述

5.3 角色声音同步

如果视频含对白,在提示词最后补充声音参数:

语气:按对话内容分段控制(句号减速、省略号停顿、感叹号爆发)
音色:按角色身份设定

六、常见错误

错误说明解决
多个主动作跑+回头看+说话 → AI 扭曲只保留一个主动作
指令冲突手持感 + 平滑运镜选一种拍摄逻辑
情绪词泛滥紧张地、悲伤地 → 无效拆解到五官动作
堆砌参考图一张图想同时控制构图+光线+风格每张图只负责一个维度
先写动作再写镜头AI 顺序执行,镜头丢了镜头放最前面

关联笔记

基于 Obsidian + VitePress 构建