Appearance
AI 视频角色控制:演技、动作与站位
一、消除AI角色的"待机感"
AI 角色假不是因为五官不够真实,而是因为这个人太闲了。
单人公式
角色 + 正在做的小事 + 下意识反应 + 情绪落点
下意识小动作例子:等车时回消息、坐电梯时看楼层按钮、无意识转杯子、咬吸管、抠手指、拍照前拨刘海 → 这些动作有效是因为它们不是被设计的,而是人的自然反应
多人公式
不要让每个人都在表演 → 让一个人行动,另一个人反应 多个人物提示词的关键不是动作越多越真实,而是人物之间要有反应
二、微表情与演技
将情绪翻译为五官动作
不要只写抽象情绪词,要拆解到五官:
| 情绪 | 无效写法 | 有效写法 |
|---|---|---|
| 紧张 | 紧张地 | 眨眼频率加快、眼神闪躲、手揉搓在一起、嘴唇微抿、呼吸变得不均匀 |
| 害羞 | 害羞地 | 眼神不自觉地向下看 + 摸脖子 + 挠耳朵 |
| 压抑 | 压抑着 | 眼珠快速转动、忍住不看 |
最真实的表情在情绪转换的瞬间
- 一个镜头保持平稳 → 下一秒突然变化 → 落差本身就是情绪
三、动作链公式
单动作链
起始状态 + 触发原因 + 预备动作 + 身体发力 + 主动作 + 情绪变化 + 结束定格 + 镜头配合
不要只写动作的结果,要写清楚:
- 人物原本在做什么
- 为什么开始动
- 动之前身体有什么准备
- 动作怎么发生
- 动作之后停在什么状态
步态决定一切
不要只写"走路" → 要写"缓慢走、谨慎走、端庄走、沉稳走" 步态必须匹配场景氛围(夜晚古街需要安静谨慎的步态)
身体联动
头部一动 → 肩膀、上身、手臂、手部也会跟着有反应 公式:一个主动作 + 多个身体部位的细微配合
四、避免动作崩坏的三个技巧
1. 减少动词,增加状态词
堆叠动作动词(走、抬头、停)→ AI 试图同时满足所有动词 → 扭曲 解法:保留一个核心动作,用状态词(迟疑地、持续地、重心偏移地)描述节奏
2. 一个主动作锚定全身
多身体部位同时指令 → AI 不知道哪个是主体 解法:一个提示词只有一个主动作,其他都是附属 示例:走路 + 转头 → 走路是主动作,头部方向是修饰,不是独立动作
3. 序列翻译为状态约束
不要写"先停再抬手"(AI 对时间逻辑词不可靠) → 写"保持平衡站姿,手臂逐渐抬起"(状态词定义物理条件)
五、控制角色站位精准
问题
AI 不理解空间位置,扩散模型只是在噪声中还原一张图
方法一:视觉标注法(最精准)
- 生成一张场景图
- 用箭头或框标出角色站位、运动轨迹
- 将标注图作为参考图生成
- 提示词中说明去掉选框
方法二:分色轨迹法(多角色)
不同颜色区分每个人的轨迹 → AI 识别时不会混淆
六、分别控制多个角色动作
技巧1:时间段拆分
不要把所有人物和动作写在同一句话 → 用时间结构拆动作,AI 对时间结构的理解比自然语言顺序更清晰
技巧2:锁定已满意的角色
修改一个角色时,其他角色也会改变 → 使用即梦 Son 2.0 或可灵视频编辑功能,明确指定需修改的角色和被保留的部分
技巧3:复杂动作分阶段
复杂动作→ 拆成多个阶段 → 逐个生成 很多流畅的 AI 视频并非一次生成,而是拆成多阶段慢慢生成的