Skip to content

AI 视频角色控制:演技、动作与站位

一、消除AI角色的"待机感"

AI 角色假不是因为五官不够真实,而是因为这个人太闲了

单人公式

角色 + 正在做的小事 + 下意识反应 + 情绪落点

下意识小动作例子:等车时回消息、坐电梯时看楼层按钮、无意识转杯子、咬吸管、抠手指、拍照前拨刘海 → 这些动作有效是因为它们不是被设计的,而是人的自然反应

多人公式

不要让每个人都在表演 → 让一个人行动,另一个人反应 多个人物提示词的关键不是动作越多越真实,而是人物之间要有反应


二、微表情与演技

将情绪翻译为五官动作

不要只写抽象情绪词,要拆解到五官:

情绪无效写法有效写法
紧张紧张地眨眼频率加快、眼神闪躲、手揉搓在一起、嘴唇微抿、呼吸变得不均匀
害羞害羞地眼神不自觉地向下看 + 摸脖子 + 挠耳朵
压抑压抑着眼珠快速转动、忍住不看

最真实的表情在情绪转换的瞬间

  • 一个镜头保持平稳 → 下一秒突然变化 → 落差本身就是情绪

三、动作链公式

单动作链

起始状态 + 触发原因 + 预备动作 + 身体发力 + 主动作 + 情绪变化 + 结束定格 + 镜头配合

不要只写动作的结果,要写清楚:

  • 人物原本在做什么
  • 为什么开始动
  • 动之前身体有什么准备
  • 动作怎么发生
  • 动作之后停在什么状态

步态决定一切

不要只写"走路" → 要写"缓慢走、谨慎走、端庄走、沉稳走" 步态必须匹配场景氛围(夜晚古街需要安静谨慎的步态)

身体联动

头部一动 → 肩膀、上身、手臂、手部也会跟着有反应 公式:一个主动作 + 多个身体部位的细微配合


四、避免动作崩坏的三个技巧

1. 减少动词,增加状态词

堆叠动作动词(走、抬头、停)→ AI 试图同时满足所有动词 → 扭曲 解法:保留一个核心动作,用状态词(迟疑地、持续地、重心偏移地)描述节奏

2. 一个主动作锚定全身

多身体部位同时指令 → AI 不知道哪个是主体 解法:一个提示词只有一个主动作,其他都是附属 示例:走路 + 转头 → 走路是主动作,头部方向是修饰,不是独立动作

3. 序列翻译为状态约束

不要写"先停再抬手"(AI 对时间逻辑词不可靠) → 写"保持平衡站姿,手臂逐渐抬起"(状态词定义物理条件)


五、控制角色站位精准

问题

AI 不理解空间位置,扩散模型只是在噪声中还原一张图

方法一:视觉标注法(最精准)

  1. 生成一张场景图
  2. 用箭头或框标出角色站位、运动轨迹
  3. 将标注图作为参考图生成
  4. 提示词中说明去掉选框

方法二:分色轨迹法(多角色)

不同颜色区分每个人的轨迹 → AI 识别时不会混淆


六、分别控制多个角色动作

技巧1:时间段拆分

不要把所有人物和动作写在同一句话 → 用时间结构拆动作,AI 对时间结构的理解比自然语言顺序更清晰

技巧2:锁定已满意的角色

修改一个角色时,其他角色也会改变 → 使用即梦 Son 2.0 或可灵视频编辑功能,明确指定需修改的角色和被保留的部分

技巧3:复杂动作分阶段

复杂动作→ 拆成多个阶段 → 逐个生成 很多流畅的 AI 视频并非一次生成,而是拆成多阶段慢慢生成的


关联笔记

基于 Obsidian + VitePress 构建