Skip to content

AI 视频工作流:故事板、分镜与工具技巧

一、AI 故事板四步流程

AI 视频不稳定不是因为提示词写不好,而是因为 AI 在生成视频之前不理解拍摄计划

正确流程

  1. 确定角色:使用角色身份卡(GPT Image 2.0 生成三视图,白底)
  2. AI 生成剧情:保持简单、可视觉化,适合 6-8 个镜头
  3. AI 生成故事板:手绘线稿风格,每格展示角色位置、景别、动作
  4. 生成概念效果图:统一光线、色调、材质、电影感
  5. 使用参考生成视频:最终提示词保持简洁

关键原则

  • 故事板解决"怎么拍"的问题,不是最终画质
  • 角色细节 → 角色身份卡
  • 画面风格 → 概念效果图
  • 故事板只需要把镜头讲清楚

二、复杂动作视频的两种方法

方法1:原创分镜法

  1. AI 设计角色和场景(ChatGPT/Gemini)
  2. 生成 12 宫格分镜图 → 动作分解为离散步骤
  3. AI 根据分镜生成 Seedance 2.0 提示词
  4. 角色 + 场景 + 提示词 → Seedance 2.0

核心:先将复杂动作分解为分镜 → 再将分镜翻译为视频提示词

方法2:视频参考法

已有动作良好的参考视频时:

  • 直接传入参考视频 + 角色图 + 场景图 → Seedance 2.0
  • 优势:动作更稳定(参考视频已包含完整运动节奏)
  • 注意:商用需注意版权

两种方法可结合 → 先方法1做基础设计,再方法2做动作稳定参考


三、Seedance 2.0 创意玩法

1. 自定义运镜

使用全能参考功能 → 在 Blender 中搭建简单模型 + 录制想要的画面 → Seedance 复刻任意复杂运镜

2. MV 制作

  • 音频直接输入 Seedance → 自动口型同步
  • 省额度技巧:提示词中加时间轴 → 一次生成完整序列(远景/中景/近景全有)

3. 特效生成

  • 错误:前期生成图片时加特效 → 特效非常不稳定
  • 正确:先生成不带特效的画面 → 特效用其他工具融合 → 再让 Seedance 生成

四、GPT Image 2.0 五大玩法

1. 文字内容生成

电商详情页、海报设计、VI 手册 → 文字排版完美 隐藏技巧:可要求直接生成 PSD 文件

2. 超真实内容

实拍风格场景图、截图类画面 → 真实性极高

3. 多模态创作联动

  1. Image 2.0 做角色设定 → 生成角色、道具、世界观氛围
  2. 根据剧情直接生成分镜(含画面参考、景别、运镜)
  3. 丢给视频模型直接生成成片 → 适用于短剧、广告片、MV、游戏动画

4. 品牌物料

输入产品图片 → 自动生成电商详情页(含文字)

5. 产品原型

GPT 生成 UI 设计图 → Cursor 写代码 → 生成产品原型/小游戏/网页 demo


五、AI 视频续写与长视频制作

问题

大多数 AI 工具最长只能生成 15 秒 → 首尾帧方法效果不佳

四种方法

  1. 视频延展法(最佳):不用首尾帧(图片)→ 用视频本身延展。截取上段结尾 3 秒 → 直接输入 Seedance 2.0
  2. 故事板拆分:在分镜阶段就把镜头设计成 15 秒内能完成的小剧情
  3. 动作重叠法:第二段开头先重复上段最后动作 → 找到更顺的衔接点
  4. 终极秘籍——直接剪掉:不是商用的话,卡顿帧直接剪掉 + 运动模糊/转场

元素替换

精准原理:精准替换的本质不是改内容,而是控制变化范围

方法1 - 遮罩+静帧(最精准):

  1. 视频每隔一秒导出静帧 → 遮罩覆盖替换区域 → Banana 补上新元素 → 多帧替换后丢给可灵 Omini

方法2 - 参照物法: 不要只写"把杯子换成花瓶" → 写"把桌子上的杯子换成花瓶,位置不变"


六、角色声音一致性三法

1. 声音母带法

  • 将满意的音频片段保存为独立文件
  • 每次生成时上传作为声音参考
  • 来源:历史生成、经典影视(注意版权)、自己录音

2. 独立声音模型

  • 角色图 + 性格描述 → 设计声音风格(音色、音调、语速)
  • 用该规格在专用声音模型中生成 → 一旦满意永久使用

3. 情绪声音库

  • 预生成一组情绪声音样本(每个情绪一个短片段)
  • 创作新对白时直接匹配场景情绪 → 音色一致 + 情绪稳定

声音控制技巧

  • 音色:用"声音公式"(结构化描述符模板)
  • 语气:不要写情绪词 → 写产生该情绪的过程/环境
  • 语速:标点符号是天然节奏控制器(句号减速、省略号停顿、感叹号爆发)

七、参考图使用三大误区

误区1:参考图 = 成品目标

AI 将参考视为可学习特征(光影分布、材质倾向),不是目标 正确:先明确参考图负责的单一维度 → 提取该特征 → 融入提示词

误区2:一张图教太多

一张图同时要求构图 + 光线 + 提示词也密集 → 指令冲突 正确:每张参考图只负责单一维度,文本通道避免对该维度的干预

误区3:用参考图弥补文本缺陷

正确流程:先用纯文本稳定画面结构 → 再用参考图优化一个具体维度


八、隐性问题:故事板工作流中的信息断层

故事板四步流程中存在一个容易被忽略的信息断层:

人物生成(image2.0,含完整光影氛围描述)
    → 三视图(白底图,光影信息丢失)
        → 故事板(手绘线稿,光影信息丢失)
            → 预想效果图(此处需要重建光影)
                → 最终视频

原提示词中精心设计的氛围光影(如"暖黄色灯笼光斑"、"清晨自然光"、"暗部层次冷暖对比")在 三视图故事板 两步中被白底和线稿过滤掉了。到 预想效果图 这一步,提示词只说了"体现整体风格、光线、色调",实际上是靠 AI 自行脑补,而不是精确还原最初的设计。

解决方案

方案一:在预想效果图提示词中显式声明光影

不要只用通用模板,把原始人物生成时的光影/氛围描述写进去:

光线要求:暖黄色灯笼光斑,人物面部柔和补光,低饱和暖白色调,
有明显暗部层次和反光质感。色调要求:暖白+深棕,整体干净克制有电影感。

方案二:直接用人物成品图做参考

不经过白底三视图,直接用第一步生成的人物成品图(含原始光影)作为预想效果图的参考图1,三视图作为图2辅助。光影信息通过图片通道直接传递,不必全部靠文字重建。

方案三:保留原始氛围描述作为独立模板变量

在人物生成提示词中,把氛围光影描述提取为独立变量,后面三视图、故事板、效果图各步骤中重复引用这个变量。这样即使图片通道丢失了信息,文字通道仍然完整传递。

关联笔记

基于 Obsidian + VitePress 构建