← Research

AIGC Video Stack

视频不是会动的图

多数人把 AI 视频当 "会动的图" 来 prompt——5 秒一个 clip,物体飘移、镜头无语法、没声音、没剪辑。视频比图多三个全新维度:时间(运动物理 + 镜头语言)、声音(对白 + 音乐 + 音效)、叙事(剪辑 + shot list + post)。模型很强,但这三维都要你自己懂——这才是 AIGC 视频大师真正的分界。

那么,AI 生成视频呢? 类别创作能力栈 读时~30 min
路线图

三层共享 + 三层独有

视频沿用图的前三层(模型 / Prompt / 控制),只是技术细节变了。但 layer 4 开始,视频跟图分家——时间、声音、叙事这三维在图里根本不存在。橙色 layer 4 是分水岭:这是图人最容易忽略的第一个新维度,也是大多数 AI 视频"一看就 AI smell"的根源。

图没有的维度从这里开始 01 模型层 Video Diffusion 时间约束 02 Prompt 层 4 层结构 镜头描述 03 控制层 Motion brush 关键帧 + Ref 04 时间维度 镜头语言 物理 + 节奏 05 声音维度 Veo 3 + 外挂 对白/乐/SFX 06 叙事剪辑 Shot list Post pipeline
Roadmap. Layer 1-3 是图栈的视频版,概念相似只是参数变了。Layer 4-6 是视频独有的三个维度——图人初进视频区,这里就是踩雷的位置。橙色 layer 4(时间)是图人最容易撞墙的第一站。

模型层:把扩散模型扩到时间轴上

视频生成的底层骨架跟图相同——都是潜空间扩散(latent diffusion)。区别是图模型对一张 frame 去噪,视频模型对一组 frame 同时去噪,而且要求它们彼此连贯5

时间一致性是怎么实现的

视频模型通常基于一个预训练的图像 U-Net,在它的空间模块之间插入时间模块:跨帧注意力(cross-frame attention)、时间卷积、时间残差块56。训练时给每一帧独立加噪声,但去噪网络必须联合重建所有帧——这个约束逼模型学到运动结构,因为不学会就解不出题 🟢 high

这件事的实际后果你必须知道:

  • 角色一致性是结果,不是输入。模型靠时间注意力勉强保持脸 / 衣服跨帧一致——但这层一致性很脆,稍长 clip 就崩。所以"character LoRA"和"reference image"在视频里比图里重要 10 倍。
  • 视频长度有硬上限。计算量随帧数线性涨,内存随帧数+分辨率几乎指数涨。2026 主流模型 single-pass 上限大约 5-10s。再长要拼接。
  • 运动物理是涌现的,不是显式建模的。模型从训练数据里学到"水会流、布会飘、头发会晃"——但学得不完美。物理崩坏是 AI 视频"AI smell"的主要来源。

2026 年的模型景观

跟图一样,视频景观已经碎片化——没有"最强"1234。每个模型有它的生态位 🟢 high:

模型最擅长价格适用
Veo 3.1 (Google)全能 + 原生音频~$0.15/秒默认生产选择
Kling 3.0人体动作真实、多镜头 storyboard~$0.10/秒复杂动作、性价比
Runway Gen-4.5控制工具最全(motion brush + keyframes + ref)中价位商业广告、需精确控形
Sora 2 (OpenAI)质量强,但 2026-09-24 停 API~$0.75/秒不要锚定新管线
Luma Dream Machine氛围感、image-to-video中低艺术 / 氛围短片
开源(Hunyuan / WAN / Mochi)可训 LoRA、本地部署0(算力成本)定制、商业管线
常见错答

"Sora 是最强的视频模型。"——这是 2024 年遗留的认知。2026 年的现实是:OpenAI 已宣布 Sora web/app 于 2026-04-26 关停,Sora API 于 2026-09-24 关停2。把任何新管线锚定在 Sora 上 = 主动设计技术债。

思考一下

视频比图贵 100-1000 倍(图 ~$0.01/张,视频 ~$0.10-0.75/秒,一个 10s clip 就是几百倍价差)。这个成本结构意味着"快速试错"的图工作流在视频里行不通——专业视频工作流必须先做 cheap 的预可视化(storyboard / animatic),再做 expensive 的真实生成。

Prompt 层:四叠层信息

图的 prompt 是描述一张静态图。视频的 prompt 是描述一个会动的场景——这个区别比多数指南承认的要重要7。模型同时处理 4 层信息:主体长什么样 / 镜头怎么动 / 光线怎么走 / 帧内什么在动。如果你只写第一层,模型把其余三层随机填 —— 这就是为什么 90% 的初学者作品看起来漂浮、镜头死板、物体抽搐🟢 high

1. 主体 Subject 谁/什么在画面里、位置、时间、地点 2. 镜头运动 Camera dolly / pan / tracking / crane + 速度 + 方向 3. 光线 Lighting 方向 / 质感 / 色温 (golden hour / neon spill) 4. 帧内运动 Motion 什么在动 / 速度 / 方向 (风、水流、脚步) 不写就被随机填。第 4 层最常被遗漏。
Fig 1. 视频 prompt 的四叠层。第 4 层(帧内运动)是图人最容易遗忘的——但它正是分辨"AI smell"和"真感觉"的关键。

不同模型仍是不同方言

2026 年视频 prompt 是模型相关的,跟图一样没有通用咒语89:

模型偏好的 prompt 风格
Veo 3.1叙事性自然语言段落,可以写对白("the man says: ...")
Kling 3.0结构化:[场景] + [主体动作] + [镜头] + [光线],适合细分镜
Runway Gen-4.5简单 prompt + 用 reference image + motion brush 显式控制
Sora 2长描述、多对象、复杂物理(但管线即将停)
Worked example — 四叠层 prompt 实战

意图:一个穿风衣的女人在东京后巷,雨后,夜里 3 点。

业余 prompt (只有第 1 层): A woman in a trench coat in a Tokyo alley at night ——结果:她可能不动,雨可能不下,镜头可能不动,光可能随机。漂亮的 still,不是 video。

大师 prompt (四层全写): Subject: a woman in a long beige trench coat walking slowly down a wet Tokyo backstreet at 3 AM. Camera: slow tracking shot following her from behind at hip height, gentle handheld feel. Lighting: red and cyan neon signage reflects on wet asphalt, key light from a vending machine to camera-right. Motion: light rain falling continuously, steam rising from a manhole, her coat tail flutters with each step, distant car headlights pass across the back wall.

这个版本模型才知道每一层要什么。

常见错答

"prompt 写得太具体会限制模型创造力。"——错。视频跟图都吃信号密度。不写第 2-4 层,模型不是"自由创作",是随机填空。"她在走"模型可能给你她在原地抽搐——这不是创造力,是没指令。

控制层:视频的三件套

图有 ControlNet + IP-Adapter + LoRA。视频对应的三件套是 motion brush(区域运动控制)+ keyframes(关键帧锚定)+ reference image(角色/风格一致性)910。这是单凭 prompt 做不了的精细控制 🟢 high

工具控什么哪些模型有典型用法
Motion brush区域运动方向 + 强度Runway, Kling画一笔指示"这里要动、往左、慢"
Keyframes起 / 中 / 末画面锚定Runway Gen-4.5给首/末帧,模型补中间(可加 middle 关键帧)
Reference image角色 / 风格 / 色调一致Runway, Kling多镜头同人物、品牌色统一
Camera control镜头运动类型(dolly / pan / orbit)Runway, Kling显式选镜头运动,不靠 prompt
Video LoRA自定义概念 / 角色 / 风格开源 (Hunyuan, WAN)训品牌人物、商业系列

Motion brush 是 2026 年的杀手锏

Motion brush 让你在首帧上画区域,指定哪里动、往哪动、多快9。这是 prompt 没法精确表达的能力——"风吹左边树叶"用文字说,模型可能误解成整片场景的风;用 motion brush 在树叶区域画箭头,你拿到的就是精确局部运动。

这是 Runway 和 Kling 比 Veo / Sora 强的核心差异——Veo 输出更"漂亮"但不可精确控;Runway / Kling 用 motion brush + keyframes 可以做可重现的商业管线。生产场景里,可控性 > 单镜头质量。

Worked example — 一个 5s 商业镜头的控制流

任务:香水广告 5 秒镜头——香水瓶在大理石桌上,光从左侧斜射,镜头慢慢推近,瓶身反光随镜头移动。

Keyframe 起:瓶子全景,镜头距离 1m。

Keyframe 末:瓶子特写,镜头距离 0.3m,反光焦点变化。

Motion brush:瓶身反光区域标"逆时针缓慢移动"(模拟光线滑过)。

Camera control:"slow dolly in, smooth gimbal, no shake"。

Prompt:简短叙述场景 + 光线 + 大理石质感。

没有这套控制,模型可能给你瓶子飘起来 / 镜头晃 / 反光乱跳——纯 prompt 工作流在商业场景里几乎不能交付。

反证

有人会说"Veo 3 内部已经吸收了大部分控制能力,prompt 就够"——确实,Veo 3 的整体质量很多场景下不需要外部控制。但商业管线需要的不是质量,是可控可重现。Veo 的"漂亮但不可控"在艺术创作里是优点,在广告管线里是缺点。这就是为什么 Runway 在 marketer 群体里份额最大,即使 Veo 单镜头质量更高。

时间维度——图没有的语法

这一节是整篇讲稿的核心。前三层都是图的语法的视频版,layer 4 是真正的新世界。会拍片的人(导演、摄影、剪辑师)在这里天然占便宜——他们脑子里有一套完整的时间语法,图人没有。打到这层你的视频才有"片子味",而不是"漂亮的会动的图"。

必须能脱口而出:镜头运动术语

这些是真实电影摄影的专业词汇,模型在训练时全学过,你写得越具体它越听得懂79:

  • Dolly in / out:整个镜头朝主体推近/拉远(物理移动,改变空间关系)
  • Zoom in / out:焦段变化(镜头不动,只改放大率)——跟 dolly 视觉感受完全不同,2026 模型大多数能区分
  • Pan left / right:镜头水平旋转(摇头)
  • Tilt up / down:镜头垂直旋转(点头)
  • Tracking shot:镜头跟随主体平行移动(profile tracking, following tracking)
  • Crane up / descend:摇臂垂直运动,常用于揭示性开场
  • Orbit / arc:绕主体做圆周运动
  • Steadicam / gimbal:平稳浮动镜头,vs handheld(有微抖动)
  • Whip pan:快速横扫,常用于切场过渡
  • Push-in:慢慢推近,常用于情感升级
  • Locked-off:镜头完全不动

节奏:镜头长度暗示情绪

这是图人完全没有的直觉。同一个画面,3 秒 / 6 秒 / 10 秒看完全不一样:

  • 1-2 秒:stinger 节奏 / MV 节奏 / TikTok 切镜节奏。信息密度高,不留思考。
  • 3-5 秒:广告标准长度,刚够让眼睛走完一遍画面。
  • 6-10 秒:cinematic 长度,允许情绪累积、镜头运动展开。
  • 10+ 秒:艺术片 / 一镜到底节奏。要么主体在变化,要么观众睡了。

2026 主流模型 single-pass 上限 5-10s——这不是限制,是节奏礼物:它逼你把每个 clip 当成一个独立"句子",从一开始就按剪辑节奏思考。

运动物理:AI smell 的主要来源

这是 layer 4 的暗坑。模型靠数据学物理——但学得不完美。常见崩坏:

  • 重力错乱:物体悬空、下坠速度违和
  • 布料抽搐:衣服 / 头发动得"看起来对但摸起来不对"(模型不懂关节)
  • 液体反常:水流方向乱跳、咖啡杯倾倒角度不对
  • 手指 / 关节:依然是 2026 视频生成最难的部分
  • 角色一致性崩:同一人在第 5 秒变了脸或换了衣服

大师不假装不存在,而是主动绕开——选不易暴露物理的镜头(背身 / 局部 / 暗光 / 慢动作),用 motion brush 控制可疑区域,后期 inpaint 修关键帧。

Worked example — 同一场景,vague vs specific

意图:一个人在山顶看日出。

Vague (业余): A person on a mountain at sunrise, cinematic, beautiful——结果是漂亮的 still,镜头死板。

Specific (大师): Slow ascending crane shot starting from behind a hiker's silhouette at a mountain summit, revealing the cloud sea below as the camera rises. Gentle gimbal stabilization. Subject stays mostly still, only her hair and jacket flutter in slow wind. Golden hour key light from frame-right, blue ambient fill from sky. 6-second duration, pace to allow emotional accumulation.

差距在四件事:(1) crane shot 这个具体镜头运动 (2) 上升节奏 + 揭示性构图 (3) 主体几乎静止,只有头发/衣服动——避开了人物动作物理崩坏的风险 (4) 6 秒长度,镜头有时间展开。

常见错答

"镜头描述用 cinematic 就够了。"——这是 2024 年遗留的咒语,2026 模型把它当噪声7。"cinematic" 是结果不是输入。具体到 "slow dolly in" / "handheld with gentle shake" / "locked-off wide" 才有用。

思考一下

翻一下你做过的 10 个视频 clip——里面有几个用了具体的镜头运动术语?如果全都是 "smooth camera movement" 或 "cinematic shot",你卡在 layer 3。解药不是新 prompt 技巧,是看真实电影 + 记镜头表。

声音维度——Veo 3 与外挂工具

图完全没有的维度。专业视频的声音占感知质量的 50%(电影学院基本常识)——但 90% 的 AI 视频创作者跳过这层,直接出"无声 5 秒 clip"。这是为什么这些作品看起来"漂亮但虚",缺一根支柱。

三种声音必须分别处理

  • 对白 (Dialogue):角色说话。需要 lip sync 准确。
  • 音乐 (Music):情绪基底。non-diegetic(画外配乐)或 diegetic(画内声源)。
  • 音效 (SFX):脚步、风、玻璃碎、机械——让画面"有触感"的关键。

Veo 3 vs 外挂工具的取舍

Veo 3 是 2026 第一个原生同时生成视频和音频的主流模型1113。它的优势在场景感知音效——脚步声跟脚的视觉动作同步、嘴型跟对话同步、环境声跟画面元素对应 🟢 high

专业音频质量上,Veo 3 的内置生成弱于专门工具11:

声音类型Veo 3 内置专门工具(更高质量)
对白OK,lip sync 好但音色单一ElevenLabs(声音克隆 / 多语言 / 情感控制)
音乐简单背景音,缺旋律Suno / Udio / MusicGen(完整带旋律 / 编曲)
SFX / 环境强项——跟画面同步很难超越 Veo 的场景同步(Audiogen 等可补)
Lip sync 后期Veo 3 原生 OKHedra / Sync Labs / D-ID(单独修)

主流的"混合工作流"

2026 专业管线一般是:

  1. Veo 3 出视频 + 同步 SFX/ambient(场景声的同步性是它独家优势)
  2. ElevenLabs 单独出对白,用 voice clone 锁角色音色,后期合成回视频(可叠 Veo 3 的口型)12
  3. Suno 出音乐(写一个 prompt 描述情绪 + 风格,生成可下载 mp3)
  4. DaVinci Resolve 混音(对白 / 音乐 / SFX 三轨平衡)
Worked example — 一个 30 秒广告的声音工作流

视频:Veo 3 生成 6 个 5 秒 clip,各带场景同步 SFX(脚步、关门、咖啡机声)。

对白:剧本里有 2 句旁白。ElevenLabs 用品牌指定的女声 voice clone 生成,情绪标"温暖、低音、慢"。

音乐:Suno prompt "ambient piano + soft strings, 90 BPM, melancholic but hopeful, 30 seconds",生成 4 个版本选一个。

混音:DaVinci Resolve 三轨——音乐 -18dB / 对白 -6dB / SFX 自然电平。母带 -14 LUFS。

总耗时:约 4-6 小时。纯 Veo 3 一次出的版本耗时 1 小时,但听起来"廉价"——多数人感觉不出差在哪,但专业人士一耳朵分辨

常见错答

"Veo 3 自带音频就够了,不用外挂工具。"——对 social 短片够,对商业广告不够。对白音色单一是品牌片的硬伤,音乐缺旋律是情绪片的硬伤。Veo 3 的内置音频是底线,不是天花板

叙事与剪辑——从 prompt 到片子

5 秒 clip 是素材,不是作品。30 秒以上、有起承转合、多镜头切换、声画统一——这才叫"片子"。这一步把一堆 AI clip 串成片子,需要导演 + 剪辑师的脑子,不是 prompt 工程师的脑子1415

专业流程从 script 开始,不从 prompt 开始

新手:打开 Runway / Veo,写 prompt,出 5 秒 clip,改 prompt 再出。反复迭代单镜头——再好也是孤岛。

专业:

  1. Script:剧本或脚本。30 秒广告就是 30 秒可拍剧本,不是 prompt。
  2. Shot list:把 script 拆成 8-20 个具体镜头。每镜头标明 time(秒数) / camera(镜头运动) / action(主体动作) / lighting(光线) / sound(声音)14
  3. Animatic:用图生模型(MJ / Flux)先做 storyboard,验证视觉决策——这一步比真实视频生成便宜 100 倍。
  4. 单镜头生成:按 shot list 逐个生成,每个镜头独立 iterate。
  5. 剪辑拼接:DaVinci Resolve 或 Premiere 把 clips 串起来,卡音乐节奏。
  6. AI 后期:Topaz Video AI 放大 / 锐化,DaVinci Magic Mask 抠像修局部16
  7. 声音混制:对白 + 音乐 + SFX 三轨平衡。
  8. 导出 + 调色:DaVinci 调色 → 最终输出。
1. Script 可拍剧本 2. Shot list 8-20 镜头拆分 3. Animatic 图生 storyboard 4. 单镜头生成 Veo / Runway / Kling 5. 剪辑 DaVinci / Premiere 6. AI 后期 Topaz / Magic Mask 7. 声音混制 对白 / 乐 / SFX 8. 调色 + 导出 DaVinci color
Fig 2. 八阶段 AI 视频生产管线。注意阶段 3(animatic)用生模型预可视化——视频太贵,先用图模型走一遍 storyboard 验证视觉决策再上视频。这是 AIGC 视频独有的成本优化。

剪辑节奏:大多数 AI 视频死在这一步

会拍 5 秒漂亮 clip 的人多,会把 6 个 5 秒 clip 剪成 30 秒有情绪的片子的人少。剪辑节奏的几条基本规律:

  • 节奏跟音乐打:每个 cut 落在音乐 beat 上,人脑会自动接收
  • 动作匹配剪(match cut):一个 clip 末帧的视觉动作连接到下个 clip 首帧——剪辑变隐形
  • 30 度法则(借自传统电影):两个 clip 镜头角度差<30 度时,看起来像"跳剪",观众出戏
  • L cut / J cut:声音先于画面切(或后于),让转场柔顺
反证

有人说 "AI 视频应该走 AI 原生形态,不应该套电影规则" ——比如玻璃goblin式的 AI 怪诞短片就是用 AI 原生美学。这条路存在,但是窄路:它需要你足够到形成新美学。多数人没那个艺术冒险,套用电影规则才是稳健起点。先掌握规则,再决定要不要打破。

常见错答

"AI 视频应该 prompt 直接出 30 秒成片。"——技术上目前不行(模型上限 5-10s),美学上也不应该。30 秒一镜到底是高难度艺术选择,不是默认形态。专业 30 秒广告基本都是 5-8 个 cuts。

综合判断

三共享 + 三独有,大师在后三层

直接回答原问题——AI 视频跟 AI 图相比,底层共享前三层(模型 / Prompt / 控制),独有后三层(时间 / 声音 / 叙事)

Layer 1-3 是图栈的视频版:概念相似,参数变了。如果你已经有图生功底,这三层平移过来 1-2 个月可以基础熟练。区别是视频比图贵 100-1000 倍,所以"快速试错"的图工作流必须改造——专业流程先做 cheap 的图生 storyboard / animatic,再做 expensive 的视频生成。

Layer 4(时间)是真正的分水岭。会拍片的人在这里天然占便宜——他们脑子里有完整的镜头运动术语库(dolly / pan / tracking / crane)和节奏直觉(1s stinger / 5s 广告 / 10s cinematic)。图人最容易在这撞墙——5 秒 clip 漂亮、但镜头死板、运动飘移、物理崩坏。解药是看电影 + 记镜头表,不是新 prompt 技巧。

Layer 5(声音)被 90% 的人跳过。Veo 3 原生音频是底线不是天花板——专业管线还是要 ElevenLabs(对白)+ Suno(音乐)+ Veo 3 的 SFX 同步组合。声音占感知质量 50%,跳过它你的"片子"就只是"会动的图"。

Layer 6(叙事)是大师区。从 5 秒 clip 升级到 30 秒成片,需要的不是更好的 prompt 工程师,是导演 + 剪辑师的脑子:Script → Shot list → Animatic → 单镜头生成 → 剪辑 → 后期 → 混音 → 调色。这一层不能委外给 AI,跟图栈 layer 6(品味)一样是终身工程

具体学习顺序建议:已经会图生 → 直接学 layer 4-6,1-2 个月打透。没图生基础 → 先打图(2-3 月)再上视频。无论哪条路,layer 6(叙事)从第一天开始:看电影时主动拆镜头(数 cuts、记镜头运动、感节奏)——这复利最大,起步越晚损失越大。

成本警示:视频比图贵 100-1000 倍。失败的迭代代价大。专业流程必须先 cheap 后 expensive——storyboard(纸笔)→ animatic(图生)→ 视频生成。跳过前两步直接上视频,等于燃钱开黑工。

不确定性

关键不确定性

  • 模型版本变化非常快。本讲稿 §01 的具体名字(Veo 3.1 / Sora 2 / Kling 3.0 / Runway Gen-4.5)写于 2026-05-16。Sora 2 已确认 2026-09-24 停 API,其他模型 6-12 个月内必有新版。生态位结构稳定(全能王 / 控制王 / 动作王 / 氛围王),具体名字会换 🟡 med
  • "分水岭在 layer 4(时间)"是观点不是事实。基于多家 2026 视频生成评测和本讲稿作者经验——但没有 controlled study 证明"懂镜头语言的人 AI 视频质量更高"。同样可能 layer 5(声音)或 layer 6(叙事)才是真正的分水岭,因人而异 🔴 low
  • 跨 clip 一致性 / 长视频生成仍在快速演化。2026 年 Veo 3.1 + Kling 3.0 都开始有"multi-shot storyboard"模式,但跨 60 秒以上的角色一致性、场景连续性还没解决。本讲稿假设 ">30 秒需多 clip 拼接"——6 个月后这条假设可能过时。
  • "AI 视频要套电影规则"是争议立场。AI 原生美学派(Gossip Goblin 那类怪诞短片)反对把电影语法当默认。本讲稿采纳"先掌握电影规则、再决定打破"的稳健路线,但承认这不是唯一对的路 🟡 med
  • "声音占感知质量 50%"是电影学院的口头数字,不是 measured fact。直觉上对,严格量化没人做过。
  • 不同视频类型的大师标准不同。商业广告大师、AI 短片大师、社交短视频大师、AI 故事片大师——四种"大师"权重不同(广告偏 layer 3+6,故事片偏 layer 4+6,社交短偏 layer 1+2)。讲稿偏广义视觉创作大师,商业偏多 🟡 med
引用

Sources

  1. Pixflow — Best AI Video Generator in 2026: Runway, Veo, Seedance, Kling & Morehttps://pixflow.net/blog/best-ai-video-generator/
  2. Lushbinary — AI Video Generation 2026: Sora 2 vs Veo 3.1 vs Kling 3.0 Comparedhttps://lushbinary.com/blog/ai-video-generation-sora-veo-kling-seedance-comparison/
  3. Tona.AI — Kling 3.0 vs Runway vs Sora 2: AI Video Comparison 2026https://tonaai.io/blog/kling-3-vs-runway-vs-sora-comparison-2026
  4. Get AI Perks — Best AI Video Generators 2026: Sora 2 vs Veo 3.1 vs Kling 3.0 vs Runwayhttps://www.getaiperks.com/en/blogs/44-best-ai-video-generators-2026
  5. Gopi Krishna Tummala — Video Diffusion Fundamentals: The Temporal Challengehttp://gopikrishnatummala.com/posts/video-diffusion-fundamentals/
  6. Stream / getstream.io — Temporal Consistency — What is it and how does it work?https://getstream.io/glossary/temporal-consistency/
  7. eWeek — 10 Best AI Video Editing Prompts in 2026https://www.eweek.com/news/best-ai-video-editing-prompts-2026/
  8. Imagera AI — 100+ AI Video Generation Prompts for Cinematic Results (2026)https://imagera.ai/prompts/ai-video-generation-prompts-2026
  9. Medium / Kristopher Dunham — How to Actually Control Next-Gen Video AI: Runway, Kling, Veo, Sora Prompting Strategieshttps://medium.com/@creativeaininja/how-to-actually-control-next-gen-video-ai-runway-kling-veo-and-sora-prompting-strategies-92ef0055658b
  10. Pollo AI — How to Use Runway AI Camera Control [Step-by-Step]https://pollo.ai/hub/how-to-use-runway-ai-camera-movement
  11. Veo3ai.io — Veo 3 Audio: How Google's AI Video Sound Generation Works (2026)https://www.veo3ai.io/blog/veo-3-audio-sound-generation-guide-2026
  12. ElevenLabs — Google Veo 3.1 with ElevenLabs: Professional Video Generationhttps://elevenlabs.io/video/google-veo-31
  13. MindStudio — What Is Google Veo 3? The AI Video Model with Built-In Audiohttps://www.mindstudio.ai/blog/what-is-google-veo-3-video-audio
  14. 601 Media — AI Filmmaking Workflow: 2026 Text-to-Video Movie Pipelinehttps://www.601media.com/ai-film-workflow-from-script-to-final-cut-no-camera-no-crew/
  15. M Studio — Script to Storyboard to Film: AI Filmmaking Workflowhttps://mstudio.ai/blog/ai-filmmaking/script-to-storyboard-to-film-ai-workflow
  16. Pixflow — AI Video Tools in 2026: The Complete Creator's Guide to AI-Powered Editinghttps://pixflow.net/blog/ai-video-tools-in-2026/