ViT架构
Sora,正是Diffusion Transformer(DiT)这一技术路线的集大成者。它将视频视为一个由时间、高度、宽度三个维度构成的超长序列,利用Transformer强大的长序列建模能力来捕捉时空关联,再通过扩散模型的逐步去噪过程,生成最终的动态画面。
这种端到端的架构,其最大成就在于自然感的涌现。传统的三维建模渲染流程,无论材质、光线、物理模拟多逼真,总会带有一种刻意的CG感。而Sora2这样的模型,是直接从真实世界的海量影像中学习什么是自然的,它生成的光影、尘埃、皮肤纹理,带有一种无法被参数精确定义的、源于真实世界的混沌与和谐,这是它能让无数人惊呼以假乱真的根本原因。
但凡事都有两面。这种黑盒式的生成方式,在获得惊人自然感的同时,也牺牲了精确的控制与可解释性。它能画出看起来像杯子的东西,却不知道杯子作为一个物理实体,在时空中的存在意义,这正是它与影视工业的根本矛盾。
影视的底线:接戏
让我们暂时离开算法的世界,走进一个正在运转的影视剧组。你会发现,这里的一切都与黑盒的逻辑截然相反。
剧组大计划
影视拍摄,为了最大化场地、设备和人员的效率,几乎从不按照故事的时间线(剧本顺场)进行拍摄,而是将同一大小场景的戏份集中拍摄。这意味着,演员可能上午还在拍摄角色的成长阶段,下午就要化上中年妆,演绎十年后的场景。
这就引出了影视制作流程的重要工作:接戏。
接戏是一套极其严苛的连续性保障体系,确保所有为了相同场景一起拍摄而被打乱的片段,在最终剪辑时能无缝拼接成一个连续、可信、没有穿帮的剧情。
让我们用一个与表演相关的例子来感受它的复杂性,假设我们正在拍摄一部情感剧:
拍摄日期:8月17日
集场:3-15
时间空间:夜外
大小场景:高新区-公交站
概要:美得知帅背叛,雨中崩溃大哭
场次备注:美崩,哭眼红,泪痕
拍摄日期:8月25日
集场:3-18
时间空间:日内
大小场景:小美家-客厅
场次概要:美一夜未眠,神情憔悴
场次备注:美憔悴,黑眼圈,唇干裂,眼红退
这两场戏在实际拍摄中不是连续的,这一切的协调,都依赖于几个核心角色和一套成熟的体系。
剧组场记单
场记是导演意图的传递者和整个剧组连续性系统的中枢。这个岗位不仅要记录卡号文件号、景别、备注,更要记录下与表演连续性直接相关的信息。当然,组里还有服装、化妆、道具等专业岗位,他们各自负责本领域的细节记录,比如服装师会拍下每一套衣服的穿着细节和破损状态,道具会记录道具的位置和损耗。但场记需要将这些信息整合,并与导演的要求关联起来。
爱奇艺掌上制片小程序
笔者得知,部分平台在持续推进影视工业化进程,如爱奇艺众多自制定制项目,已经普及了内部研发的「影视制片管理系统」。场记可通过掌上制片小程序记录电子场记信息,这些信息与摄影机拍摄的素材文件在系统层面自动绑定。当素材备份到云端后,剪辑师可在自己的剪辑软件中,查看任何一个素材片段的元数据与场记信息:景别、角色、升降格、备注等。
这套略显繁琐但严谨的流程,是影视工业不可或缺的一部分。它确保了艺术创作不是随机的灵感迸发,而是一个可以被精确控制、被完整构建的可信世界。女主哭红的眼,不仅是妆容,也是心碎的证明,是叙事的一部分。没有这套体系,电视剧将充满无法容忍的穿帮,观众也会立刻出戏。
Sora的工业致命伤
现在,我们将Sora的黑盒架构,置于影视工业流程的视角,便会发现其两大致命伤:
第一,是艺术性的让渡与创作者的空心化。
影视作品的核心是创作者的表达。导演决定用哪个镜头,是为了传递一种情绪;演员的二次创作,是基于对角色内心世界的深刻理解。这些都是人类情感与思想的投射,是作品灵魂的来源。
Sora这种端到端的模型,本质上是将调度、表演、美术、灯光等所有充满创造性的环节,打包成一个的Prompt,然后让AI去猜你想要什么。这无异于将艺术创作的核心权力,从人让渡给了一个基于概率统计的模型。
《赴山海》
我们随机打开一个热播剧集。在《赴山海》萧秋水(成毅饰)与父母告别场次,萧秋水远去后萧西楼(丁勇岱饰)的眼中,能看到对儿子的不舍、对儿子成长的释然、对儿子舍生取义的自豪、还有此生可能再也见不到儿子的决然。我们很难用语言精确描述这个表演过程,但一个优秀的演员可以演出来。
而当你对模型输入:
家族小儿子舍生取义,为保江湖前辈突围迎敌,父母送别儿子的场景
它会生成一个海量数据中学到的与舍生取义和送别这两个标签最相关的「不舍脸」。它不理解中国传统文化的侠义,也不理解中国父亲含蓄的情感。
第二,是架构的控制失灵与因果的缺失。
现在,当我们想把控制权从AI手中拿回来时,会发现Sora的底层架构不支持。这源于扩散模型和Transformer的本质是关联模型,而非因果模型。
我们继续用杯子碎了的例子,在Sora的世界里你输入:
一个玻璃杯从桌上掉落,在木地板上摔碎
它会生成一个看起来非常逼真的摔碎过程,但每次生成出来的玻璃碴,都是不一样的。
但是,影视拍摄的要求是:
美碰杯子惊呼,帅抬头,给二人中景
杯子碎了美被烫,给玻璃碴特写带美脚
帅起身扶住美,给二人全景
杯子碎了的玻璃碴,需要在空间中全程保持形态与位置不变。
Sora能做到吗?几乎不可能。因为扩散模型的生成过程是随机的、不可复现的。你无法命令它重复上次杯子破碎的过程。它没有世界状态的概念,不记得上一个镜头生成的世界里,碎片是什么样子。
这种对微观世界状态的失忆,是因果缺失的技术根源,也是它无法接戏的根本原因。它无法构建一个统一的、有记忆、有因果的故事世界,只能生成一个个孤立和精美的片段。
影视AI,唯有解耦
那么,AI视频生成若想真正融入影视工业,前路为何?
答案:解耦,彻底放弃当前一键生成的幻想,回归工业化的管线思维。
为何必须解耦?
原因一,回归工业化本质,实现可控性。
影视创作早已不是小作坊模式,它是一个由数百人协作的精密工业体系。这个体系的核心,是环环相扣的标准化流程和管线,确保每一个环节的艺术意图都能被精确地执行和传递。Sora是逆工业化的,它是一个黑盒,无法拆解,无法干预。只有将视频生成的各个环节拆解开,形成一条可以被人类创作者随时介入、调整的AI管线,才能融入现有的工业体系。
原因二,化整为零,提升胜率。
影视画面的维度极其复杂,光线、构图、人物位置、人物表情、服装状态、道具状态,数不胜数。如果用端到端的方式抽卡,只要有一个维度出错,整个镜头就作废。如果解耦,我们可以为每个维度训练专门的模型,精确控制每一个参数,最后再组合输出,成功率将大幅提升。
原因三,保留过程数据,为修改留出余地。
影视创作离不开修改。导演可能临时决定让角色的情绪更悲伤一些。端到端生成意味着任何修改都要推倒重来。而解耦的管线保留了所有中间数据,修改时只需调整对应参数,即可快速生成新版本,这完全符合影视创作反复迭代的规律。
那么,应该如何解耦?
我们可以构想一个全新的、以数据为核心的工作流。比如,针对最复杂的演员状态,我们可以借鉴心理学中的面部动作编码系统(FACS),该系统将任何人类表情分解为44个独立的动作单元。我们可以投入海量的剧本、人物小传,以及过往优秀的表演片段,训练表情数值大模型。这个模型的输入是剧本描述,输出不是像素,而是一系列精确的AU数值。如此,模型既拥有了表演的泛化能力,又保留了创造性,同时其输出的后置流程是百分之百可量化和可编辑的。
影视工业级AI生成架构
通过这种方式,逐渐补齐画面中的各个维度。一个完整的镜头生成过程,就变成了:剧本或导演意图,先由各维度大模型输出结构化数据,比如表情AU值、动作骨骼数据、灯光参数等。然后,导演可以在数据层面进行微调,这就好比现实流程中导演给演员讲戏。最后,将最终的结构化数据输入到一个高级的渲染引擎中,生成最终的像素画面。
最终视频画面的输出,使用以世界模型为内核、以扩散模型为渲染引擎的混合架构。因为单纯的扩散模型依然缺乏因果推理能力,而世界模型致力于理解和模拟世界的物理规律和因果链条。由世界模型来维护场景的状态记忆和因果逻辑,确保杯子碎了之后玻璃碴的位置一致;再由扩散模型基于世界模型给出的正确场景约束,去生成具有最高真实感和艺术美感的像素画面。
制片汇数据,虚拍巧落地
为了实现这一解耦的过程,需要一个清晰的、与中国影视工业化进程相匹配的演进路径。
首先,要实现剧组数字化,构建统一的制片管理系统。没有高质量、结构化的数据,所有后续的AI训练都是空中楼阁。当前需要做的,是推动剧组从使用工具迈向数据沉淀。将每一份场记单、每一次服化道调整、每一个镜头的导演意图,都与对应的音视频素材在数据层面精准打通,并最终汇入一个统一的制片管理系统。在这个系统中,实体和它们的关系被明确地映射出来,为垂类大模型的训练提供高质量的数据集,这也是目前国内视频平台正在持续推进的方向。
《大梦归离》虚拟拍摄场景
其次,一个理想的试验田是虚拟拍摄。在虚拟拍摄中,背景是数字生成的,且往往不是画面焦点,容错率较高。我们可以将训练好的天气模型、动物模型等垂类模型直接接入虚拟拍摄引擎,在前期拍摄时就为导演提供丰富、动态、可控的数字背景。这既能让垂类模型的工作前期即可完成价值兑现,同时也能在一个相对可控的环境中,收集反馈加速模型迭代。
最终,融合垂类模型与生成引擎。当各维度的大模型足够成熟后,便可将其输出的结构化数据,作为硬约束条件,输入到我们之前设想的世界模型与扩散模型构成的混合架构中。届时,AI视频生成将不再是抽卡,而是一个可预测、可控制的强大工具。甚至,这种对精确控制的极致要求,也会推动世界模型与扩散模型本身的技术演进。
艺术的彼岸
艺术之所以成为艺术,在于人类创作过程中的那份思考、感受与挣扎。它从生命里流淌出来,它承载着人文的重量与温度。我们不应该,也不能将这份最宝贵的创作权让渡给冰冷的算法。
拥抱AI,用它来解放繁琐的体力劳动,激发我们的想象,拓展我们视觉的边界。但永远,把决定讲什么故事以及如何讲述的权力,握在自己手中。因为灵魂的相通,才是艺术的终极意义。
陆肯丨编辑