Netflix也发视频模型了:不只是“擦除”,而是“重写”物理世界

视频物体移除是视频编辑中的一项基础任务。现有方法在处理“简单”移除场景时已经表现出色,比如去掉一个物体后,把它背后的背景补全,或者消除它的影子和倒影。

但问题来了:如果被移除的物体与场景中的其他物体存在物理交互呢?

想象一排多米诺骨牌正在连锁倒下,如果我们用视频修复模型把中间几块骨牌移除,现有方法会让后面的骨牌继续倒下,但这在物理上是不可能的,因为没有骨牌去推它们了;再比如,一个人正在用手转陀螺,如果我们移除这双手,陀螺应该继续自行旋转,而不是突然消失或停止。

这些场景要求模型具备因果推理能力:不仅要“移除”物体,还要推演“如果这个物体从未存在过,整个场景会如何发展”。这正是当前视频编辑模型普遍欠缺的能力。

在这项工作中,Netflix(网飞)团队及其合作者提出了“视频目标与交互删除”(Video Object and Interaction Deletion,VOID)框架。

论文链接:https://arxiv.org/pdf/2604.02296

VOID不仅移除目标物体,还能对其移除后引发的物理连锁反应进行合理建模。该框架包含三个核心创新:基于物理仿真引擎的反事实数据集构建、交互感知的“四值掩码”(quadmask)条件化策略,以及利用视觉-语言模型(VLM)在推理时自动识别受影响区域。

值得一提的是,VOID基于智谱的视频生成模型CogVideoX构建,并针对具备交互感知掩码条件的视频修复任务进行了微调。

研究结果显示,VOID在人类偏好评估中被选为SOTA结果的比例达到64.8%,远超第二名Runway的18.4%。

同时,VOID也展现出了对训练数据中未出现过的物理效果的泛化能力,比如“移除拿气球的熊后气球会飘走”,“移除按搅拌机按钮的人后搅拌机不会启动”,这说明VOID并非简单记忆训练样本,而是学会了利用底层模型的物理直觉进行推理。

整体上,这项工作为视频编辑模型迈向“世界模拟器”提供了重要参考。

更懂物理的“视频移除”

VOID构建在CogVideoX DiT骨架之上,并从Generative Omnimatte的预训练权重初始化,继承其层级物体-效果解耦能力。

在此基础上,研究团队使用反事实数据对和四值掩码进行微调,让模型学会在移除物体后生成物理合理的新运动轨迹。

VOID的整体流程如下:用户提供一段视频并指定要移除的物体,系统自动推理哪些区域会因该物体的消失而发生变化,然后生成一段物理上合理的反事实视频。

图|VOID 示意图

1. VLM引导的推理时四值掩码生成

在推理时,用户只需简单点击目标物体。系统使用视觉-语言模型(VLM)分析场景,自动推理哪些物体会受到影响、它们在反事实场景中会出现在什么位置。具体流程为:

1)VLM接收视频和物体掩码,输出受影响物体的描述列表;

2)使用SAM 3对受影响物体进行分割,获取其原始位置掩码;

3)在视频上叠加空间网格,VLM预测这些物体在反事实场景中的新位置;

4)合并两组掩码,生成最终的四值掩码。

2. 两阶段推理

基于生成的四值掩码,VOID通过两阶段推理生成最终结果。

第一阶段:反事实轨迹合成。 模型根据输入视频和四值掩码,生成初步的反事实预测。这一阶段能捕捉大方向上正确的运动假设,例如失去支撑的物体开始自由落体。但由于视频扩散模型在生成复杂运动时容易出现物体变形等问题,需要进一步优化。

第二阶段:光流引导的噪声稳定。 受Go-with-the-Flow方法启发,VOID从第一阶段输出中提取光流场,用其生成时序相关的扭曲噪声,然后作为第二阶段的输入。这使得扩散模型沿正确轨迹进行一致性去噪,显著减少物体变形。VLM会自动判断是否需要触发第二阶段(仅在检测到大幅动态变化时启用)。

研究结果

在真实数据与合成数据上的实验均表明,与现有视频对象移除方法相比,该方法在对象移除后能更好地保持场景动态的一致性。

1.真实世界视频评估

由于真实世界视频没有“标准答案”,研究团队采用了多种评估方式。

人类偏好研究:25名参与者各评估5个场景,从7个模型的输出中选择最佳结果。结果显示,VOID以64.8%的胜率取得了SOTA结果,即使Runway额外接受了描述预期场景变化的文本指令。

VLM裁判评估:研究团队使用Gemini 3 Pro、GPT-5.2和Qwen 3.5-32B三个VLM作为自动裁判,从交互物理、物体移除、时序一致性、场景保留等维度进行评分。在所有三个裁判的评估中,VOID均获得SOTA总分。其中“交互物理”维度的优势更为明显,在Gemini 3 Pro评估中,VOID得分3.66,而第二名Runway仅2.61。

定性对比:在多个真实场景中,基线方法出现了各种失败:碰撞场景中未正确移除物体、枕头在移除重物后仍然凹陷、移除油漆滚筒后墙上仍出现新油漆等。而VOID在所有案例中均表现出正确的物理推理。

对未见效果的泛化:在泛化性方面,VOID成功处理了训练数据中从未出现过的多种交互类型。如下图:移除拿气球的卡通熊后,气球向上飘走;移除按搅拌机按钮的孩子后,搅拌机不再启动;移除正在咬棍子的狗后,棍子自然掉落;移除橡皮鸭障碍物后,球改变滚动轨迹等。

2.合成数据集评估

在包含10个经典影子 / 倒影移除案例和30个动态交互案例的合成基准上,VOID也展现出了SOTA能力。

例如,VOID在除LPIPS外的所有指标上均为最佳。值得注意的是,LPIPS对局部位移敏感——如果模型正确模拟了物体掉落但速度略有偏差,反而可能比直接删除物体的模型得分更低。在视频级指标FVD和VLM裁判分数上,VOID与基线的差距最为显著,有力证明了其在物理合理性和语义一致性方面的优势。

此外,在75个真实世界测试用例上进行的消融研究表明,混合两个数据集的多样性(即使总量不变)优于单一数据源;精细的四值掩码配合VLM引导的掩码生成流程,显著优于粗糙的全局掩码策略。

不足与未来展望

尽管VOID展现出了强大的泛化能力,但这项研究也存在一些局限性。如下:

  • 域差距问题:当测试视频的相机角度异常或过于靠近物体时,性能会下降。
  • 数据来源局限:目前训练数据全部来自渲染引擎,未来可以探索更多样化的数据获取方式。
  • 视频长度和分辨率:生成的视频仍限制在几秒钟的长度,分辨率也有提升空间。

研究团队表示,随着更强的视频生成模型和VLM的出现,该框架的性能有望进一步提升。更重要的是,这项工作揭示了一个有趣且尚未充分探索的方向,即如何将强大的世界建模能力迁移到视频编辑领域。

本文来自微信公众号“学术头条”(ID:SciTouTiao),作者:学术头条,36氪经授权发布。

发布时间:2026-04-08 08:39