Netflix也发视频模型了：不只是“擦除”，而是“重写”物理世界-新糖宝胶囊官方网站

视频物体移除是视频编辑中的一项基础任务。现有方法在处理“简单”移除场景时已经表现出色，比如去掉一个物体后，把它背后的背景补全，或者消除它的影子和倒影。

但问题来了：如果被移除的物体与场景中的其他物体存在物理交互呢？

想象一排多米诺骨牌正在连锁倒下，如果我们用视频修复模型把中间几块骨牌移除，现有方法会让后面的骨牌继续倒下，但这在物理上是不可能的，因为没有骨牌去推它们了；再比如，一个人正在用手转陀螺，如果我们移除这双手，陀螺应该继续自行旋转，而不是突然消失或停止。

这些场景要求模型具备因果推理能力：不仅要“移除”物体，还要推演“如果这个物体从未存在过，整个场景会如何发展”。这正是当前视频编辑模型普遍欠缺的能力。

在这项工作中，Netflix（网飞）团队及其合作者提出了“视频目标与交互删除”（Video Object and Interaction Deletion，VOID）框架。

论文链接：https://arxiv.org/pdf/2604.02296

VOID不仅移除目标物体，还能对其移除后引发的物理连锁反应进行合理建模。该框架包含三个核心创新：基于物理仿真引擎的反事实数据集构建、交互感知的“四值掩码”（quadmask）条件化策略，以及利用视觉-语言模型（VLM）在推理时自动识别受影响区域。

值得一提的是，VOID基于智谱的视频生成模型CogVideoX构建，并针对具备交互感知掩码条件的视频修复任务进行了微调。

研究结果显示，VOID在人类偏好评估中被选为SOTA结果的比例达到64.8%，远超第二名Runway的18.4%。

同时，VOID也展现出了对训练数据中未出现过的物理效果的泛化能力，比如“移除拿气球的熊后气球会飘走”，“移除按搅拌机按钮的人后搅拌机不会启动”，这说明VOID并非简单记忆训练样本，而是学会了利用底层模型的物理直觉进行推理。

整体上，这项工作为视频编辑模型迈向“世界模拟器”提供了重要参考。

更懂物理的“视频移除”

VOID构建在CogVideoX DiT骨架之上，并从Generative Omnimatte的预训练权重初始化，继承其层级物体-效果解耦能力。

在此基础上，研究团队使用反事实数据对和四值掩码进行微调，让模型学会在移除物体后生成物理合理的新运动轨迹。

VOID的整体流程如下：用户提供一段视频并指定要移除的物体，系统自动推理哪些区域会因该物体的消失而发生变化，然后生成一段物理上合理的反事实视频。

图｜VOID 示意图

1. VLM引导的推理时四值掩码生成

在推理时，用户只需简单点击目标物体。系统使用视觉-语言模型（VLM）分析场景，自动推理哪些物体会受到影响、它们在反事实场景中会出现在什么位置。具体流程为：

1）VLM接收视频和物体掩码，输出受影响物体的描述列表；

2）使用SAM 3对受影响物体进行分割，获取其原始位置掩码；

3）在视频上叠加空间网格，VLM预测这些物体在反事实场景中的新位置；

4）合并两组掩码，生成最终的四值掩码。

2. 两阶段推理

基于生成的四值掩码，VOID通过两阶段推理生成最终结果。

第一阶段：反事实轨迹合成。模型根据输入视频和四值掩码，生成初步的反事实预测。这一阶段能捕捉大方向上正确的运动假设，例如失去支撑的物体开始自由落体。但由于视频扩散模型在生成复杂运动时容易出现物体变形等问题，需要进一步优化。

第二阶段：光流引导的噪声稳定。受Go-with-the-Flow方法启发，VOID从第一阶段输出中提取光流场，用其生成时序相关的扭曲噪声，然后作为第二阶段的输入。这使得扩散模型沿正确轨迹进行一致性去噪，显著减少物体变形。VLM会自动判断是否需要触发第二阶段（仅在检测到大幅动态变化时启用）。

研究结果

在真实数据与合成数据上的实验均表明，与现有视频对象移除方法相比，该方法在对象移除后能更好地保持场景动态的一致性。

1.真实世界视频评估

由于真实世界视频没有“标准答案”，研究团队采用了多种评估方式。

人类偏好研究：25名参与者各评估5个场景，从7个模型的输出中选择最佳结果。结果显示，VOID以64.8%的胜率取得了SOTA结果，即使Runway额外接受了描述预期场景变化的文本指令。

VLM裁判评估：研究团队使用Gemini 3 Pro、GPT-5.2和Qwen 3.5-32B三个VLM作为自动裁判，从交互物理、物体移除、时序一致性、场景保留等维度进行评分。在所有三个裁判的评估中，VOID均获得SOTA总分。其中“交互物理”维度的优势更为明显，在Gemini 3 Pro评估中，VOID得分3.66，而第二名Runway仅2.61。

定性对比：在多个真实场景中，基线方法出现了各种失败：碰撞场景中未正确移除物体、枕头在移除重物后仍然凹陷、移除油漆滚筒后墙上仍出现新油漆等。而VOID在所有案例中均表现出正确的物理推理。

对未见效果的泛化：在泛化性方面，VOID成功处理了训练数据中从未出现过的多种交互类型。如下图：移除拿气球的卡通熊后，气球向上飘走；移除按搅拌机按钮的孩子后，搅拌机不再启动；移除正在咬棍子的狗后，棍子自然掉落；移除橡皮鸭障碍物后，球改变滚动轨迹等。

2.合成数据集评估

在包含10个经典影子 / 倒影移除案例和30个动态交互案例的合成基准上，VOID也展现出了SOTA能力。

例如，VOID在除LPIPS外的所有指标上均为最佳。值得注意的是，LPIPS对局部位移敏感——如果模型正确模拟了物体掉落但速度略有偏差，反而可能比直接删除物体的模型得分更低。在视频级指标FVD和VLM裁判分数上，VOID与基线的差距最为显著，有力证明了其在物理合理性和语义一致性方面的优势。

此外，在75个真实世界测试用例上进行的消融研究表明，混合两个数据集的多样性（即使总量不变）优于单一数据源；精细的四值掩码配合VLM引导的掩码生成流程，显著优于粗糙的全局掩码策略。

不足与未来展望

尽管VOID展现出了强大的泛化能力，但这项研究也存在一些局限性。如下：

域差距问题：当测试视频的相机角度异常或过于靠近物体时，性能会下降。
数据来源局限：目前训练数据全部来自渲染引擎，未来可以探索更多样化的数据获取方式。
视频长度和分辨率：生成的视频仍限制在几秒钟的长度，分辨率也有提升空间。

研究团队表示，随着更强的视频生成模型和VLM的出现，该框架的性能有望进一步提升。更重要的是，这项工作揭示了一个有趣且尚未充分探索的方向，即如何将强大的世界建模能力迁移到视频编辑领域。

本文来自微信公众号“学术头条”（ID：SciTouTiao），作者：学术头条，36氪经授权发布。

发布时间：2026-04-08 08:39

Netflix也发视频模型了：不只是“擦除”，而是“重写”物理世界

更懂物理的“视频移除”

研究结果

1.真实世界视频评估

2.合成数据集评估

不足与未来展望

牛牛房卡批发市场，新众乐新众亿新乐游房卡怎么买

几个人创建房间的斗牛，火牛火狐3848大厅房卡怎么买