20万条4D交互数据+运动学锚定,南洋理工让生成式仿真不再「脑补」机器人动作

为了低成本训练机器人,研究者往往依赖仿真器来模拟其与环境的交互。

但传统仿真器效果受限于僵化的物理规则,基于新兴视频生成模型的又常在2D空间“脑补”交互…

为解决这个问题,南洋理工大学MMLab为具身智能构建出了高保真4D时空训练场

机器人-环境交互模拟是具身智能的核心。近期,一些研究展现了利用视频生成技术突破传统模拟器“僵化”的视觉与物理限制的潜力。然而,这些工作主要在2D空间运行、或受制于静态环境的单一引导,忽略了一个基本事实:机器人与世界的交互本质上是4D时空事件,需要精确的交互建模。

为了还原这一本质并确保精确的机器人控制,南洋理工大学MMLab提出了全新的4D生成式具身模拟器——Kinema4D。它通过“控制与环境解耦”的思路重新定义了生成式模拟,使得模型“洞察”机器人准确的4D操作轨迹、并推演出环境的响应,首次展现了生成式模拟器的零样本泛化潜能,为下一代具身智能的规模化训练开辟了全新的4D高保真路径。

背景与挑战

在具身智能领域,模拟机器人轨迹对于大规模数据增强、策略评估及强化学习至关重要。然而,实机部署成本高昂且存在安全隐患,使得虚拟环境模拟成为不可或缺的替代方案。尽管传统物理模拟器已取得长足进步,但其受限于视觉真实感不足及对预设物理规则的依赖,难以扩展至复杂的新场景。

近期,研究者开始利用视频生成模型来合成机器人与环境的交互,通过将动作作为条件提示,绕开了繁琐的物理建模。

然而,现有生成式仿真方法仍存在关键缺陷:

1. 维度缺失:大多模型局限于2D像素空间,缺乏机器人交互所需的4D时空约束

2. 精度不足:大多研究依赖高层语言指令、隐式动作理解、或静态环境先验,使得生成模型需要去“猜测”潜在的机器人动作,难以提供高保真建模所需的精确控制动态引导,导致其在处理形变或遮挡等复杂情况时表现不佳。

3. 总结:如图1所示,现有方法难以同时兼顾动态引导、操作精度时空感知这三大挑战。为此,本论文提出Kinema4D,通过运动学(Kinematics)将抽象动作锚定在4D空间下,从而引导生成模型在确保精度与时空感知的同时、实现了复杂动态交互的可靠生成。

核心方法

如图2所示,Kinema4D的核心动机是在确保精确机器人控制的同时,还原交互过程的4D时空本质。基于「模拟解耦」的设计哲学,将交互过程拆解为机器人控制及其产生的环境变化,并由以下两个协同洞察支撑:

i)运动学驱动的精确4D动作表征:机器人动作在4D空间中具有物理确定性,不应由生成模型“预测”或“猜测”。抽象的关节角或位姿序列只有映射到物理结构上才具备意义。因此,Kinema4D利用3D重建的URDF模型,通过显式运动学产生连续且物理准确的4D轨迹,为交互提供高粒度的时空因果驱动

ii)可控生成下的环境反应4D建模:与确定的机器人控制不同,复杂的环境动力学需要高度灵活的生成建模。Kinema4D将导出的4D机器人轨迹投影为时空点图(Pointmap)信号,以引导生成模型摆脱对机器人自身运动学的建模负担,转而专注于合成环境的反应动态(Reactive Dynamics)。

通过同步预测RGB与点图序列,Kinema4D将模拟转化为统一4D空间内的时空推理任务,不仅实现了视觉真实感,更确保了几何一致性。

数据集

大规模数据集是训练世界模型的基石。为此,如图3所示,本论文构建了Robo4D-200k——目前规模最大的4D机器人交互数据集。

该数据集通过整合DROID、Bridge和RT-1等多样化的真实世界演示数据,奠定了坚实的数据基础;同时引入LIBERO仿真数据,合成了海量的成功与失败案例。每一条序列都完整记录了一次机器人与世界的交互过程(如“抓取与放置”),为模型提供了稳健推理所需的连续时空信息。Robo4D-200k包含201,426条高保真交互序列,以巨大的数据量和交互多样性,为训练具备时空与物理感知能力的具身基础模型提供了可能。

实验分析

论文从视频生成质量、几何质量以及下游策略评估三个维度,对所提出的方法进行了全面的基准测试:

针对于视频生成质量,Kinema4D取得了领先的结果,如表1。其可视化结果如图2所示,跟Ctrl-World [ICLR 2026]相比,Kinema4D能更好地还原机器人动作,并得到和GT相似的环境响应结果。

针对于几何质量,相比于近期的另一个4D生成式模拟器 (TesserAct [ICCV 2025]) ,Kinema4D也取得了更好的效果,如表2。其可视化结果如图3所示,Kinema4D能够精确还原真实轨迹 (Ground-Truth) 的执行效果,包括 “差之毫厘” 的机器人任务失败的案例。例如,在左下角的示例中,即便夹爪与植物在 2D视角下的RGB纹理发生重叠 ,Kinema4D 仍能准确识别它们之间的空间间隙 ,从而准确模拟出机械臂未能抓取植物的结果。

论文还探索了Kinema4D作为高保真工具在 机器人策略评估 中的效用——即模拟器能否准确模拟执行策略轨迹 (Rollout) 后的真实结果,将评估部署于 标准化模拟平台 (无噪声环境) 与真实世界 (复杂物理环境) 两类场景中。

如图6和图7所示,Kinema4D的模拟结果与实际执行表现高度一致,能够准确合成成功的执行轨迹(Rollouts)以及“差之毫厘”的失败案例。在图中,即便夹爪与物体的RGB纹理在2D视角下发生重合,我们的模型仍能准确识别它们之间的空间间隙。

值得一提的是,对于真实世界的策略评估实验,Kinema4D未在任何真实世界数据上进行微调;测试所用的物理环境对模型而言完全是分布外(OOD)的。这是具身生成式世界模型首次在严格的OOD条件下展现了一定的泛化潜力。

总结与展望

Kinema4D标志着机器人模拟范式从传统2D像素生成向4D时空推理的跨越。通过独创的“运动学锚定”与“生成式演化”解耦框架,成功将确定的机械控制与灵动的环境反馈完美融合。

实验证明,Kinema4D不仅能跨越虚拟与现实的鸿沟,更展现了强大的零样本泛化能力。它为构建高保真、可规模化扩展的具身智能训练场,铺就了一条全新的4D通途。

此外,针对极端物理场景下的守恒定律挑战,如何将显式物理法则(如质量、摩擦力、碰撞动力学)深度注入生成网络将是一个值得探索的方向。

本文第一作者许牧天,南洋理工大学MMLab博士后。导师刘子纬教授,为本文通讯作者。

论文名称:Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

论文链接:https://arxiv.org/abs/2603.16669

项目主页:https://mutianxu.github.io/Kinema4D-project-page/

开源代码:https://github.com/mutianxu/Kinema4D

本文来自微信公众号“量子位”,作者:非羊,36氪经授权发布。

发布时间:2026-03-30 15:34