20万条4D交互数据+运动学锚定，南洋理工让生成式仿真不再「脑补」机器人动作-新糖宝胶囊官方网站

为了低成本训练机器人，研究者往往依赖仿真器来模拟其与环境的交互。

但传统仿真器效果受限于僵化的物理规则，基于新兴视频生成模型的又常在2D空间“脑补”交互…

为解决这个问题，南洋理工大学MMLab为具身智能构建出了高保真4D时空训练场。

机器人-环境交互模拟是具身智能的核心。近期，一些研究展现了利用视频生成技术突破传统模拟器“僵化”的视觉与物理限制的潜力。然而，这些工作主要在2D空间运行、或受制于静态环境的单一引导，忽略了一个基本事实：机器人与世界的交互本质上是4D时空事件，需要精确的交互建模。

为了还原这一本质并确保精确的机器人控制，南洋理工大学MMLab提出了全新的4D生成式具身模拟器——Kinema4D。它通过“控制与环境解耦”的思路重新定义了生成式模拟，使得模型“洞察”机器人准确的4D操作轨迹、并推演出环境的响应，首次展现了生成式模拟器的零样本泛化潜能，为下一代具身智能的规模化训练开辟了全新的4D高保真路径。

背景与挑战

△

在具身智能领域，模拟机器人轨迹对于大规模数据增强、策略评估及强化学习至关重要。然而，实机部署成本高昂且存在安全隐患，使得虚拟环境模拟成为不可或缺的替代方案。尽管传统物理模拟器已取得长足进步，但其受限于视觉真实感不足及对预设物理规则的依赖，难以扩展至复杂的新场景。

近期，研究者开始利用视频生成模型来合成机器人与环境的交互，通过将动作作为条件提示，绕开了繁琐的物理建模。

然而，现有生成式仿真方法仍存在关键缺陷：

1. 维度缺失：大多模型局限于2D像素空间，缺乏机器人交互所需的4D时空约束。

2. 精度不足：大多研究依赖高层语言指令、隐式动作理解、或静态环境先验，使得生成模型需要去“猜测”潜在的机器人动作，难以提供高保真建模所需的精确控制和动态引导，导致其在处理形变或遮挡等复杂情况时表现不佳。

3. 总结：如图1所示，现有方法难以同时兼顾动态引导、操作精度与时空感知这三大挑战。为此，本论文提出Kinema4D，通过运动学（Kinematics）将抽象动作锚定在4D空间下，从而引导生成模型在确保精度与时空感知的同时、实现了复杂动态交互的可靠生成。

核心方法

△

如图2所示，Kinema4D的核心动机是在确保精确机器人控制的同时，还原交互过程的4D时空本质。基于「模拟解耦」的设计哲学，将交互过程拆解为机器人控制及其产生的环境变化，并由以下两个协同洞察支撑：

i)运动学驱动的精确4D动作表征：机器人动作在4D空间中具有物理确定性，不应由生成模型“预测”或“猜测”。抽象的关节角或位姿序列只有映射到物理结构上才具备意义。因此，Kinema4D利用3D重建的URDF模型，通过显式运动学产生连续且物理准确的4D轨迹，为交互提供高粒度的时空因果驱动。

ii)可控生成下的环境反应4D建模：与确定的机器人控制不同，复杂的环境动力学需要高度灵活的生成建模。Kinema4D将导出的4D机器人轨迹投影为时空点图（Pointmap）信号，以引导生成模型摆脱对机器人自身运动学的建模负担，转而专注于合成环境的反应动态（Reactive Dynamics）。

通过同步预测RGB与点图序列，Kinema4D将模拟转化为统一4D空间内的时空推理任务，不仅实现了视觉真实感，更确保了几何一致性。

数据集

△

大规模数据集是训练世界模型的基石。为此，如图3所示，本论文构建了Robo4D-200k——目前规模最大的4D机器人交互数据集。

该数据集通过整合DROID、Bridge和RT-1等多样化的真实世界演示数据，奠定了坚实的数据基础；同时引入LIBERO仿真数据，合成了海量的成功与失败案例。每一条序列都完整记录了一次机器人与世界的交互过程（如“抓取与放置”），为模型提供了稳健推理所需的连续时空信息。Robo4D-200k包含201,426条高保真交互序列，以巨大的数据量和交互多样性，为训练具备时空与物理感知能力的具身基础模型提供了可能。

实验分析

论文从视频生成质量、几何质量以及下游策略评估三个维度，对所提出的方法进行了全面的基准测试：

针对于视频生成质量，Kinema4D取得了领先的结果，如表1。其可视化结果如图2所示，跟Ctrl-World [ICLR 2026]相比，Kinema4D能更好地还原机器人动作，并得到和GT相似的环境响应结果。

△

针对于几何质量，相比于近期的另一个4D生成式模拟器（TesserAct [ICCV 2025]），Kinema4D也取得了更好的效果，如表2。其可视化结果如图3所示，Kinema4D能够精确还原真实轨迹（Ground-Truth）的执行效果，包括 “差之毫厘” 的机器人任务失败的案例。例如，在左下角的示例中，即便夹爪与植物在 2D视角下的RGB纹理发生重叠 ，Kinema4D 仍能准确识别它们之间的空间间隙 ，从而准确模拟出机械臂未能抓取植物的结果。

△

论文还探索了Kinema4D作为高保真工具在 机器人策略评估 中的效用——即模拟器能否准确模拟执行策略轨迹（Rollout）后的真实结果，将评估部署于 标准化模拟平台 （无噪声环境）与真实世界 （复杂物理环境）两类场景中。

△

如图6和图7所示，Kinema4D的模拟结果与实际执行表现高度一致，能够准确合成成功的执行轨迹（Rollouts）以及“差之毫厘”的失败案例。在图中，即便夹爪与物体的RGB纹理在2D视角下发生重合，我们的模型仍能准确识别它们之间的空间间隙。

值得一提的是，对于真实世界的策略评估实验，Kinema4D未在任何真实世界数据上进行微调；测试所用的物理环境对模型而言完全是分布外（OOD）的。这是具身生成式世界模型首次在严格的OOD条件下展现了一定的泛化潜力。

总结与展望

Kinema4D标志着机器人模拟范式从传统2D像素生成向4D时空推理的跨越。通过独创的“运动学锚定”与“生成式演化”解耦框架，成功将确定的机械控制与灵动的环境反馈完美融合。

实验证明，Kinema4D不仅能跨越虚拟与现实的鸿沟，更展现了强大的零样本泛化能力。它为构建高保真、可规模化扩展的具身智能训练场，铺就了一条全新的4D通途。

此外，针对极端物理场景下的守恒定律挑战，如何将显式物理法则（如质量、摩擦力、碰撞动力学）深度注入生成网络将是一个值得探索的方向。

本文第一作者许牧天，南洋理工大学MMLab博士后。导师刘子纬教授，为本文通讯作者。

论文名称：Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation

论文链接：https://arxiv.org/abs/2603.16669

项目主页：https://mutianxu.github.io/Kinema4D-project-page/

开源代码：https://github.com/mutianxu/Kinema4D

本文来自微信公众号“量子位”，作者：非羊，36氪经授权发布。

发布时间：2026-03-30 15:34

上一篇:
牛牛房卡怎么批发，高速乐酷天酷超酷炫酷房卡怎么买
下一篇:
牛牛房卡怎么批发，飞鹰互娱新速度房卡怎么买

20万条4D交互数据+运动学锚定，南洋理工让生成式仿真不再「脑补」机器人动作

背景与挑战

核心方法

数据集

实验分析

总结与展望

牛牛房卡怎么批发，高速乐酷天酷超酷炫酷房卡怎么买

牛牛房卡怎么批发，飞鹰互娱新速度房卡怎么买