不好意思，机器人无法仅靠视觉理解世界-新糖宝胶囊官方网站

2026年，AI正在从“生成模型时代”走向“世界模型时代”。

图灵奖得主杨立昆团队近日发布了基于JEPA架构的LeWorldModel，斯坦福大学教授李飞飞的World Labs2025年底推出首个商用3D世界模型Marble；从产业端看，几乎所有具身智能公司都在将世界模型列为核心技术方向，试图让机器人真正理解并预测物理世界。世界模型，已然成为一种行业共识。

从当前的技术范式来看，围绕世界模型大致形成了几类路线：

第一类是JEPA抽象预测路径，不追求像素级还原，重点是在紧凑的潜空间中学习世界的因果结构与物理规律，近日杨立昆发布的LeWorldModel即为这一路线的最新进展；

第二类是3D/仿真驱动路径，更偏向通过构建可控的虚拟环境或3D重建，让模型在“可计算世界”中学习物理规律与交互逻辑；以李飞飞的World Labs及其产品Marble为代表便是这条路径；

第三类是视频驱动路径。从视频生成模型出发，让模型不仅能“看懂”视频里发生了什么，还能理解背后的物理规律，并据此预测和生成动作，从“生成视频”走向“理解世界并行动”。目前生数科技、Runway等均沿此方向探索。

在这场路线之争中，生数科技创始人、清华大学人工智能研究院副院长朱军是视频路径坚定的推动者之一。在3月29日下午的“中关村论坛之AI未来论坛”上，朱军表示，“通用世界模型”是连接数字世界与物理世界的桥梁，而视频是记录真实世界最天然的数据形式。

朱军判断，世界模型将成为未来各类智能体的核心“智能中枢”，并将在2026年迎来快速突破。

在会后，腾讯科技与朱军展开了进一步交流：在多条技术路线并行的背景下，视频路径为什么有可能率先打通世界模型的能力闭环？这一路径在真实场景中的落地节奏如何推进，当前面临的核心技术与数据难点有哪些，又将在哪些应用场景中先实现突破？

以下为朱军交流精华实录：

Q：为什么今年“世界模型”开始成为一个大的行业趋势？

朱军：这其实是一个逐步演进的过程。

相比以往的模型范式，世界模型对能力的要求更加综合。它不仅需要理解语言、能够对话，还需要具备多模态能力，比如看图、理解视频，甚至包括触觉等其他模态，同时还要具备动作生成能力，因此整体复杂性更高。

从技术发展路径来看，也存在一个比较清晰的演进顺序：最早是语言模型的发展，随后是视频模型的突破。在视频模型取得进展之后，我们看到了一个非常自然且关键的过渡——视频原生模型可以顺势延伸到对物理世界的理解，而一旦引入动作能力，就逐步形成了世界模型的统一架构。

因此，从某种程度上说，世界模型的兴起离不开视频模型的突飞猛进。同时，随着更多模态和能力的持续融合，这一方向也会在更多新的维度上不断演进。

Q：当前像Yann LeCun、Fei-Fei Li等学者，也在从不同路径探索世界模型，比如更偏向3D重建或仿真环境。生数科技为什么选择以“视频”为核心路径？这种路径与其他方向相比，本质差异在哪里？

朱军：我们始终是从基础模型的第一性原理来思考这个问题。做基础模型，本质上依赖两个核心要素：一是要有足够规模（scale）的数据，二是模型架构本身能够持续扩展（scale up）。

在模型架构上，我们是行业内较早采用 DiT（Diffusion Transformer）架构的团队，也已经验证了这一路径可以通过增加参数规模持续提升模型性能。

在数据层面，我们认为视频是目前记录真实世界最合适、也最通用的数据形式。它不仅包含丰富的世界运行规律，还天然蕴含大量动作与行为信息。而且视频数据具备持续扩展的能力——现实世界在不断变化，视频数据也可以源源不断地产生。

相比之下，另一类路径更偏向于渲染，比如3D环境建模或3D物体重建，主要关注对场景的还原与重构。渲染本身当然有价值，但更多是服务于人类的视觉需求。

但是，对于机器来说，它并不需要完整还原每一个像素细节，只需要感知自身状态，并理解下一步的运动规律或执行指令，就能够完成任务。

因此，从这个角度看，以视频为基础来训练模型，一方面可以持续支撑大规模训练与迭代，另一方面也能避免不必要的渲染开销，从而在效率上更具优势。

Q：相比语言模型，视频路径在计算密度上更高，训练和推理成本也更重。这种成本压力会不会成为视频为路径发展世界模型的核心瓶颈？

朱军：计算成本和计算量的问题，是所有做大模型的团队都不可避免要面对的，但这个问题并非不可解决。

视频的计算方式和语言模型有很大不同。语言处理通常是稀疏化的，而视频的计算密度更高。但在视频领域，我们可以充分利用GPU的并行计算架构。此外，现在算法迭代也非常快，比如我们在做的低精度计算方式，可以充分利用硬件算力，显著加速训练和推理过程。

我相信会先出现智能能力的上限突破，然后随着算法和硬件的持续迭代，我们今天面临的计算困难，将来可能就不再是困难了。

Q：在大规模视频数据的处理与利用过程中，目前最大的难点主要集中在哪些环节？数据治理需要解决的核心问题是什么？

朱军：数据处理的核心挑战在于，数据治理必须与模型和算法形成协同，而不是一个独立环节。只有在模型与算法框架确定之后，才能真正判断数据应该如何清洗、如何筛选，甚至在什么情况下需要标注或弱标注。

换句话说，数据的价值并不是静态的，而是与模型能力动态匹配的。在训练过程中，我们也需要不断理解数据本身的分布特征和结构属性，并据此调整数据策略，才能实现整体性能的持续提升。

尤其是在视频数据场景下，难点会更加突出。一方面，视频数据规模更大、冗余更高，如何高效筛选出“有效信息”是一个关键问题；

另一方面，视频中隐含的时序信息和动作信息，并不像文本那样天然结构化，这也对数据处理与利用提出了更高要求。

因此，本质上这不仅是一个数据问题，更是“数据—模型—算法”一体化协同的问题。这需要团队在长期实践中不断打磨，也对大模型团队的系统能力与工程积累提出了更高要求。

Q：在没有标签的情况下，模型如何从视频中真正学到“可执行能力”？

朱军：我们的核心思路，是通过一个统一的世界模型框架，在理论上打通“生成”与“行动”这两类能力。

在这个框架下，我们利用大规模未标注视频数据进行训练，构建了一个可扩展的通用基座模型。模型不再只是被动理解视频内容，而是通过对时序信息和行为模式的学习，逐步建立从“感知—预测—决策—行动”的能力闭环。

并且我们在多种类型任务上进行了初步验证。例如：

验证码操作任务：通过机械臂模拟人类操作鼠标，实现屏幕识别与精准点击

棋类决策任务：涉及长程规划与多步推理，需要感知、预测与决策协同

柔性物体操作：面对复杂、不规则物体，实现稳定抓取

在实验中，我们观察到两个关键现象：

一是数据 scaling 效应显著增强。相比传统 VLA 路线，数据利用效率实现了量级级别的提升；

二是多任务泛化能力明显增强。在统一模型下，我们可以在50多个任务上实现高效泛化，并且随着任务数量增加，性能不仅没有下降，反而有所提升。相比之下，传统 VLA 模型（如 PI0.5）在任务数量增加时往往会出现性能退化。这也从侧面说明，通过统一架构，将生成能力与行动能力整合在同一体系中，可能代表了一条新的发展路径。

Q：大量视频数据往往只呈现结果，而缺乏完整的因果过程。在这种情况下，模型如何避免只学习到表层相关性？视频数据真的能够支撑“因果理解”吗？

朱军：确实，并不是每一段视频都能够完整呈现清晰的因果链条。但视频数据的核心优势在于其规模与多样性。

以一个简单的“拿水杯”动作为例，在大量不同来源的视频中，会呈现出多种抓取方式、不同环境以及不同约束条件下的操作过程。

对于大模型而言，正是这种大规模、多样性的分布，使其能够从中归纳出具有泛化能力的动作模式，而不是依赖单一、标准化的数据样本。相比之下，固定采集的数据或仿真数据，虽然更加结构化，但在覆盖范围和多样性上是有限的。

因此，我们并不是简单依赖单条视频去学习因果关系，而是通过海量数据中的分布性信息，让模型在统计层面逐步逼近更稳定的“因果结构”。

Q：在视频数据规模快速增长的情况下，如何进一步提升“有效数据”的占比？哪些方式能够真正提高视频对模型训练的价值？

朱军：提升视频数据的有效性，主要可以从两个方向入手。

一方面是主动构建高质量数据。比如通过第一视角采集、引入结构化标注或弱标注信息，这类数据虽然成本更高，但信息密度更高，对模型能力提升也更直接，未来占比会逐步提升。

另一方面是充分利用通用视频数据。互联网上已经积累了海量记录日常行为和物理世界运行规律的视频，这类数据在规模和多样性上具有天然优势，可以作为模型训练的重要基础。

本质上，这两类数据是互补关系：一类提升“信息密度”，一类提供“规模与覆盖”，共同支撑模型能力的持续提升。

Q：当前行业都在探索世界模型，但似乎还没有形成类似“ Transformer ”那样统一的技术范式。你怎么看目前的阶段？还有哪些关键卡点？

朱军：如果从视频生成这一核心路径来看，其实架构层面已经逐步走向统一，目前主流范式是基于 DiT（Diffusion Transformer）的架构。我们也是较早在这一方向上进行探索并验证其可扩展性的团队之一。

从行业发展来看，目前商用视频模型基本都在沿着这一架构演进，世界模型在从视频生成延伸的过程中，也自然继承了这一技术路线。而且这一架构具备良好的可扩展性，可以通过参数规模和训练数据的提升持续增强模型能力。

当然，从更广义的“世界模型”来看，仍然存在一些关键挑战。例如，多模态能力如何进一步统一、感知与行动如何形成更稳定的闭环，以及如何在更复杂任务中保持泛化能力，这些问题仍在持续探索之中。

Q：当前不少机器人厂商也在自研模型，但技术路线差异很大。从世界模型的视角来看，真正的核心竞争壁垒主要体现在哪些环节？

朱军：我们还是从第一性原理出发来理解这个问题。

虽然当前“世界模型”有多种实现路径，但回到本质，它需要具备三个核心能力：

第一，是能够观察和理解世界；

第二，是能够对未来状态进行预测；

第三，是能够基于这种理解与预测，学习并生成动作。

基于这三个要素，就可以判断一个系统是否具备完整的世界模型能力。比如，目前很多VLA（视觉-语言-动作）模型，主要集中在“感知到动作”的映射上，但在中间的预测与“想象”环节仍然相对欠缺；还有一些偏仿真的路径，则更多停留在视觉呈现和重构层面。

从竞争壁垒来看，其实与大模型的发展逻辑是一致的：关键仍在于数据规模是否能够持续扩展，模型参数是否具备可扩展性，以及是否拥有支撑大规模训练的算力资源。这三点共同决定了基础模型的上限。

Q：当前不少厂商通过智能体（Agent）产品切入市场，而你强调世界模型作为基础能力。这两条路径在泛化能力上的差异有多大？

朱军：我认为这两条路径并不冲突，本质上是处在不同层级。

智能体是一种应用形态，主要用于解决具体场景中的任务，目前大多数Agent是基于语言模型构建的，通过工具调用和流程编排来完成特定目标。而世界模型更偏向底层基础设施，它不仅关注语言理解，还包括对物理世界的感知、预测以及行动能力。

从泛化能力的角度来看，Agent的能力边界在很大程度上取决于底层基础模型。如果底层模型主要是语言模型，那么它在物理世界理解和行动能力上会存在一定限制；而世界模型则试图构建一种更通用的能力体系，使模型能够在不同场景、不同任务甚至不同环境中实现更强的泛化。

因此，两者更可能走向融合。未来的机器人很可能就是物理世界中的智能体，能够在开放环境中执行多样化任务，但其背后需要一套通用的基座模型来支撑跨场景、跨任务乃至跨本体的能力泛化。

这也是我们正在尝试的方向——构建一个以世界模型为核心的基础能力平台，为上层智能体提供更强的能力边界。

Q：基于世界模型，未来三到五年最有可能率先落地的场景在哪里？实现突破的关键驱动因素是什么？

朱军：我们当前重点关注的是一些最具挑战性的通用开放场景，比如家居和办公环境。

这类场景与工厂等结构化环境有本质区别——它们高度开放、变化复杂，很难通过预设规则或流程来完成任务，因此对模型的通用性和泛化能力提出了更高要求。

也正因为难度高，这类场景一旦被突破，其价值会非常显著。

从发展节奏来看，我们对这一方向相对乐观。随着数据规模的持续积累、模型架构的不断成熟，以及算力资源的逐步完善，这些关键要素正在加速汇聚。参考过去语言模型和视频模型的发展路径，当这些条件同时具备时，往往会进入一个快速增长阶段。

因此，我们预计在未来一到两年内，世界模型在这些开放场景中就有可能出现具有代表性的突破性进展。

Q：从技术演进角度看，下一阶段最关键的突破会集中在哪些方向？

朱军：我认为主要会集中在两个方面。

首先是数据层面的持续完善。未来会有更多多样化的真实世界数据被采集和利用。正如我之前提到的数据金字塔结构，各个层级的数据都在不断扩展，同时也会有越来越多专门围绕数据生产与处理的机构参与进来，这将为模型能力提升提供更坚实的基础。

其次是模型与算法层面的持续优化。例如底层统一编码方式的效率提升，以及训练与推理算法的改进，这些都会直接影响模型的性能和可扩展性。

整体来看，数据与模型这两个方向会形成协同演进，共同推动世界模型能力的持续突破。

本文来自微信公众号“腾讯科技”，作者：李海伦，36氪经授权发布。

发布时间：2026-03-31 18:36

不好意思，机器人无法仅靠视觉理解世界

以下为朱军交流精华实录：

牛牛创建房间的小程序，黄帝战皇火神烛龙房卡怎么买

牛牛房卡制作链接，新九游新九方新荣耀房卡怎么买