2026年,AI正在从“生成模型时代”走向“世界模型时代”。
图灵奖得主杨立昆团队近日发布了基于JEPA架构的LeWorldModel,斯坦福大学教授李飞飞的World Labs2025年底推出首个商用3D世界模型Marble;从产业端看,几乎所有具身智能公司都在将世界模型列为核心技术方向,试图让机器人真正理解并预测物理世界。世界模型,已然成为一种行业共识。
从当前的技术范式来看,围绕世界模型大致形成了几类路线:
第一类是JEPA抽象预测路径,不追求像素级还原,重点是在紧凑的潜空间中学习世界的因果结构与物理规律,近日杨立昆发布的LeWorldModel即为这一路线的最新进展;
第二类是3D/仿真驱动路径,更偏向通过构建可控的虚拟环境或3D重建,让模型在“可计算世界”中学习物理规律与交互逻辑;以李飞飞的World Labs及其产品Marble为代表便是这条路径;
第三类是视频驱动路径。从视频生成模型出发,让模型不仅能“看懂”视频里发生了什么,还能理解背后的物理规律,并据此预测和生成动作,从“生成视频”走向“理解世界并行动”。目前生数科技、Runway等均沿此方向探索。
在这场路线之争中,生数科技创始人、清华大学人工智能研究院副院长朱军是视频路径坚定的推动者之一。在3月29日下午的“中关村论坛之AI未来论坛”上,朱军表示,“通用世界模型”是连接数字世界与物理世界的桥梁,而视频是记录真实世界最天然的数据形式。
朱军判断,世界模型将成为未来各类智能体的核心“智能中枢”,并将在2026年迎来快速突破。
在会后,腾讯科技与朱军展开了进一步交流:在多条技术路线并行的背景下,视频路径为什么有可能率先打通世界模型的能力闭环?这一路径在真实场景中的落地节奏如何推进,当前面临的核心技术与数据难点有哪些,又将在哪些应用场景中先实现突破?
Q:为什么今年“世界模型”开始成为一个大的行业趋势?
朱军:这其实是一个逐步演进的过程。
相比以往的模型范式,世界模型对能力的要求更加综合。它不仅需要理解语言、能够对话,还需要具备多模态能力,比如看图、理解视频,甚至包括触觉等其他模态,同时还要具备动作生成能力,因此整体复杂性更高。
从技术发展路径来看,也存在一个比较清晰的演进顺序:最早是语言模型的发展,随后是视频模型的突破。在视频模型取得进展之后,我们看到了一个非常自然且关键的过渡——视频原生模型可以顺势延伸到对物理世界的理解,而一旦引入动作能力,就逐步形成了世界模型的统一架构。
因此,从某种程度上说,世界模型的兴起离不开视频模型的突飞猛进。同时,随着更多模态和能力的持续融合,这一方向也会在更多新的维度上不断演进。
Q:当前像Yann LeCun、Fei-Fei Li等学者,也在从不同路径探索世界模型,比如更偏向3D重建或仿真环境。生数科技为什么选择以“视频”为核心路径?这种路径与其他方向相比,本质差异在哪里?
朱军:我们始终是从基础模型的第一性原理来思考这个问题。做基础模型,本质上依赖两个核心要素:一是要有足够规模(scale)的数据,二是模型架构本身能够持续扩展(scale up)。
在模型架构上,我们是行业内较早采用 DiT(Diffusion Transformer)架构的团队,也已经验证了这一路径可以通过增加参数规模持续提升模型性能。
在数据层面,我们认为视频是目前记录真实世界最合适、也最通用的数据形式。它不仅包含丰富的世界运行规律,还天然蕴含大量动作与行为信息。而且视频数据具备持续扩展的能力——现实世界在不断变化,视频数据也可以源源不断地产生。
相比之下,另一类路径更偏向于渲染,比如3D环境建模或3D物体重建,主要关注对场景的还原与重构。渲染本身当然有价值,但更多是服务于人类的视觉需求。
但是,对于机器来说,它并不需要完整还原每一个像素细节,只需要感知自身状态,并理解下一步的运动规律或执行指令,就能够完成任务。
因此,从这个角度看,以视频为基础来训练模型,一方面可以持续支撑大规模训练与迭代,另一方面也能避免不必要的渲染开销,从而在效率上更具优势。
Q:相比语言模型,视频路径在计算密度上更高,训练和推理成本也更重。这种成本压力会不会成为视频为路径发展世界模型的核心瓶颈?
朱军:计算成本和计算量的问题,是所有做大模型的团队都不可避免要面对的,但这个问题并非不可解决。
视频的计算方式和语言模型有很大不同。语言处理通常是稀疏化的,而视频的计算密度更高。但在视频领域,我们可以充分利用GPU的并行计算架构。此外,现在算法迭代也非常快,比如我们在做的低精度计算方式,可以充分利用硬件算力,显著加速训练和推理过程。
我相信会先出现智能能力的上限突破,然后随着算法和硬件的持续迭代,我们今天面临的计算困难,将来可能就不再是困难了。
Q:在大规模视频数据的处理与利用过程中,目前最大的难点主要集中在哪些环节?数据治理需要解决的核心问题是什么?
朱军:数据处理的核心挑战在于,数据治理必须与模型和算法形成协同,而不是一个独立环节。只有在模型与算法框架确定之后,才能真正判断数据应该如何清洗、如何筛选,甚至在什么情况下需要标注或弱标注。
换句话说,数据的价值并不是静态的,而是与模型能力动态匹配的。在训练过程中,我们也需要不断理解数据本身的分布特征和结构属性,并据此调整数据策略,才能实现整体性能的持续提升。
尤其是在视频数据场景下,难点会更加突出。一方面,视频数据规模更大、冗余更高,如何高效筛选出“有效信息”是一个关键问题;
另一方面,视频中隐含的时序信息和动作信息,并不像文本那样天然结构化,这也对数据处理与利用提出了更高要求。
因此,本质上这不仅是一个数据问题,更是“数据—模型—算法”一体化协同的问题。这需要团队在长期实践中不断打磨,也对大模型团队的系统能力与工程积累提出了更高要求。
Q:在没有标签的情况下,模型如何从视频中真正学到“可执行能力”?
朱军:我们的核心思路,是通过一个统一的世界模型框架,在理论上打通“生成”与“行动”这两类能力。
在这个框架下,我们利用大规模未标注视频数据进行训练,构建了一个可扩展的通用基座模型。模型不再只是被动理解视频内容,而是通过对时序信息和行为模式的学习,逐步建立从“感知—预测—决策—行动”的能力闭环。
并且我们在多种类型任务上进行了初步验证。例如:
验证码操作任务:通过机械臂模拟人类操作鼠标,实现屏幕识别与精准点击
棋类决策任务:涉及长程规划与多步推理,需要感知、预测与决策协同
柔性物体操作:面对复杂、不规则物体,实现稳定抓取
在实验中,我们观察到两个关键现象:
一是数据 scaling 效应显著增强。相比传统 VLA 路线,数据利用效率实现了量级级别的提升;
二是多任务泛化能力明显增强。在统一模型下,我们可以在50多个任务上实现高效泛化,并且随着任务数量增加,性能不仅没有下降,反而有所提升。相比之下,传统 VLA 模型(如 PI0.5)在任务数量增加时往往会出现性能退化。这也从侧面说明,通过统一架构,将生成能力与行动能力整合在同一体系中,可能代表了一条新的发展路径。
Q:大量视频数据往往只呈现结果,而缺乏完整的因果过程。在这种情况下,模型如何避免只学习到表层相关性?视频数据真的能够支撑“因果理解”吗?
朱军:确实,并不是每一段视频都能够完整呈现清晰的因果链条。但视频数据的核心优势在于其规模与多样性。
以一个简单的“拿水杯”动作为例,在大量不同来源的视频中,会呈现出多种抓取方式、不同环境以及不同约束条件下的操作过程。
对于大模型而言,正是这种大规模、多样性的分布,使其能够从中归纳出具有泛化能力的动作模式,而不是依赖单一、标准化的数据样本。相比之下,固定采集的数据或仿真数据,虽然更加结构化,但在覆盖范围和多样性上是有限的。
因此,我们并不是简单依赖单条视频去学习因果关系,而是通过海量数据中的分布性信息,让模型在统计层面逐步逼近更稳定的“因果结构”。
Q:在视频数据规模快速增长的情况下,如何进一步提升“有效数据”的占比?哪些方式能够真正提高视频对模型训练的价值?
朱军:提升视频数据的有效性,主要可以从两个方向入手。
一方面是主动构建高质量数据。比如通过第一视角采集、引入结构化标注或弱标注信息,这类数据虽然成本更高,但信息密度更高,对模型能力提升也更直接,未来占比会逐步提升。
另一方面是充分利用通用视频数据。互联网上已经积累了海量记录日常行为和物理世界运行规律的视频,这类数据在规模和多样性上具有天然优势,可以作为模型训练的重要基础。
本质上,这两类数据是互补关系:一类提升“信息密度”,一类提供“规模与覆盖”,共同支撑模型能力的持续提升。
Q:当前行业都在探索世界模型,但似乎还没有形成类似“ Transformer ”那样统一的技术范式。你怎么看目前的阶段?还有哪些关键卡点?
朱军:如果从视频生成这一核心路径来看,其实架构层面已经逐步走向统一,目前主流范式是基于 DiT(Diffusion Transformer)的架构。我们也是较早在这一方向上进行探索并验证其可扩展性的团队之一。
从行业发展来看,目前商用视频模型基本都在沿着这一架构演进,世界模型在从视频生成延伸的过程中,也自然继承了这一技术路线。而且这一架构具备良好的可扩展性,可以通过参数规模和训练数据的提升持续增强模型能力。
当然,从更广义的“世界模型”来看,仍然存在一些关键挑战。例如,多模态能力如何进一步统一、感知与行动如何形成更稳定的闭环,以及如何在更复杂任务中保持泛化能力,这些问题仍在持续探索之中。
Q:当前不少机器人厂商也在自研模型,但技术路线差异很大。从世界模型的视角来看,真正的核心竞争壁垒主要体现在哪些环节?
朱军:我们还是从第一性原理出发来理解这个问题。
虽然当前“世界模型”有多种实现路径,但回到本质,它需要具备三个核心能力:
第一,是能够观察和理解世界;
第二,是能够对未来状态进行预测;
第三,是能够基于这种理解与预测,学习并生成动作。
基于这三个要素,就可以判断一个系统是否具备完整的世界模型能力。比如,目前很多VLA(视觉-语言-动作)模型,主要集中在“感知到动作”的映射上,但在中间的预测与“想象”环节仍然相对欠缺;还有一些偏仿真的路径,则更多停留在视觉呈现和重构层面。
从竞争壁垒来看,其实与大模型的发展逻辑是一致的:关键仍在于数据规模是否能够持续扩展,模型参数是否具备可扩展性,以及是否拥有支撑大规模训练的算力资源。这三点共同决定了基础模型的上限。
Q:当前不少厂商通过智能体(Agent)产品切入市场,而你强调世界模型作为基础能力。这两条路径在泛化能力上的差异有多大?
朱军:我认为这两条路径并不冲突,本质上是处在不同层级。
智能体是一种应用形态,主要用于解决具体场景中的任务,目前大多数Agent是基于语言模型构建的,通过工具调用和流程编排来完成特定目标。而世界模型更偏向底层基础设施,它不仅关注语言理解,还包括对物理世界的感知、预测以及行动能力。
从泛化能力的角度来看,Agent的能力边界在很大程度上取决于底层基础模型。如果底层模型主要是语言模型,那么它在物理世界理解和行动能力上会存在一定限制;而世界模型则试图构建一种更通用的能力体系,使模型能够在不同场景、不同任务甚至不同环境中实现更强的泛化。
因此,两者更可能走向融合。未来的机器人很可能就是物理世界中的智能体,能够在开放环境中执行多样化任务,但其背后需要一套通用的基座模型来支撑跨场景、跨任务乃至跨本体的能力泛化。
这也是我们正在尝试的方向——构建一个以世界模型为核心的基础能力平台,为上层智能体提供更强的能力边界。
Q:基于世界模型,未来三到五年最有可能率先落地的场景在哪里?实现突破的关键驱动因素是什么?
朱军:我们当前重点关注的是一些最具挑战性的通用开放场景,比如家居和办公环境。
这类场景与工厂等结构化环境有本质区别——它们高度开放、变化复杂,很难通过预设规则或流程来完成任务,因此对模型的通用性和泛化能力提出了更高要求。
也正因为难度高,这类场景一旦被突破,其价值会非常显著。
从发展节奏来看,我们对这一方向相对乐观。随着数据规模的持续积累、模型架构的不断成熟,以及算力资源的逐步完善,这些关键要素正在加速汇聚。参考过去语言模型和视频模型的发展路径,当这些条件同时具备时,往往会进入一个快速增长阶段。
因此,我们预计在未来一到两年内,世界模型在这些开放场景中就有可能出现具有代表性的突破性进展。
Q:从技术演进角度看,下一阶段最关键的突破会集中在哪些方向?
朱军:我认为主要会集中在两个方面。
首先是数据层面的持续完善。未来会有更多多样化的真实世界数据被采集和利用。正如我之前提到的数据金字塔结构,各个层级的数据都在不断扩展,同时也会有越来越多专门围绕数据生产与处理的机构参与进来,这将为模型能力提升提供更坚实的基础。
其次是模型与算法层面的持续优化。例如底层统一编码方式的效率提升,以及训练与推理算法的改进,这些都会直接影响模型的性能和可扩展性。
整体来看,数据与模型这两个方向会形成协同演进,共同推动世界模型能力的持续突破。
本文来自微信公众号“腾讯科技”,作者:李海伦,36氪经授权发布。
发布时间:2026-03-31 18:36