世界模型:“造世界”可行,但不是具身智能要的未来

从VLA到WAM,一场被高估的革命和被低估的进化。

过去半年,具身智能领域有两场最热闹的舆论狂欢。一场属于屏幕:从Sora到各类视频生成模型接连秀出肌肉,一杯水倾倒漫开的细节、连续空间里的人物运动,让 “AI再造现实” 的叙事冲上顶峰,“世界模型来了” 的惊呼此起彼伏。另一场属于墓碑:英伟达首席研究科学家 Jim Fan用一张WAM(World Action Model)站在VLA(视觉 - 语言 - 动作模型)墓碑前的 meme图,宣告 “VLA已死,世界模型万岁”,直接将路线之争推到台前。(本文仅讨论具身智能的世界模型)

两场狂欢共享同一个核心词:世界模型。

但吊诡的是,在具身智能领域越多人谈论它,它的面目就越模糊,有人把生成逼真视频叫世界模型,有人把机器人动作预演叫世界模型,有人把自动驾驶仿真环境也叫世界模型。同一个概念下,装着完全不同的技术目标与商业诉求。

当下世界模型最大的危险,从来不是 “定义不清”,而是所有人都在拿它最容易展示、最容易制造传播爆点的一面,定义它的全部价值。当 “造世界” 的炫技盖过 “用世界” 的本质,世界模型正在被最会讲故事的人,带离它真正该去的地方:Physical AI的真实物理场景。

世界模型当然需要 “造世界” 的能力。没有那些惊艳的生成演示,它不会如此快速地走进公众与资本的视野。但对 Physical AI产业而言,生成一个世界,从来都只是问题的开始。世界最终要被控制、被验证、被修正,最终成为机器行动前的预演空间、决策依据。视频生成可以推开世界模型的大门,但替它走不完通向真实物理世界的路。

我们从不缺新概念与新叙事,具身智能一定会走出自己的通用之路。届时,至于这条路叫VLA、叫WAM,还是别的什么名字,或许将根本不再重要。

毕竟,它已嵌入我们的生活。

世界模型不完全等于“生成画面”

还记得Sora吗?

当年,OpenAI发布Sora时,报告标题就是“Video generation models as world simulators”,其宣布视频生成模型有望成为通向“物理世界通用模拟器”的可行路径。Sora彼时展示出的长视频中,镜头运动、局部3D一致性和物体状态保持能力,让公众第一次直观感受到:AI似乎真的在学习 “构建一个世界”。相比文本和图片,视频天然贴合人类对 “世界” 的直觉感知 —— 有时间、有空间、有运动、有连续变化,很容易让人产生 “模型已经掌握物理规律” 的错觉。

这类能力天然适合发布会展示,也最容易吸引资本与媒体的注意力。久而久之,“视频生成 = 世界模型” 成了很多人默认的认知入口。

这当然不是错。在数字原生场景里,视频生成类路线本就是高效的解法,而且已经涌现了非常多独角兽公司。它们的产品在游戏行业能用于实时生成动态场景,既降低美术成本,又提升玩家自由度;航空航天、高端制造等高试错成本领域,用它扩展测试边界、丰富仿真场景,同样有明确的商业价值。此时生成的 “世界” 不是给观众看的画面,而是可交互、可试错的模拟环境。

真正的误读发生在跨界之时当世界模型碰到具身智能时,很多人默认,模型能生成一个连续逼真的数字世界,就等于它掌握了物理世界的理解、预测与行动能力。

北京智源人工智能研究院院长王仲远对此的判断一针见血:当前被广泛当作世界模型代表的视频生成技术,本质只是像素级的世界模拟。“视频生成模型可以生成一群猪在天上和飞机一起飞,因为它的训练数据里包含大量科幻电影内容,它的目标从来就不是还原真实物理世界的规律。”

一个经典的具身场景足以说明差距:抓杯子。模型能从不同视角生成外观一致的杯子,这是视觉一致性,是它能从视频数据中学到的;但伸手触碰后,摩擦力有多大?材质能否承受对应的握力?杯子落在桌面上,是因为模型记住了 “杯子通常在桌上”,还是真正理解了重力、支撑力与接触约束?复杂的力学响应、接触后的状态变化、真实物理定律的因果约束,都不是一段生成视频能够覆盖的。当一辆横着走的汽车被生成出来,还未经校验就放进自动驾驶的训练链条,真实物理世界迟早会给出惨痛的反噬。

换句话说,视频生成是世界模型的一种表现形式,已经在很多场景落地,但绝不是具身智能要的世界模型,更不是 Physical AI 语境下的核心形态。用 “造世界” 的视觉效果去定义具身智能的世界模型,本质是拿数字世界的标尺,去丈量物理世界的问题。

VLA已死? 世界模型不是革命,是补位

 “VLA已死,WAM接班” 是产业内部最流行的叙事。

过去两年,VLA一直是具身智能的主流路径。它沿用大语言模型的预训练思路,通过海量遥操作数据建立 “感知 - 指令 - 动作” 的映射,让机器人从生硬的重复动作,转向理解自然语言、拆解复杂任务。产业内所有主流玩家,都曾以VLA为核心技术底座。

但VLA的短板也非常明确:本质是模仿学习带来的记忆与映射,缺乏对物理规律的底层理解,一旦遇到数据里没见过的新场景、新物体,泛化能力就会快速失效。Jim Fan提出的WAM路线,恰恰瞄准了这个痛点。它的核心逻辑是从 “语义理解” 转向 “物理预测”:不再直接输出动作,而是先预测未来的世界状态,再反推动作序列,相当于让机器人在行动前先在脑子里 “预演” 一遍后果,以此提升对陌生场景的适应能力。

于是 “颠覆论” 迅速发酵,VLA是过时的旧范式,世界模型才是具身智能的下一代答案。但在真实的产业实践里,事情远非 “非生即死” 这么简单。

行业正在分化出两条清晰的路线,背后是不同的技术哲学与商业诉求:

一条是硅谷主导的 “替代派”。以英伟达、Google DeepMind为代表,依托充足的算力与数据储备,追求彻底的范式重构。英伟达在 Cosmos 3 中将语言、图像、视频、动作序列纳入同一套 Physical AI 世界模型框架,试图让生成、仿真、动作预测不再是割裂模块;Waymo与谷歌DeepMind合作推出的Waymo World Model,借助Genie 3模型能力,不只是用来生成罕见天气、动物闯入等长尾场景,重点是让这些场景受驾驶动作、道路布局和语言条件控制,用来测试自动驾驶系统在反事实情境下的反应。

这条路野心最大,也最符合 “革命叙事”,但门槛极高,是头部巨头的游戏。

另一条是国内更普遍的 “融合派”。绝大多数玩家没有选择推倒重来,而是将世界模型作为VLA的能力补集,嵌入现有架构之中。智平方在2026年5月发布了VLA具身大模型AlphaBrain。它借鉴人脑“大脑-小脑-躯干”的分工机制,通过“快慢系统”配合,将世界模型的“预演”能力内嵌进VLA架构内部——慢系统负责环境态势感知与高层行为规划,快系统负责精细传感与快速反馈。智平方创始人郭彦东的判断很直接:“世界模型和VLA一点都不冲突,本来就是一套技术路线的一个分支。如果想做更加长程的推理任务,就需要世界模型+VLA,或者把世界模型与VLA合并。”

银河通用走得也很远,他们今年4月发布的LDA-1B模型,在统一框架内同时进行策略学习、物理预测和视觉感知,首次在工业级10亿参数规模上实现了世界模型与动作模型的统一,相关成果已入选机器人顶会RSS,模型权重与训练代码已开源。他们不纠结于“选VLA还是世界模型”,而是更为务实地让预测与执行共享同一个模型,各取所长,各补所短。

在我们看来,“替代” 与 “融合” 没有绝对的对错,只是不同阶段的不同选择。VLA不会真的 “死亡”,世界模型也不是颠覆一切的革命,它补上的是 VLA最缺失的物理预测能力。二者的终局关系,更可能是分层协作,而非你死我活。真正决定路线胜负的,从来不是概念够不够新潮,而是谁能先把数据、仿真、真机部署的链条跑通,让机器人真正走进真实场景。

世界模型还没落地,先吹起了概念虚火

当概念热度跑在技术落地前面,泡沫几乎是必然产物。眼下的世界模型赛道,至少已经浮现出三重值得警惕的泡沫。

第一重是定义泡沫。今天的 “世界模型” 已经成了一个什么都能往里装的筐。Yann LeCun认为它是抽象层的世界状态预测,李飞飞将其定义为可交互的3D空间表征,英伟达把它定位成物理AI生成式模拟器,创业公司里有人拿视频生成凑数,有人把传统仿真引擎换个名字就叫世界模型。国内宣称布局世界模型的公司已有数十家,但彼此说的可能根本不是同一件事。当一个技术概念可以被无限解释,它往往就失去了技术标尺的意义。定义泛化的背后,是融资需求与营销叙事的共同推动,毕竟,叫 “世界模型”,总比叫 “视频生成工具” 或 “仿真优化方案” 更值钱。

第二重是算力泡沫。世界模型的主流训练路线,建立在海量视频数据与超大算力的基础之上,而这恰恰是英伟达的主场。黄仁勋在GTC大会上直言,到 2027 年Blackwell和Rubin芯片、以及其为具身智能模型等设计的配套系统至少给英伟达带来1万亿美元收入。某种意义上,硅谷头部玩家力推 “全模态通用世界模型” 路线,本身就与英伟达 “卖算力基建” 的商业逻辑高度契合。但这条路线的投入门槛对绝大多数公司而言堪称无底洞,过去押注 VLA 的中小团队,尚且难以承担如此规模的沉没成本,更不用说从零切入世界模型赛道。当所有人都在讨论同一条高算力路线,却很少有人算得清投入产出比,这本身就是泡沫的信号。

第三重也是最致命的,是落地泡沫。所有概念叙事最终都要回答同一个问题:它到底能不能提升真机表现?而现实是,仿真到真实的迁移鸿沟,不会因为模型名字从VLA换成WAM就自动消失。视频里一个细微的穿模、反重力、边界模糊,放到机器人训练里就会固化成错误的物理认知;一个看起来合理但违背物理规律的预测,对真机的误导甚至比不用模型训练更严重。

蚂蚁灵波首席科学家沈宇军曾点出核心差异:数字世界的生成模型可以追求高清逼真,慢一点没关系;但物理世界的模型,首要要求是快、稳、准,要能实时输出反馈、支撑动作。很多团队执着于在数字世界里把场景渲染得越来越真实,却忽略了真实物理交互的数据才是最稀缺的资源。世界模型可以在仿真里跑出漂亮的指标,但只要还没在工厂产线、物流仓库、开放道路上验证出真实价值,它就依然是实验室里的技术探索,而非产业级的基础设施。

那么,面向Physical AI或具身智能要的世界模型,到底应该是什么样子?答案从来不在发布会的演示视频里,而在真实场景的需求里。它的核心评价标准,从来不是 “生成的世界够不够逼真”,而是 “能不能帮机器更好地在物理世界里行动”,能不能降低试错成本、能不能提升泛化能力、能不能嵌入真实的业务闭环。

从目前产业的实践来看,真正走在正确方向上的玩家,都在做同一件事:让世界模型从 “展示导向” 转向 “任务导向”,换句话说,世界模型的终极形态,不是一个独立的 “产品”,而是内嵌在各类物理系统中的基础能力。它藏在自动驾驶的仿真后台,藏在机器人的动作规划模块里,藏在工厂产线的预判系统中,默默完成预判、试错、修正的工作。大多数时候,用户甚至感知不到它的存在。

那才是世界模型的时代,当然它也可以不叫世界模型。

本文来自微信公众号“先验实验室”,作者:Vincent,36氪经授权发布。

发布时间:2026-06-23 16:09