世界模型：“造世界”可行，但不是具身智能要的未来-新糖宝胶囊官方网站

从VLA到WAM，一场被高估的革命和被低估的进化。

过去半年，具身智能领域有两场最热闹的舆论狂欢。一场属于屏幕：从Sora到各类视频生成模型接连秀出肌肉，一杯水倾倒漫开的细节、连续空间里的人物运动，让 “AI再造现实” 的叙事冲上顶峰，“世界模型来了” 的惊呼此起彼伏。另一场属于墓碑：英伟达首席研究科学家 Jim Fan用一张WAM（World Action Model）站在VLA（视觉 - 语言 - 动作模型）墓碑前的 meme图，宣告 “VLA已死，世界模型万岁”，直接将路线之争推到台前。（本文仅讨论具身智能的世界模型）

两场狂欢共享同一个核心词：世界模型。

但吊诡的是，在具身智能领域越多人谈论它，它的面目就越模糊，有人把生成逼真视频叫世界模型，有人把机器人动作预演叫世界模型，有人把自动驾驶仿真环境也叫世界模型。同一个概念下，装着完全不同的技术目标与商业诉求。

当下世界模型最大的危险，从来不是 “定义不清”，而是所有人都在拿它最容易展示、最容易制造传播爆点的一面，定义它的全部价值。当 “造世界” 的炫技盖过 “用世界” 的本质，世界模型正在被最会讲故事的人，带离它真正该去的地方：Physical AI的真实物理场景。

世界模型当然需要 “造世界” 的能力。没有那些惊艳的生成演示，它不会如此快速地走进公众与资本的视野。但对 Physical AI产业而言，生成一个世界，从来都只是问题的开始。世界最终要被控制、被验证、被修正，最终成为机器行动前的预演空间、决策依据。视频生成可以推开世界模型的大门，但替它走不完通向真实物理世界的路。

我们从不缺新概念与新叙事，具身智能一定会走出自己的通用之路。届时，至于这条路叫VLA、叫WAM，还是别的什么名字，或许将根本不再重要。

毕竟，它已嵌入我们的生活。

世界模型不完全等于“生成画面”

还记得Sora吗？

当年，OpenAI发布Sora时，报告标题就是“Video generation models as world simulators”，其宣布视频生成模型有望成为通向“物理世界通用模拟器”的可行路径。Sora彼时展示出的长视频中，镜头运动、局部3D一致性和物体状态保持能力，让公众第一次直观感受到：AI似乎真的在学习 “构建一个世界”。相比文本和图片，视频天然贴合人类对 “世界” 的直觉感知 —— 有时间、有空间、有运动、有连续变化，很容易让人产生 “模型已经掌握物理规律” 的错觉。

这类能力天然适合发布会展示，也最容易吸引资本与媒体的注意力。久而久之，“视频生成 = 世界模型” 成了很多人默认的认知入口。

这当然不是错。在数字原生场景里，视频生成类路线本就是高效的解法，而且已经涌现了非常多独角兽公司。它们的产品在游戏行业能用于实时生成动态场景，既降低美术成本，又提升玩家自由度；航空航天、高端制造等高试错成本领域，用它扩展测试边界、丰富仿真场景，同样有明确的商业价值。此时生成的 “世界” 不是给观众看的画面，而是可交互、可试错的模拟环境。

真正的误读发生在跨界之时，当世界模型碰到具身智能时，很多人默认，模型能生成一个连续逼真的数字世界，就等于它掌握了物理世界的理解、预测与行动能力。

北京智源人工智能研究院院长王仲远对此的判断一针见血：当前被广泛当作世界模型代表的视频生成技术，本质只是像素级的世界模拟。“视频生成模型可以生成一群猪在天上和飞机一起飞，因为它的训练数据里包含大量科幻电影内容，它的目标从来就不是还原真实物理世界的规律。”

一个经典的具身场景足以说明差距：抓杯子。模型能从不同视角生成外观一致的杯子，这是视觉一致性，是它能从视频数据中学到的；但伸手触碰后，摩擦力有多大？材质能否承受对应的握力？杯子落在桌面上，是因为模型记住了 “杯子通常在桌上”，还是真正理解了重力、支撑力与接触约束？复杂的力学响应、接触后的状态变化、真实物理定律的因果约束，都不是一段生成视频能够覆盖的。当一辆横着走的汽车被生成出来，还未经校验就放进自动驾驶的训练链条，真实物理世界迟早会给出惨痛的反噬。

换句话说，视频生成是世界模型的一种表现形式，已经在很多场景落地，但绝不是具身智能要的世界模型，更不是 Physical AI 语境下的核心形态。用 “造世界” 的视觉效果去定义具身智能的世界模型，本质是拿数字世界的标尺，去丈量物理世界的问题。

VLA已死? 世界模型不是革命，是补位

“VLA已死，WAM接班” 是产业内部最流行的叙事。

过去两年，VLA一直是具身智能的主流路径。它沿用大语言模型的预训练思路，通过海量遥操作数据建立 “感知 - 指令 - 动作” 的映射，让机器人从生硬的重复动作，转向理解自然语言、拆解复杂任务。产业内所有主流玩家，都曾以VLA为核心技术底座。

但VLA的短板也非常明确：本质是模仿学习带来的记忆与映射，缺乏对物理规律的底层理解，一旦遇到数据里没见过的新场景、新物体，泛化能力就会快速失效。Jim Fan提出的WAM路线，恰恰瞄准了这个痛点。它的核心逻辑是从 “语义理解” 转向 “物理预测”：不再直接输出动作，而是先预测未来的世界状态，再反推动作序列，相当于让机器人在行动前先在脑子里 “预演” 一遍后果，以此提升对陌生场景的适应能力。

于是 “颠覆论” 迅速发酵，VLA是过时的旧范式，世界模型才是具身智能的下一代答案。但在真实的产业实践里，事情远非 “非生即死” 这么简单。

行业正在分化出两条清晰的路线，背后是不同的技术哲学与商业诉求：

一条是硅谷主导的 “替代派”。以英伟达、Google DeepMind为代表，依托充足的算力与数据储备，追求彻底的范式重构。英伟达在 Cosmos 3 中将语言、图像、视频、动作序列纳入同一套 Physical AI 世界模型框架，试图让生成、仿真、动作预测不再是割裂模块；Waymo与谷歌DeepMind合作推出的Waymo World Model，借助Genie 3模型能力，不只是用来生成罕见天气、动物闯入等长尾场景，重点是让这些场景受驾驶动作、道路布局和语言条件控制，用来测试自动驾驶系统在反事实情境下的反应。

这条路野心最大，也最符合 “革命叙事”，但门槛极高，是头部巨头的游戏。

另一条是国内更普遍的 “融合派”。绝大多数玩家没有选择推倒重来，而是将世界模型作为VLA的能力补集，嵌入现有架构之中。智平方在2026年5月发布了VLA具身大模型AlphaBrain。它借鉴人脑“大脑-小脑-躯干”的分工机制，通过“快慢系统”配合，将世界模型的“预演”能力内嵌进VLA架构内部——慢系统负责环境态势感知与高层行为规划，快系统负责精细传感与快速反馈。智平方创始人郭彦东的判断很直接：“世界模型和VLA一点都不冲突，本来就是一套技术路线的一个分支。如果想做更加长程的推理任务，就需要世界模型+VLA，或者把世界模型与VLA合并。”

银河通用走得也很远，他们今年4月发布的LDA-1B模型，在统一框架内同时进行策略学习、物理预测和视觉感知，首次在工业级10亿参数规模上实现了世界模型与动作模型的统一，相关成果已入选机器人顶会RSS，模型权重与训练代码已开源。他们不纠结于“选VLA还是世界模型”，而是更为务实地让预测与执行共享同一个模型，各取所长，各补所短。

在我们看来，“替代” 与 “融合” 没有绝对的对错，只是不同阶段的不同选择。VLA不会真的 “死亡”，世界模型也不是颠覆一切的革命，它补上的是 VLA最缺失的物理预测能力。二者的终局关系，更可能是分层协作，而非你死我活。真正决定路线胜负的，从来不是概念够不够新潮，而是谁能先把数据、仿真、真机部署的链条跑通，让机器人真正走进真实场景。

世界模型还没落地，先吹起了概念虚火

当概念热度跑在技术落地前面，泡沫几乎是必然产物。眼下的世界模型赛道，至少已经浮现出三重值得警惕的泡沫。

第一重是定义泡沫。今天的 “世界模型” 已经成了一个什么都能往里装的筐。Yann LeCun认为它是抽象层的世界状态预测，李飞飞将其定义为可交互的3D空间表征，英伟达把它定位成物理AI生成式模拟器，创业公司里有人拿视频生成凑数，有人把传统仿真引擎换个名字就叫世界模型。国内宣称布局世界模型的公司已有数十家，但彼此说的可能根本不是同一件事。当一个技术概念可以被无限解释，它往往就失去了技术标尺的意义。定义泛化的背后，是融资需求与营销叙事的共同推动，毕竟，叫 “世界模型”，总比叫 “视频生成工具” 或 “仿真优化方案” 更值钱。

第二重是算力泡沫。世界模型的主流训练路线，建立在海量视频数据与超大算力的基础之上，而这恰恰是英伟达的主场。黄仁勋在GTC大会上直言，到 2027 年Blackwell和Rubin芯片、以及其为具身智能模型等设计的配套系统至少给英伟达带来1万亿美元收入。某种意义上，硅谷头部玩家力推 “全模态通用世界模型” 路线，本身就与英伟达 “卖算力基建” 的商业逻辑高度契合。但这条路线的投入门槛对绝大多数公司而言堪称无底洞，过去押注 VLA 的中小团队，尚且难以承担如此规模的沉没成本，更不用说从零切入世界模型赛道。当所有人都在讨论同一条高算力路线，却很少有人算得清投入产出比，这本身就是泡沫的信号。

第三重也是最致命的，是落地泡沫。所有概念叙事最终都要回答同一个问题：它到底能不能提升真机表现？而现实是，仿真到真实的迁移鸿沟，不会因为模型名字从VLA换成WAM就自动消失。视频里一个细微的穿模、反重力、边界模糊，放到机器人训练里就会固化成错误的物理认知；一个看起来合理但违背物理规律的预测，对真机的误导甚至比不用模型训练更严重。

蚂蚁灵波首席科学家沈宇军曾点出核心差异：数字世界的生成模型可以追求高清逼真，慢一点没关系；但物理世界的模型，首要要求是快、稳、准，要能实时输出反馈、支撑动作。很多团队执着于在数字世界里把场景渲染得越来越真实，却忽略了真实物理交互的数据才是最稀缺的资源。世界模型可以在仿真里跑出漂亮的指标，但只要还没在工厂产线、物流仓库、开放道路上验证出真实价值，它就依然是实验室里的技术探索，而非产业级的基础设施。

那么，面向Physical AI或具身智能要的世界模型，到底应该是什么样子？答案从来不在发布会的演示视频里，而在真实场景的需求里。它的核心评价标准，从来不是 “生成的世界够不够逼真”，而是 “能不能帮机器更好地在物理世界里行动”，能不能降低试错成本、能不能提升泛化能力、能不能嵌入真实的业务闭环。

从目前产业的实践来看，真正走在正确方向上的玩家，都在做同一件事：让世界模型从 “展示导向” 转向 “任务导向”，换句话说，世界模型的终极形态，不是一个独立的 “产品”，而是内嵌在各类物理系统中的基础能力。它藏在自动驾驶的仿真后台，藏在机器人的动作规划模块里，藏在工厂产线的预判系统中，默默完成预判、试错、修正的工作。大多数时候，用户甚至感知不到它的存在。

那才是世界模型的时代，当然它也可以不叫世界模型。

本文来自微信公众号“先验实验室”，作者：Vincent，36氪经授权发布。

发布时间：2026-06-23 16:09

上一篇:
马云插的不是秧，是资本市场的「预期」
下一篇:
面试遇到了一个豆包味很浓的应届生

世界模型：“造世界”可行，但不是具身智能要的未来

世界模型不完全等于“生成画面”

VLA已死? 世界模型不是革命，是补位

世界模型还没落地，先吹起了概念虚火

马云插的不是秧，是资本市场的「预期」

面试遇到了一个豆包味很浓的应届生