AI圈的新风口又来了。
进入2026年,“世界模型”快速从学术概念站到资本和产业的中心。海外,“AI教母”李飞飞创立的World Labs在年初拿下10亿美元融资,估值飙至50亿美元,投资方包含a16z、英伟达、AMD、Autodesk等巨头;另一边,图灵奖得主杨立昆,离开Meta另起炉灶创办的AMI Labs,仅种子轮便获得超10亿美元融资。国内同步跟进,成立于2023年的极佳视界,在今年三个月内连续完成三轮大额融资,累计35亿元,成为国内首个世界模型百亿独角兽。
资金涌入的速度、规模以及头部机构的扎堆程度,让不少人感慨,好像回到了ChatGPT引爆市场的那一刻。
几乎人人都在谈论世界模型,但很少有人能说清它到底是什么。
其实世界模型并非新概念。它在认知科学和深度学习领域早有讨论,但真正走入大众视野,是2024年前后Sora的横空出世时,母公司OpenAI将其表述为“world simulator”(世界模拟器),强调其能“生成、预测未来画面”,由此受到大范围关注。但很长一段时间里,业内并未全盘接受将像素级视频生成直接等同于世界模型的说法。
让这个概念真正脱离视频生成、走向产业焦点的,是此后具身智能赛道的爆发,其内涵趋向于一种能理解物理因果的底层能力。
由于学术界迟迟未能给世界模型统一定义,目前只要和“预测未来”相关的模型,都开始自称世界模型。正如李飞飞所言,世界模型既是当下最重要,也是被滥用最严重的概念。
对此,「AIX财经」和多位研究世界模型的学者、具身智能创业者聊了聊,试图回答三个问题:世界模型究竟是什么?资本为何疯抢?火速催生百亿独角兽的背后,这一赛道是真有潜力,还是又一场泡沫?
由于目前世界模型缺乏统一标准,市场出现了“万物皆可世界模型”的乱象。做视频的、做3D的、做仿真的,纷纷给自己贴上“世界模型”标签。
斯坦福大学教授李飞飞团队将相关技术划分为三个功能层级:渲染器(解决看起来像)、规划器(输出动作指令)和模拟器(输出世界内部状态)。其中,模拟器被其定义为最接近世界模型的本体。
智源研究院院长王仲远则将当前的主流世界模型技术路径分为四类,分别是以语言为中心、以像素为中心、以三维结构为中心、以视觉表征为中心的世界模型。但他坦言,这四类模型距离真正面向物理世界的基座模型有很大的距离。
两种分类视角不同,但他们都认为世界模型的核心不是生成逼真画面,而是对物理世界的建模能力。
对照这一标尺,当下市场上的主要三类玩家,都离“世界模型”有一定距离。
第一类是视频派,以Sora、Runway、可灵等AI视频生成大模型为代表,本质是把世界“画”出来。它们本质上只是像素组合的概率分布,停留在渲染器层。画面再逼真,模型也并不理解物理规律本身。
第二类是3D空间派,代表是李飞飞本人的World Labs,国内的创业公司VAST也押注这一方向。
这类玩家构建出了几何结构,但缺乏动力学规律,无法触及物理本质。举个例子,它知道“杯子在哪儿”,不知道“杯子被推一下会怎样”,因此仍卡在渲染器与模拟器之间。World Labs于去年年底推出首款空间智能产品Marble,一度被业界视为世界模型的落地代表,但李飞飞本人谨慎地将其称为“非正式的世界模型”。
最后一类是仿真基建派,代表有英伟达、Waabi、Wayve、极佳视界等,它们提供物理仿真与验证平台,但更多是依赖程序员写好的规则,模型负责按规则生画面、生数据,缺乏对物理规律的推演与泛化能力。
总之,目前大多数公司都尚未真正触及“模拟器本体”这一硬核层级。 而且,各家实质上仍是在卖内容生成服务或项目集成方案,距离下一代“底层基础设施”相差很远。
但正因为世界模型门槛极高、落地极难,世界模型的不可替代性才更加凸显,它要解决现有方案无法解决的物理因果问题。
北京灵生科技合伙人王嘉明对此的描述是,世界模型的本质,是根据当前观测状态,预测下一个观测状态。以机器人做咖啡为例,想要完成这一动作,先得预测咖啡杯从桌面移到咖啡机出口下方这一“世界状态”的变化,再反向推导其需要执行哪些动作。这种“预测-推导”的能力,正是当下具身智能落地的最大短板。
为了直观理解,我们将世界模型与大语言模型、视频生成模型、具身智能模型(VLA)进行横向对比。
同样是一个杯子,大语言模型能告诉你杯子是什么、描述杯子长什么样;视频生成模型能画出杯子从桌上掉落的画面;VLA能根据指令完成“拿起杯子”的动作;而世界模型掌握的是“物理因果”,它知道杯子在多大角度会滑动、多大角度会被倾覆。
可以看出,世界模型既不是视频大模型的视觉延伸,也不是具身智能大模型的简单升级,它位于更底层,是那个缺失的“物理地基”。只有当一个模型能真正从原始感官中推演出物理因果,它才能称之为世界模型。
弄清楚了什么是世界模型后,就能理解投资人为什么疯抢。
世界模型能把物理世界里的突发后果和验证成本变得可计算,能直接运用到当下大火的具身智能与自动驾驶行业里。
目前具身智能行业仍高度依赖真机数据采集和仿真合成数据来缓解数据短缺难题,但这两条路都暴露出很大的局限性。真机数据训练出的,多是对特定动作的模仿,而非基于物理规律的推理能力;仿真合成数据则受限于平台预设的规则,一旦机器人进入家庭等非标准化场景,就容易失灵。
世界模型不仅能补这两个短板,对数据的“包容性”也远高于具身大模型。
王嘉明介绍,VLA的数据必须采集特定机器人的特定动作,而世界模型只需关注物体状态如何变化,因此只需人穿戴设备采集即可。他打了个比方,机器人在端水过程中把水洒了,对于VLA来说是无用数据,但对于世界模型反而是好数据,因为它从中能学到“手一歪杯子会掉”这一物理规律。
自动驾驶领域感知识别的技术难题已经解决,但难点变成了很难采集到暴雨、结冰、施工等多重变量叠加的极端情况数据。世界模型可以构建高保真的虚拟测试场,大幅降低对高风险路测的依赖。
正如北京交通大学计算机学院、从事世界模型研究的博士生余萧所言,世界模型相当于给这两大行业补上了“可验证性”的拼图:机器人可以在虚拟世界里摔一万次再走进现实,车企也可以低成本验证极限场景。
图源 / pixabay
然而,世界模型仍处于发展早期。如果用大模型发展史作类比,余萧认为当前世界模型大致处在“GPT-2 到 GPT-3 之间”的阶段,因为它概念很热、Demo很强,但技术路线极度分散,标准混乱,离真正的通用物理引擎还有很长距离。
综合多位从业者的说法,世界模型目前还面临着三大难题。
第一道是数据,这是最大瓶颈。虽然看起来世界模型对数据的要求比具身智能大模型低,但难点是量大。
王嘉明表示,模型所需的训练数据量和模型大小呈正比,一个能干活的VLA模型大概在30亿个参数,而英伟达发布Zero-shot机器人世界模型DreamZero为140亿。差距的原因是,具身大模型的数据回答的是“这种画面该出什么动作”,而世界模型的数据还要额外回答“动了之后会发生什么、为什么”,需要包括大量失败的交互数据。
这类数据的获取成本不低。
王嘉明透露,目前主流的采集方式仍为人工采集,行业均价在两三百元一小时,且任务越复杂、动作精度要求越高,单价越贵。
余萧则指出了另一重难题,真实交互需频繁重置场景与校准传感器,公开数据往往更偏向于采集成功的动作,恰恰缺乏“杯子滑落、碰撞倾覆”这类关键的失败样本,加之物理变量的组合呈指数级爆炸,导致数据需求几乎是个无底洞。
他表示,对大语言模型来说,从网上获取大量文本的边际成本很低,但对世界模型来说,一条真实机器人交互轨迹往往要算人力时间、机器人时间、场景重置、设备损耗和数据清洗。
至于用合成数据填补缺口,在逻辑上也并不可行。王嘉明解释,生成精准的合成数据,前提是已经拥有一个靠谱的世界模型,这便陷入了典型的“鸡生蛋、蛋生鸡”的死循环。
第二道难题在于推理效率与物理认知的缺失。
一方面,庞大的参数量直接导致推理延迟居高不下。市面上的机器人在执行倒咖啡、叠衣服等动作时,响应速度仍远落后于人类,难以满足物理世界对实时交互的要求。
更核心的挑战,是物理认知本身还没走通。大语言模型的推理能力,建立在人类已将海量因果逻辑、推理步骤编进文本数据的基础上,它本质上是在学习人类整理好的符号规律。而世界模型试图跳过这一层,直接从感官信号中逆向推导物理规律。这条“去语言化”的技术路径比文本路径更难,目前也缺乏已被验证的成功路线。
第三道是评测和落地。图像生成好不好,能拿指标和人眼快速对比,但真实环境中的摩擦、形变、接触度等参数,不仅很难测全、测准,还常常带有不确定性,导致很多场景根本不存在唯一的标准答案。这意味着,世界模型即便做出来了,也很难像大语言模型那样靠基准测试快速迭代,落地节奏天然会慢一拍。
世界模型有望解决具身智能和自动驾驶领域的落地难题,但市场可能高估了世界模型在短期内的能力。
弄清世界模型的潜力与局限后,这门生意究竟能否赚钱,也就有了一个较为清晰的答案。
综合多位从业者的判断,目前市场上能拿出的产品,几乎都还停留在渲染器和仿真层,没有谁真正抵达模拟器本体。当下确实有人通过世界模型赚到了钱,但都不是因为“世界模型”本身,是它周边的几门生意。
如果按付费模式划分,主要有三种,且几乎全在B端。
一是卖“训练场”,即给机器人公司提供虚拟训练环境、给车企提供驾驶仿真系统,一般按项目或订阅收费。比如,Waabi、Wayve的客户主要是车企,做的是自动驾驶算法的闭环仿真验证;极佳视界则把同一套逻辑搬到具身智能中,客户是机器人公司。
这是三条路中与模拟器层最为接近的一条,它卖的是对物理世界的推演能力本身。
二是卖“合成数据”,即用世界模型生成带物理因果标签的数据,卖给具身智能和自动驾驶公司,填补真机数据的缺口。这条路位于模拟器与渲染器之间,生成的数据质量越高、物理标签越准,便越接近真正的世界模型输出。
但这条路有一个尚未解决的根本问题:合成数据本身的物理保真度,还没办法被独立证伪。一旦生成数据的物理逻辑不准确,下游模型反而会被“污染”。所以目前这门生意的客户接受度,更多依赖供需双方的私下校验,而非行业公认的评测标准。
图源 / pexels
三是卖“内容生产”,这主要面向游戏、影视、空间设计输出可交互的3D场景,这条路离C端最近、最容易出爆款Demo,可本质上更接近渲染器层,护城河存疑。
王嘉明坦言,世界模型的商业化仍处在探索期,上述三条路径仅是雏形,整个行业远未跑出标准答案。
正是这种不确定性,让资金疯狂涌入这一赛道。
“越不明朗越抢投的逻辑,与十年前的自动驾驶如出一辙。”王嘉明认为,今年世界模型的融资热,更像投资人驱动的提前布局,“当年大家都说自动驾驶马上要落地,结果到现在已经过去了快10年。但如果你现在才去投自动驾驶,显然已经太晚了。同理,世界模型正处于想象空间巨大、但尚未规模落地的时间窗口。”
他透露,近期有大量投资人向其咨询世界模型的技术细节,市场关注度已从概念炒作转入实质性的押注阶段。
而参照大模型“百模大战”的剧本,世界模型赛道的洗牌可能会来得更猛、更快。随着英伟达、腾讯、阿里等巨头下场,那些没有落地场景、缺乏数据闭环、只靠Demo撑门面的公司,会加速出局。
可以明确的是,世界模型并非伪概念,其对物理世界的理解与预测,是通往更高阶智能绕不开的一环,但同样确定的是,这轮融资热里确实有不少“伪世界模型”。
本文来自微信公众号“AIX财经”,作者:AIX财经团队,36氪经授权发布。
发布时间:2026-06-29 20:00