世界模型在自动驾驶应用,为什么卡在施工道路?

6月下旬,Waymo宣布召回3871辆Robotaxi,原因是部分车辆在高速道路行驶时,可能未能识别封闭施工区,或错误地优先规避其他风险,导致车辆进入施工道路并继续高速行驶。

这是Waymo近两年多次召回事件中的最新一起,也是不满两月内第二次因现实道路场景触发的召回。就在5月,Waymo还曾因部分车辆无法规避道路上的积水区域而召回约3800辆Robotaxi。

这件事的微妙之处在于,施工区、积水、道路封闭都不是驾驶行业陌生的场景,它们当然会出现在上路前的训练系统中,而Waymo这样的头部玩家,仍在大规模运营中暴露如此“普通“的问题。不免让人质疑,世界模型、仿真和数据闭环已经层层迭代,距离真正消化现实道路复杂性是否仍然很远?

这样的事件并不能被简单理解为世界模型本身的缺陷。

这盆真实场景的冷水,泼向的是一种“穷尽长尾”的想象:现实道路的各类情况永远无法被模型训练尽数列举,而训练阶段覆盖过的场景,也可能会在真实运营中与车速、车流、临时标志等现场情况重新组合,酿成新的失败。

因此,对自动驾驶来说,世界模型除了生成更复杂的长尾场景、模拟更真实的道路交互,如何从整体技术策略的高度,把现实道路已经暴露出的失败,更高效地筛选并转化为新的训练、评估和修复资产,最终完成“失败闭环”,恐怕也一样重要。一次误入、一次接管、一次召回,不应只是事故复盘里的孤立案例,而应该成为模型生成、训练、评估和回灌的起点。

Waymo的召回事件,不该被理解成“自动驾驶翻车实录”。

它真正揭开的,是Robotaxi从技术验证走向规模化运营后必须面对的现实:道路上的失败不会因为仿真足够多、世界模型足够强、数据闭环足够完整而消失。相反,真实运营会持续把新的问题暴露出来。

对自动驾驶来说,未来真正要规模化的,不只是车辆数量和运营里程,还有安全反馈的能力。对自动驾驶世界模型来说,下一阶段真正重要的,不是继续证明自己能生成多少罕见场景,而是能不能把已经发生的失败,快速转化为新的训练、评估和修复资产。

世界模型当然还要模拟更复杂的世界,但自动驾驶真正要证明的,是它能否从已经发生的失败里,尽快学会下一次不再失败。

毕竟,现实道路还会继续出难题。

01 问题暴露后,识别和筛选是前哨战

真实道路把问题暴露出来,并没那么简单。

Waymo召回事件的复杂性正在这里。同样是车辆驶入施工区,未能识别封闭标志更像感知问题,而识别到了部分风险却在优先级排序上出错,则更接近规划和风险排序问题。表面结果相似,故障链条却可能完全不同。

类似问题也不只发生在Waymo身上。

Cruise曾因系统对风险判断失误而不恰当硬制动,部分案例甚至导致碰撞和伤害而召回近1,200辆自动驾驶车辆;Zoox的Robotaxi去年也曾因系统误判车辆行驶轨迹被召回270辆,同年晚些时候,Zoox又因车辆意外逆向停车而召回332辆。

这些案例共同说明:Robotaxi真正进入真实道路后,暴露出来的往往是感知、预测、规划、风险排序等能力在复杂交通互动中遭遇的组合性失效。

这些由真实场景引发的异常情况,必须第一时间录入后台日志,但这些真实数据的复杂程度,也决定了并非简单回灌数据就能万事大吉的。

清华大学封硕副教授与美国密歇根大学研究团队今年发布了其关于自动驾驶安全训练的最新研究,关注自动驾驶模型在部分训练场景中提升了系统安全性,但却在其他场景中相对容易出现安全性退化的现象,团队将其称为自动驾驶安全训练中的“跷跷板效应”。马斯克也曾公开提到过这种效应,他认为自动驾驶大模型训练过的数据虽然相对可靠,但是大模型完成实车部署后,总会在训练之外的方面冒出新的问题。

研究团队就此提出“dense learning”方法,建立一套让自动驾驶大模型自动筛选高价值数据样本并主动分层学习的策略,显著提升训练数据中高价值信息密度。他们认为,失败样本不是越多越好,关键是哪些失败值得学、怎样组织这些失败、学完之后有没有制造新的副作用。

但筛选只是第一步。真正进入后训练和评测环节后,问题变成:这些筛选出的失败,如何从事故样本变成世界模型能力中,可交互、可变形、可评估的场景资产?

这正是世界模型要接上的链路。

02 世界模型,要打硬仗

作为自动驾驶训练系统的强大基石,世界模型本来像装备精良、闪闪发光的装甲师,为极端场景做了准备,真实道路事故却把它直接带入一场又一场血腥的巷战,细微、危险又足够耗时耗力。

这样的硬仗,世界模型该怎么打?

香港大学李弘扬团队联合华为、清华大学的最新研究,正在从整个训练流程与策略部署的高度重新规划这一问题。他们提出,自动驾驶模型应当进入“后训练“时代:在海量数据引领自动驾驶车辆成功上路后,应当系统性地找到它的安全边界、把边界附近的真实失败转化为可学习经验,并用受约束的方式更新策略。

他们设计的World Engine提供了一个技术支点:从真实驾驶日志中发现安全关键场景,将其重建为可交互环境,再生成相似但不完全相同的交通变体,用于闭环评测和强化学习后训练。它要回答的早已不是“造出更精准的长尾场景”,而是真实失败能不能被迅速展开,形成自动驾驶模型能够高效重新学习和验证的新场景。

这正好补上了失败消化链条中最难的一段。

一次施工区误入,如果只停留在事故复盘里,它只是一次单独的行驶事件;如果能被世界模型重建为不同车速、不同锥桶摆放、不同旁车行为、不同临时封闭条件下的一组场景,它才可能变成一类可训练问题。

更进一步,修复后的模型还需要在这些变体中反复测试,证明它不光是熟悉了一次事故因果,而是真的掌握了同类风险逻辑,并且没有因为修复某一类问题而在其他场景中变得过度保守,反而制造了新的风险。

国内玩家也在朝相近方向靠近。Momenta在R7强化学习世界模型里强调让智能驾驶进入“理解世界”的阶段;蔚来、小鹏分别在世界模型、VLA与闭环强化学习等方向加码;华为Octopus则更偏向云端自动驾驶开发工具链,强调从数据预处理、标注、训练、仿真到部署的端到端能力。

这些路线并不完全相同,也不能被简单定义为对现实复杂场景的一揽子解决方案。但它们共同说明,行业正在从“生成更多场景”,走向“更快把真实失败加工成训练和验证资产”。 

03 不只是技术问题,也是商业问题

对当下的自动驾驶行业来说,每一次召回都不会只是轻飘飘的软硬件更新。

路透社、CNBC、福克斯新闻网等主流媒体第一时间报道了Waymo事件,美国汽车与AI行业媒体纷纷跟进,还请了事故亲历者痛斥自动驾驶技术的危险与脆弱……一次意外事件,不仅意味着企业运营范围可能收缩、扩张节奏被打断、政府监管沟通成本上升,更会让用户、公众和市场重新审视自动驾驶作为一整个行业的技术安全性与商业发展前景。

毕竟,更大的商业风险,从来不是一次召回本身,而是企业长期只能依赖“上路暴露问题—召回修复—重新投放—再暴露问题”的被动循环。

如果每一次失败都只能靠真实运营来发现,靠召回来处理,靠下一轮投放来验证,Robotaxi的扩张速度、安全信任度和运营成本只会被难以预料的现实意外不断拉扯、白白消耗。

这里的问题已不再是简单判断哪家企业发展的好与坏,而是随着产品的大规模铺开运营,类似情境可能发生在业内任何一家公司。

毕竟,Robotaxi不可能等到所有问题都在实验室里被提前解决,再一次性进入商业化轨道,真实道路一定会继续暴露新失败。市场上真正要比拼的,是公司遇到失败之后,能不能通过技术的“失败闭环”更快收缩风险并响应舆论关切,甚至能够把一次失败沉淀为商业进步的新一轮动力。

高风险行业并非没有类似经验。航空业早已建立起围绕日常飞行数据、航行事件和一线报告的安全反馈机制,让运营中的异常和险情沉淀为训练、流程、维护和管制改进的一部分。

它的意义不是保证飞机永远不会遇到新风险,而是让真实运营中的风险反馈越来越系统化、可追踪、可复用。

自动驾驶也在面临着类似的转型需求,市场本就要求自动驾驶车辆尽快适应现实意外的各种可能,只不过模型和训练技术需要大步跟上大规模部署的节奏。与传统交通行业不同的是,自动驾驶多了一种新的技术抓手。

世界模型和仿真训练可以把真实失败重建成可交互、可变形、可反复评估的场景资产,从而降低下一次同类问题的处理成本。它不只是让系统提前练习可能发生的问题,也让系统更快消化已经发生的失败。

本文来自微信公众号“先验实验室”,作者:Vincent,36氪经授权发布。

发布时间:2026-07-03 22:06