决胜物理世界:AI自主可控的下一程,由守转攻

最近SpaceX、晶圆级芯片公司Cerebras相继上市,资本的聚光灯正毫无保留地打在硬科技与算力一侧。

上个周六(6月13日),我参加了第三届清华企业家日(TEEC Day)活动。在聆听了多场演讲与圆桌对话,并将这些极具反共识的讨论消化与推演后,我愈发笃定一个判断:AI领域,真正的稀缺性已经悄然转移,它正从云端的算力,重重地落回了物理世界的数据。

而物理世界的数据,恰恰是AIoT企业,能够从防守转向进攻、甚至重新定义规则的战场。

因此本文要回答的,正是被算力这束强光遮蔽的三个核心问题:AI下一程真正稀缺的要素是什么?胜负手究竟会落在哪一层?以及中美博弈中,优势为什么正在悄悄逆转?

如果说大模型是这一轮工业革命的“蒸汽机”,那么决定它能转出多大功率的,是无数个“齿轮”。

这一次,齿轮握在我们手里。

稀缺性的迁移:从数字世界到物理世界

银河通用的人形机器人已经在宁德时代的十多个工厂里搬运危险物料,双手持握可达上百斤,7×24小时无休,还能自主换电;美团的智慧药房里,数千种药品的拣选由机器人在四十平米的地下仓库精准完成;甚至有些超市也已经开始尝试由机器人直接运营…

这些在闭门会上披露的真实产业切片,在我脑海中拼凑出了一个被算力叙事掩盖的事实:AI下一程的价值,正在不可逆地从数字世界向物理世界迁移。

迁移的第一推力,是我观察到的“数字经验贬值”。

AI正在把过去靠时间积累起来的稀缺性迅速填平。代码编程能力、运营管理经验,这些曾经需要数年甚至数十年才能筑起的壁垒,正在快速消失。我们可以将这种现象定义为“经验的平权”

软件业赖以收费的旧逻辑正在被反转,过去,软件是帮客户“变聪明”然后再收费;如今,AI直接替客户把活干了。这恰恰说明了一个残酷的现实:纯数字的交付正在丧失溢价,真正的壁垒已经迁向了AI与硬件、与物理场景的深度结合。 而物理世界的真正瓶颈,是数据。

我发现,无论技术路线如何分化,大家最终都不约而同地撞上了这堵“数据墙”

为了跨越这道鸿沟,我观察到行业内已经演化出了几条不同的突围路径:

一是仿真与现实的交汇。例如,银河通用机器人的策略是,先在仿真环境中“造”数据,再通过客户拍摄的真实作业视频进行回流校正。

二是物理世界的直接采集。松延动力在探索中,将全身遥操作视为物理数据的核心采集装置。

三是构建视频原生的世界模型。这正是生数科技所押注的方向,而这一世界模型的训练,离不开海量真实视频的“喂养”。

四是直面底层数据的极度匮乏。OriginFlow提供了一组极具反差的数据:人类每天产生上千亿小时的物理交互,而当下最强的模型,仅仅消化了几十万小时的真实数据。

把这些产业切片收拢,可以得出一个被算力焦虑遮蔽已久的结论:基础模型撑不起护城河,数据闭环才是关键,物理世界数据的获取,本质上就是一个传感与采集的问题。

传感与采集,正是物联网数十年来一直深耕的领域。

这也就意味着,接下来的硬仗,将不可避免地回到AIoT的主场。

采集的工业化:一场供给成本曲线之战

承认物理世界数据是真正的瓶颈,其实只是问对了问题,还没有真正回答它。

过去,当我们把数据当成稀缺资源去抢夺时,很容易本能地得出一个结论:谁占着最多的场景,谁就握着最多的数据。这个观点我曾在之前的观察中提过,但经过对近期产业前沿的反复推敲,我发现必须把这个认知再往前推演一步:真正决定胜负的,不再是谁名下挂着多少个场景,而是谁能把“数据采集”这件事,从一门手工作坊式的手艺,做成一门可规模复制的工业。

为了看清这个逻辑,我们有必要在分析中引入一个工具:数据供给的成本曲线。

采集即供给,一条物理交互数据的单位采集成本,比如采一小时高质量的、带力反馈和接触信息的真机数据,究竟要花多少钱、多少人、多少时间,直接决定了一家公司能否持续、规模化地喂饱自己的模型。

如果占着场景却采不动、采不起,那座所谓的数据富矿就只是一笔账面上的储量;反过来,如果能把单位采集成本压到足够低,场景的多寡反而成了次要变量。

胜负手,其实就落在这条曲线上。

在梳理当前具身智能几条主流路线的交锋时,我发现前沿的探索者们,本质上就是在对这条曲线的不同位置下注:

松延动力董事长姜哲源为代表的全身遥操作路线,需要操作员一比一带着机器人做动作。这虽然精度极高,但在我看来仍停留在“作坊阶段”,一个人一天能采多少?成本几何?规模化的账目前还很难算平。

银河通用机器人创始人兼CTO王鹤则干脆绕开了重资产的人工遥操作。他的解法是,先在仿真环境里用强化学习把动作打磨出上万年的训练量,再利用客户头戴相机拍下的真实作业视频,在测试时进行最后的场景适配。这实质上是把采集的主体,从昂贵的遥操作员,换成了低成本的仿真算力和一段普通视频。

OriginFlow创始人兼CEO秦深涛走得更为激进。他试图利用神经接口,在完全不干预人类正常生产生活的前提下,直接采集肌肉的运动与发力信号。结合压缩传感与稀疏表征的数学原理,这套逻辑的野心在于:把人体本身变成一个低成本、不停机的物理数据采集终端。

清华大学计算机系教授、生数科技发起人朱军的思路则更加降维。他直接将互联网上已经存在的庞大视频库,视为一批预先采好、边际成本几乎为零的供给,直接拿来训练视频原生的世界模型。

这四条路线的真正分野,从来都不在于谁占着更好的场景,而在于谁能把数据采集的成本曲线压得更低、更陡。

这种对成本曲线的极致压缩,并非数据侧的孤立现象。在算力侧,通过底层硬件迭代与集群优化来摊薄算力成本,同样是当前的行业主旋律。

一边是算力侧在压供给曲线,另一边是数据侧在压采集曲线,两者完全是同一个动作在不同技术栈上的投影。由此,一个更为底层的产业命题浮出水面:AI竞争的本质,就是在每一层稀缺要素上,以工业化的方式,把供给的成本曲线往下压。谁能率先把某一层的供给做成低成本、可规模复制的工业品,谁就能拿走那一层的定价权。

所以,占据场景依然是必要条件,只是它不再是充分条件。护城河的定义,已经从“得到场景”,升级成了“把采集做成工业的能力”。

谁拥有场景,决定了能不能入局;而谁能把采集工业化,才真正决定了能不能赢。

供给侧的非对称优势:“自主可控”正从防守翻转为进攻

顺着成本曲线的逻辑,我们可以回到整场推演的“脊柱”。

大模型无疑是这一轮工业革命的“蒸汽机”,但蒸汽机的绝对功率,必须依靠无数个“齿轮”才能传导为真实的生产力。现场工程师、场景适配、硬件制造、传感器件,缺了任何一环,引擎就只能原地空转。

共绩科技创始人兼CEO付智对AI落地的观察,恰好印证了我的这个判断:AI落地远不是把模型部署过去那么简单。就像蒸汽机刚问世时那样,我们需要大量懂场景的工程师去做一处一处的定制适配;即便是OpenAI、Anthropic这样的头部企业,在帮客户落地时也依然需要工程师重度驻场。

如果说“引擎”(基础大模型)是中美零和厮杀的主战场,那么“齿轮”(工程落地与硬件制造),恰恰紧紧握在中国手里。我认为,这正是中国AI产业在“自主可控”叙事下,从被动防守翻转为主动进攻的支点所在:在算力引擎上我们或许还在补课,但在传动齿轮上,我们已经具备了领跑的势能。

第一组齿轮,咬合在模型路线上。

在复盘中美大模型的博弈时,我十分认同清华大学计算机系教授、生数科技发起人朱军的一个判断:在纯文本语言模型上,美国确实仍保持领先;但在视频模型和世界模型领域,中国已经悄然站到了世界前列。

当美国的Sora在迭代节奏上显露收缩之势时,国内的快手可灵、字节即梦、生数科技以及阿里等团队却在密集推进,甚至在部分体验上实现了反超。

沿着这个趋势推演,世界模型作为通向物理世界AI的核心底座,大概率会走“视频原生”这条路。而这条路最需要的养料,正是海量视频素材以及极低的数据制造与采集成本,这恰恰是中国的“战略存货”。

第二组齿轮,咬合在采集与硬件的供给侧。

在产业调研中,一个越来越清晰的共识是:在纯硬件制造和供应链整合上,中国的相对优势正在凸显。红杉中国基金合伙人周逵曾连续押注十余家具备视觉特征的科技公司,他背后的投资逻辑给了我很大启发:只要云端具备了强大的“大脑”,我们就可以把每一个硬件都变成边缘端的传感器,去感知和理解世界。

在我看来,这是一幅极具中国特色的AIoT图景。

中国在制造能力、供应链纵深、场景密度上的绝对优势。更重要的是,当机器人被真实部署到宁德时代的产线、美团的配送网络或是大型商超里时,这不仅是商业上的落地变现,更是物理世界数据的绝佳采集入口。机器人在干活的同时,就已经低成本地完成了数据的自动化采集。

目前资金过度拥挤在聚光灯下的“引擎”一侧,但从产业演进的规律来看,未来真正的非对称回报,大概率沉淀在那个尚未被充分定价的“采集层”与“齿轮端”。

写在最后

回顾科技史,云计算之所以能成为移动互联网时代的底座,是因为有人把原本分散的算力,做成了标准化、可计量、随取随用的基础设施。而反观今天物理世界的数据采集,依然停留在各家自采自用的“手工作坊”状态。谁能率先把物理世界的采集做成一层标准化的基础设施,谁就握住了通向AGI下一程的绝对入口。

在通向物理世界AGI的征途上,中国有机会不再做那个疲于奔命的追赶者,而是转身成为新规则的定义者。

本文来自微信公众号“物联网智库”(ID:iot101),作者:彭昭,36氪经授权发布。

发布时间:2026-06-17 20:22