缺口越深,金矿越纯?数据饥荒里造富狂潮来袭

数据饥荒,也是造富金矿。

2026年,具身智能赛道冰火交织。

国家“十五五”将实训场升为国家级战略,全国在建及规划的训练场已近30家。资本疯狂涌入,一季度融资超200亿元,同比增近60%,真金白银砸向“机器人大脑”。算法、算力齐头并进,一切看似水到渠成。

但斯坦福近日发布的《2026AI指数报告》撕开了一道无法回避的裂缝,机器人在仿真环境中的操作成功率达89.4%,一旦进入真实家庭场景便断崖式跌至12.4%。77个百分点的迁移鸿沟,让上亿资金堆出的“机器人大脑”,沦为“行动废柴”。

更残酷的是万倍级数据饥荒。GPT-5训练语料达100亿小时,全行业高质量具身数据仅50万小时。真机采集每小时500至1000元,市场却是“有多少要多少”的卖方市场。

数据,正在从制约行业的“卡脖子”瓶颈,裂变成一门新生意。

面对这道集体考题,头部企业分野对决,重资产自建与轻资产仿真各显神通;数据“卖铲人”跑步入场,百亿估值新秀快速分化互联网大厂则以“修路者”姿态抢滩数据底层基建。

规则尚未写明,赛道还在铺就,在这场数据竞速中,谁能率先跨越鸿沟、打通虚实闭环,最终拿下定义物理智能时代的制高点?

一、数据三重门,

为何聪明的AI一进物理世界就“笨拙”?

AI能写诗、解题、吸纳人类千年文明,堪称“思想巨人”。但当它被装进机器人身体,情况却令人沮丧:机器人能跑跳,拧开瓶盖却比解微积分还难,两岁小孩随手搭好的积木塔,机器人可能要尝试上百次。

为什么拥有超强“脑力”和灵活“肢体”的AI,一落地真实场景就频频“掉链子”?核心症结在于,当前AI仍是无感受的统计智能,只懂语义关联,不懂物理真实。

斯坦福大学李飞飞指出,用语言模型理解物理世界有结构性短板,空间理解、物理推理等难题从未真正解决。

中科院吴易明更直白:“如果只是把大模型装进机器人,它依然不理解物理世界,它只是在“猜”。

通俗讲,AI缺少人类与生俱来的“体感”和“手感”。它可以熟记倒水的标准步骤,却无法感知水壶变轻时的重力变化;可以背诵抓取要领,却没有力觉反馈校准力度。没有触觉、力觉、本体感知的实时闭环,就无法形成真正的物理智能。

图灵奖得主Yann LeCun认为,破解这一困境的关键是世界模型——可通俗理解为机器人大脑内置的“物理世界预习系统”,旨在让AI拥有对物理世界的“想象力”和“理解力”,让智能体在行动前推演物理后果,比如松手物体会坠落、倾斜容器液体溢出,从而告别盲目试错。

但问题来了,如何训练出一个靠谱的世界模型?答案指向一个更底层、更棘手的挑战——数据。

训练具身智能的数据,与传统AI大模型存在代际差异。中科院信通院许志远强调,传统AI数据只是“看见”的信号,具身数据则是“做到”的行为证据,标准天差地别。传统大模型可从互联网低成本抓取海量文本、图像、视频;而具身智能需要记录人的动作行为与物理世界的实时反馈。

中国工程院外籍院士张建伟在2025智博会上直言:具身智能对高质量数据的需求,是自动驾驶的上千倍、大语言模型的上百万倍。

为何差距如此之大?因为物理世界的数据存在一个“不可能三角”——精度、规模、成本,三者无法同时满足。用摄像头录视频,数据量大、成本低,但精度有限;用人类遥操作采集,精度高,但一小时只能采几十条有效轨迹,成本高达数百元。

更具体地说,行业面临的“数据饥荒”集中在质、量、维三大痛点。

精度上,从“看见”到“做到”,标准天差地别。互联网数据允许模糊与噪声,但具身智能需要毫秒级对齐、多模态融合、带物理因果标注的“完美示范数据”。抓取一个杯子,不仅要记录手指轨迹,还要同步记录施加的力、接触点摩擦力、形变与滑动,采集成本远非爬虫可比。

规模上,量级鸿沟以万倍计。GPT-5训练语料约100亿小时,而全行业高质量具身交互数据仅约50万小时。实现具身智能“涌现”至少需要百万小时级数据,目前不足5%。更严峻的是,单个复杂技能如拧瓶盖需2000至5000小时数据,且换一种材质或光照即可能失效。

维度上,场景碎片化导致数据“一换就废”。传统AI数据是静态、二维、单模态的,而具身数据是动态、三维、多模态的“状态-动作-反馈”轨迹集合。光照、材质、摩擦力、环境布局——任何一个变量变化,之前采集的数据就可能失效。换个桌子,同一个抓取动作就需要重新训练。

这三重门,正是具身智能从实验室走向真实场景无法绕过的“天堑”。这也意味着,具身智能的数据训练,不仅仅是“海量文本喂出智能”,更是“物理因果驱动行动”。如何破局,已成为全行业最紧迫且无法回避的命题。

二、重资产深耕,轻资产突围,

分野与共识渐显

面对三重“数据天堑”,头部企业破解具身智能数据荒已形成清晰分野。优必选与智元机器人同属重资产深耕路线,以自建场地、自研体系夯实真机数据底座;宇树科技和银河通用则采用轻资产模式,分别依托生态开源与仿真合成快速做大数据体量。

优必选选择了一条“全栈闭环”的重资产路线,重点扎根汽车、物流等工业实景,在柳州、自贡落地工业级数据采集中心,投放超五百台机器人常态化采集关节扭矩、触觉反馈等真机数据,单台设备年产出有效数据超四百小时;

同时依托自研Thinker大模型实现近全流程自动化标注,将复杂操作拆解为标准化原子技能,用少量模块即可覆盖完整工位作业需求,精准补齐场景数据缺口;

其最新推出的Thinker-WM世界模型以少量真实数据为基底批量生成高保真虚拟数据,搭建起真实校准、虚拟扩容、模型迭代再到场景反馈的双向进化闭环,同时牵头参与人形机器人行业标准制定,从源头规范数据质量体系。

智元机器人同样坚持重资产投入,侧重布局全链条数据基建与世界模型研发,更注重构建可循环的数据飞轮体系。创始人邓泰华将其定义为“数据密度与场景覆盖度的长期竞争”,已在上海投建4000平方米数据工厂,复刻五大场景,近百台机器人日均产出3万至5万条轨迹数据,累计超百万条,开源的数据集AgiBotWorld已成为行业基准——英伟达GR00TN1模型中80%的真机数据即来源于此;

2026年,旗下觅蜂科技推出MEgo无本体采集硬件,采集员佩戴轻量化设备即可在日常作业中记录轨迹,同步上线一站式数据服务平台,覆盖“采、训、测、推”全链路,同时联合国家数据标委会等发起“蜂巢数据共创行动”,目标2030年达成百亿小时级数据产能。

不同于重资产自建模式,宇树科技则走出了一条硬件赋能、生态共建的轻资产路径。公开信息显示,王兴兴测算若2026年出货规模达到一至两万台,单台每日稳定采集十小时数据,仅需两三年便能极大缓解行业数据荒。在此基础上宇树完成世界模型框架、VLA视觉语言模型以及百万级轨迹数据集的全维度开源,2025年底上线全球首个人形机器人应用商店,搭建起开发者数据上传与共享流通的公共枢纽,依靠生态自发供给持续扩充数据储备。

银河通用则走仿真合成为主、真机微调为辅的轻资产路线。创始人王鹤认为单纯依靠真机采集永远无法匹配具身大模型万亿级的数据需求。公司自研银河星纺物理仿真管线,每周可量产十亿级操作数据集,成本仅为真实采集的百分之一,凭借海量仿真数据完成模型预训练,再以少量真机数据做后期校准优化,旗下GraspVLA模型依托大规模仿真训练实现零样本抓取泛化,2026年推出LDA-1B模型进一步实现虚实数据、人机交互数据以及不同质量等级数据的融合复用,有效抹平虚拟与现实之间的落地鸿沟。

头部企业之外,新晋独角兽也在快速分化,但一个共识已趋明确:高价值真实场景数据是终极壁垒。

智平方依托落地汽车、半导体产线的机器人设备,从真实商业作业场景中持续回流优质交互数据,同步自研模型并开源技术体系;

星海图开源了500小时真实操作数据集;穹彻智能推出无本体采集套件,让日常作业即可记录高质量数据;自变量旗帜鲜明地摒弃仿真,只采真实“牛奶数据”;

傅利叶则从底层逻辑重构数据来源,依托十年康复医疗积累,以脑机接口与主动触觉感知打造意图级数据采集范式,推动机器人从被动响应向主动理解人机意图升级;

跨维智能完全依托合成数据构建模型训练体系,实现无样本虚实场景迁移适配;千诀科技则通过类脑分区式世界模型架构,优化感知、决策与控制模块协同效率,在降低海量数据依赖的同时,大幅提升现有数据的利用效能。

真实数据质量最高但成本高昂、难以规模化;仿真数据可以无限供给,却始终面临“虚拟到现实”的迁移落差;视频数据量大且免费,但缺少触觉、力觉等物理闭环信息。

没有一条路是完美的,行业共识已经萌芽,真正的破局点不是非此即彼的二选一,而是打通三者协同的混合闭环:以仿真/视频数据进行低成本大规模预训练,真实物理数据进行微调校准,再通过开源生态实现长尾场景的持续反哺,以系统合力对冲单一路线的短板。

三、数据“卖铲人”崛起,

谁能定义下一个物理智能时代?

数据,已成为具身智能产业最确定的增长引擎与核心生意。据国泰海通研报明确,具身智能的核心瓶颈已从算法转向大规模高质量物理数据短缺,这催生了全新的 “卖铲人” 赛道,率先填补数据缺口的服务商与基建商,将占据产业链核心价值节点。

这并非纸上谈兵。据猎云网报道,今年1月湖北完成的全国首单企业间具身智能数据交易,向智元机器人出售数千小时训练数据,标志着数据本身已开始作为独立商品在市场中流通。

与此同时,真实遥操作数据每小时成本高达500至1000元,而行业需求正以百万小时为单位膨胀,市场呈现出“有多少买多少”的卖方市场状态。

围绕数据这门新生意,两类“卖铲人”已经浮现。一类是数据服务商,智元旗下的觅蜂科技以500至1000元/小时对外销售标准化真机数据集,计划2026年实现千万小时级数据产能;

另一类是采集工具商,鹿明推出背包版采集设备,将单条数据采集时间压缩至10秒;京东自研220克可穿戴采集终端JoyEgoCam,实现一线人员“即戴即采”;它石智航五指智能手套精准捕捉操作轨迹,从硬件端筑牢数据采集底座。

互联网大厂则以“修路者”姿态入局,布局数据底层基建。京东打造全链路数据基础设施,自研采集设备、联动60万采集大军,目标两年积累1000万小时数据;

百度智能云推出具身智能数据超市,华为上线Cloud Robo平台,共同搭建数据流通的云底座;阿里、腾讯、字节、美团则以“投资+生态”双轮驱动,战略投资头部企业,开放菜鸟、高德、配送网络等场景,转化为天然的数据采集场。

当下的数据竞赛,正从技术路线之争升级为商业模式与生态闭环之争。

优必选、智元代表自建重资产模式,自主掌控数据生产全链条,壁垒最高但受资本与硬件部署速度限制;

银河通用走仿真先行路线,以合成数据低成本扩产能,却需持续弥合虚实迁移鸿沟;

宇树科技依托硬件开源模式,用出货量换数据、用应用商店建生态,一旦突破临界点将形成深厚护城河,但数据质量参差不齐

互联网大厂则扮演基础设施提供者,不争终端竞争,而是打造行业通用的 “水电煤”,享受产业链发展红利。

数据竞速的本质,是对物理智能时代定义权的争夺。但真正的终局判断可能反直觉,最终赢家或许不是采数据最多的人,而是能让数据“越用越便宜、越用越聪明”的闭环构建者。单一企业的数据资源与采集能力始终是有限的,而一个良性协作的数据生态,更有可能在流通与复用中释放出持续的长期价值。

复盘互联网时代的经验,最终胜出的往往不是单纯的内容生产者,而是掌握了分发与变现通道的平台方。这一规律在具身智能领域同样值得借鉴。

短期来看,卖数据、卖工具是一门确定性极强的生意;但拉长周期,那些能够定义数据流通标准、搭建训练与交易基础设施的玩家,更有可能占据价值链的高位。互联网大厂纷纷押注云平台与数据超市,本质上正是在争夺这个潜在的制高点。

这场始于数据的变革,正在重塑物理智能时代的产业格局。谁能率先跑通“采集—处理—应用—回流”的完整飞轮,并在数据生产与数据流通之间找到有效的平衡,谁就有机会在下一阶段的竞争中占据有利身位。淘金热中,卖铲子的人固然赚钱,但修路收过路费的人或许走得更远。具身智能的数据竞赛,才刚刚进入这个阶段。

本文来自微信公众号“亿欧网”(ID:i-yiou),作者:路永丽,36氪经授权发布。

发布时间:2026-05-12 10:02