宇树的老对手智元,又拆出一家公司。
随着觅蜂科技宣布完成数亿元天使+轮战略融资,这家由智元发起设立的数据公司也再次浮出水面。继灵巧手公司临界点之后,智元又把一项核心能力单独成立公司,走上了独立融资运营的道路。
提起智元,不少人都会下意识地把它当做宇树的头号对手。
毕竟仅在2025年,宇树纯人形机器人实际出货量超过5500台,号称出货量全球第一;今年3月,智元则宣布第1万台通用具身机器人正式下线。
从量产规模到商业落地,双方始终被放在一起比较。
而这一次,作为宇树最直接的对手之一,智元又把自己的竞争筹码延伸到了机器人本体之外。
因为智元独立出来的觅蜂科技,做的正是当下具身智能最火热的生意之一:数据采集、治理和流通。它提出的目标也十分宏大,要在2026年实现千万小时级数据产能。
基座模型、算力、硬件,这些与具身智能息息相关的名词,我们都听得多了。但更多人可能没有意识到,“数据”在具身智能产业中的重要性正在迅速上升。
就连智元联合创始人、总裁兼CTO彭志辉此前也直言,智元并不缺钱,当前更缺的是数据。
智元缺数据的背后,是整个具身智能产业正在经历一场还没被大多数人看见,却十分紧迫的“数据饥荒”。
到了具身智能时代,数据的重要性,正在逼近大模型时代的算力。
大模型主要学习互联网世界,机器人则要学习物理世界。前者可以从网页、书籍和论文中获取训练语料,后者必须抓起杯子、推开房门、叠好衣服,才能理解真实环境中的动作和反馈。
机器人所需要的除了视觉信息,还包括触觉、力觉、运动轨迹等多模态信息。对于高质量真机数据来说,每一条数据背后,往往都对应着一次真实的物理交互。
按照觅蜂方面在发布会上的估算,训练GPT-5级别系统所需的语料达到百亿小时量级,全球可用于具身智能训练的高质量有效数据则只有约50万小时。
另一方面,斯坦福大学HAI发布的《2026年AI指数报告》列出了两项悬殊的成绩:机器人在RLBench仿真操作基准上的最高成功率达到89.4%;在面向真实家庭需求、任务链条更加复杂的BEHAVIOR-1K仿真基准中,完整任务成功率最高只有12.4%。
两项成绩来自不同基准,但它们至少说明了,机器人在短程、受控任务中进步很快,面对复杂的家庭任务时,能力仍明显不足。
高质量、多样化训练数据不足,正是其中一个重要原因。
换言之,今天的机器人,能力短板很大程度上来自见过的真实世界还太少。
因此,具身智能数据采集这个新兴行业开始快速崛起。
目前最常见的方式是真机遥操作(Teleoperation),由真人远程控制机器人完成任务,再把执行过程中的视觉、动作和状态信息记录下来。数据质量相对较高,成本也不低。
觅蜂CEO姚卯青此前介绍,国内一小时真机数据的价格通常在500元至1000元之间,而且需要机器人本体、操作员和场景共同配合,扩张速度有限。
另一条路径是仿真数据。企业利用数字孪生和物理引擎,在虚拟环境中让机器人完成大量训练任务,可以降低采集成本。但机器人在虚拟世界学到的技能,仍可能无法完整迁移到现实世界,这也是行业长期面对的“Sim-to-Real鸿沟”。
数据采回来之后,还有更基础的问题。
不同企业使用不同的机器人平台、传感器和数据格式,同样一个抓取动作,可能被记录成完全不同的数据结构。大量原始数据还要经过清洗、标注和结构化处理,才能进入模型训练。
因此,不少企业仍处在“自采、自用、自训练”的阶段,数据被分散在不同公司和平台里。
随着数据的重要性上升,竞争也开始从机器人本体,延伸到采集、治理和流通等基础设施。
但行业究竟缺多少数据,目前没有统一口径。可以确定的是,单靠一家企业自采自用,很难覆盖通用机器人需要面对的复杂场景。
谁能率先建立标准化、规模化的数据供给网络,谁就更有机会成为这轮产业扩张中的“卖铲人”。
觅蜂科技瞄准的正是这个机会。
当然,数据采集很重要,但觅蜂科技想要的不止于此。
目前行业的高质量数据采集,仍然大量依赖机器人本体。企业需要购买机器人、部署场景、组织操作员,再通过遥操作完成采集,其中机器人本体就是成本最高的环节之一。
觅蜂保留了真机数据方案,同时推出MEgo系列无本体采集产品,包括MEgo View头戴式采集设备和MEgo Gripper采集夹爪。
操作员佩戴或手持设备后,就能在超市、工厂、家庭等真实场景中记录操作过程,不需要让机器人全程参与采集。
相比真机遥操作,无本体采集更容易降低成本、扩大规模。按照觅蜂方面披露的规划,其2026年数据产能中,60%至70%将来自无本体采集。
但采到数据只是第一步,能否经过治理进入训练环节,很大程度上决定了它最终有没有价值。
原始数据往往包含噪声和无效内容,还需要经历时间对齐、轨迹重建、标注、质量筛选等流程。企业即使掌握了大量原始数据,也未必能直接转化为有效训练集。
因此,觅蜂把大量精力放在了数据治理环节。
其自研的MEgo Engine数据治理引擎,覆盖数据清洗、6D轨迹重建、空间感知重建、质量校验、智能评分和自动标注等流程。按照觅蜂方面的说法,其自动化标注效率相比传统方式可以提升10倍以上,目标是让采集后的数据更快进入训练环节。
除了出售数据,觅蜂也希望提供把原始数据处理成训练集的能力。
在更上层,觅蜂还搭建了数据商城,希望将分散的数据资源进行标准化封装,向整个行业开放供给。
这样的设想与早期云计算有些相似:云厂商把算力做成按需调用的服务,觅蜂则希望把数据也变成一种可交易、可复用的基础资源。
按照公司的规划,觅蜂将在2026年实现千万小时级数据产能,并通过“蜂巢数据共创行动”联合云厂商、场景方和行业机构,在2030年前冲击百亿小时级数据规模。
这些目前仍是产能目标,能否按期兑现,还要看硬件量产、采集网络和真实订单。
但即便如此,资本已经愿意为这套设想买单。
今年2月,觅蜂科技完成数亿元种子轮与天使轮融资,由红杉中国领投;
6月又完成数亿元天使+轮战略融资,由国方创投领投,多家产业资本和国资机构跟投;
阿里云、百度云、京东云等企业也已与觅蜂达成战略合作,合作方向涉及数据生态、场景协同和算力支撑。
至此,临界点和觅蜂这两家从智元独立出来的公司,也有了各自的业务方向:
临界点瞄准灵巧手这个硬件环节,觅蜂则瞄准具身智能的数据环节。
只不过,独立融资运营给觅蜂留下了对外服务的空间,却没有自动解决同行的信任问题。
觅蜂首先要解决的,是中立性。
它提出的“蜂巢数据共创行动”,是在尝试建立一个行业级的数据网络。但要让更多机器人公司参与,觅蜂需要证明,客户的专属数据不会流向智元,也不会被其他竞争对手越权使用。
姚卯青曾公开回应这一问题。他表示,觅蜂的数据交易分为“使用权”和“所有权”两种模式;对于购买所有权的客户,公司会完成资产转移,并在本地销毁相关数据。
甚至智元获取觅蜂数据的唯一途径,也是市场化下单,不存在免费调用,这些安排至少明确了数据隔离的原则。
只是,要让智元的竞争对手长期采购,觅蜂还需要通过协议、权限隔离、交付流程和第三方审计,持续证明自己的中立性。
毕竟,对智元的对手们来说,觅蜂并不是“非选不可”,它也不是唯一一个盯上数据生意的公司。
京东已经推出JoyEgoCam采集终端、具身数据基础设施和数据交易平台,并提出未来两年积累超过1000万小时真实场景视频数据的目标。
鹿明机器人也在布局无本体采集,灵初智能主打人类真实操作数据,光轮智能则聚焦合成数据与仿真基础设施。
它们竞争的都是同一件事:把分散的场景和原始数据,转化成能够持续用于训练的数据集。
觅蜂还要同时面对规模和质量两道考题。
千万小时目前只是产能规划,并非已经完成的数据交付;无论是真机采集还是无本体采集,扩大规模都意味着持续投入设备、人员和场景。解决不了数据质量和泛化问题,再大的数据集也可能只是重复堆积。
最终决定觅蜂能否形成网络效应的,仍然是同行对它的信任。
不过,智元让觅蜂独立融资运营,至少给这门业务争取了对外服务的空间。
数据如果始终留在智元内部,只能提升一家公司的模型能力;经过标准化、商品化,并获得其他机器人厂商认可,才有机会成为行业基础设施。
归根究底,对觅蜂来说,千万小时产能只是门槛。
等到智元的竞争对手也愿意长期向它采购,甚至把核心数据交给它处理,这门生意才算真正站住脚。
本文来自微信公众号“蓝字计划”,作者:Chester,36氪经授权发布。
发布时间:2026-06-23 20:00