人形机器人等待ChatGPT时刻

AI浪潮持续高涨。

机器人领域颇为典型。由中国机械工业联合会等单位主办的2025中国机器人产业发展大会,近日召开了新闻发布会。发布会数据显示,国内机器人产业规模高速增长,营收已由2020年的1061亿元增长到了2024年的2378.9亿元;2025年前三季度,国内机器人产业营收同比增长29.5%,工业机器人产量达59.5万台,服务机器人产量达1350万套,工业机器人和服务机器人产量均已超2024年全年。

作为AI的关键载体与核心落地方向,机器人正为产业变革注入全新动能。这一趋势更流行的表述是“具身智能”,后者指具有物理载体的智能体,能够通过感知、决策与交互能力在现实世界中执行任务,并在与环境互动中持续进化。具身智能已在推动技术从算法模型迈向现实世界,进而拓展AI应用边界,为实现通用AI探索更多可能。

从定义看,具身智能不止包括人形或其他形态的机器人,也包括搭载AI模型的无人机、智能汽车等。具身智能中,人形机器人赛道尤为引人注目。从海外的Figure AI、特斯拉到国内的宇树科技、智元机器人等,全球创新力量带动行业疾步向前,不断刷新。

2025年10月29日,挪威科技公司1X发布家用人形机器人NEO,以约2万美元(约合人民币14.2万元)的售价或每月499美元(约合人民币3500元)的月度订阅费用开放预订,计划于2026年交付。宇树科技则将人形机器人带入“双十一”大促活动,以2.99万元的价格在京东平台售卖。

自2022年11月ChatGPT点燃全球AI热潮,AI迅速进入大众视野,从遥不可及的高端科技变成人人皆可使用的工具。CNNIC即中国互联网络信息中心发布的《生成式人工智能应用发展报告(2025)》显示,截至2025年6月,国内生成式人工智能用户规模已达5.15亿人,普及率为36.5%。

生成式人工智能或称生成式AI、AIGC的发展促进了相关领域,特别是具身智能行业的发展,使《我,机器人》《机器人总动员》等科幻作品中的人与机器人共处的场景离现实越来越近。于是,科技巨头重金押注,创业公司争相入场。在这场关乎科技未来的竞争中,玩家们竭力挖掘护城河,试图率先创造人形机器人的“ChatGPT时刻”。

01

求解动作难题

如今人形机器人的迭代可谓日新月异。

机器人表演就颇为显眼。在2025年1月的央视春晚上,宇树科技机器人H1表演的《秧Bot》仅是根据节奏扭动身体和转动手帕,动作相对简单。到了2025年10月,在舞剧《天工开物》的谢幕环节中,宇树科技机器人已能精准复现舞者姿态,以流畅的侧翻、后空翻等完成“人机共舞”。

宇树科技机器人相关表演视频在抖音、快手等平台迅速传播,目前视频点赞量已累计超过130万。有用户在评论区发出感慨说,机器人动作年初看起来还不协调,没几个月已经协调到这种地步,像是“输入武功秘籍”了。

机器人的突破性进展是科技发展数十年持续积累的结果。

要知道,AI奠基者艾伦·图灵在1950年的论文中就提出过智能必须依托物理实体与外界动态交互才能形成。只是受限于科技水平,半个多世纪以来,机器人都与真正意义上的具身智能相去甚远。

在2011年福岛核电站事故中,救援现场找不到具备实际作业能力的成熟机器人,有限的设备在复杂辐射环境中频频受困,甚至被散落电缆绊倒,难以执行关键任务。在此之后,DARPA,即美国国防部高级研究计划局宣布举办机器人挑战赛,旨在推动灾难救援机器人技术研发。

第一届美国国防部高级研究计划局机器人挑战赛2012年10月启动,直到2015年6月才决出胜者。决赛需要机器人进行抵达任务区、自主下车、打开房门、关闭闸门、借助工具开洞等操作,参赛机器人大多步履蹒跚,频频跌倒,多数都无法完整完成所有操作。获得冠军的是韩国KAIST研发的机器人HuBo,行进时并不是依靠双足,而是以万向轮保证机器人的速度和平衡。亚军则是由波士顿动力研发的机器人Atlas。

彼时该决赛视频引发了公众热议——机器人行动迟缓,错漏百出,与公众期待的灵敏、智能的助手形象毫不相干。

作为全球头部人形机器人公司,成立于1992年的波士顿动力曾是行业先驱。早在2017年,波士顿动力的Atlas就展示过后空翻。然而,Atlas原先采用的是液压驱动系统,高强度、高精度的同时还有高能耗、高噪音和高成本的问题,难以商业化。波士顿动力2013年被谷歌收购、2017年转至软银,2021年又被韩国现代收购。软银时期,波士顿动力曾以约7.5万美元(约合人民币53万元)的价格将机器狗Spot推向市场,仅售出约400台。

空翻动作之所以被视为机器人技术发展的关键里程碑,在于它系统性融合并推动了机器人硬件设计、动态控制与实时决策等多个核心领域的进步。

据海克财经了解,要完成空翻动作,机器人的驱动系统要瞬间释放足量功率密度,且高负载持续时间极短;系统需实时解算包含前后、左右、上下平移及绕三轴旋转的六自由度运动方程,超过0.5度的角度偏差就可能导致落地失衡;机器人脚踝、膝盖与髋关节需要减震缓冲,要求脚掌力传感器在0.01秒内感知地面反作用力并作出响应。

以宇树科技为代表的新玩家舍弃了液压驱动方案,选择纯电驱动技术路线,克服了原先电力驱动功率不如液压驱动的问题,通过自研高扭矩电机与轻量化结构设计来保证动作完成性与成本的平衡。比如宇树G1,用23-43个关节电机设计,最大关节扭矩达120N·m,使其即使在侧空翻这类对横向惯性控制要求极高的动作中仍能维持整体稳定。

波士顿动力亦于2024年4月推出了电驱版Atlas,标志着电驱技术路径获得更广泛认可。到了2025年2月,国内企业众擎机器人成功完成全球首次机器人前空翻,实现了技术上的重要突破。与前阶段常见的后空翻相比,前空翻对机器人的动态平衡能力、瞬间爆发力与精准落地控制提出了更高要求。

02

智能从何而来

空翻等高难度动作的突破,意义远不止于技术展示。

这些动作能够系统验证整机控制系统与关键零部件的成熟度,为机器人在复杂现实环境中的应用奠定了基础。在2025年9月的公开演示中,宇树机器人G1面对连续推搡与踢打,能够很快反应,恢复至站立状态,展现出了相当的运动智能。

这标志着机器人从实验室走向复杂现实世界的进程再度加速。

自2022年AIGC的突破及特斯拉推出机器人Optimus原型机以来,全球人形机器人产业进入快速发展期。国泰海通证券2025年11月发布的一份研报综合多方数据显示,2024年国内人形机器人企业注册量为104家,同比增速104%;人形机器人亦是投融资热点,2025年1-7月,国内人形机器人行业融资达101起,融资额超过260亿元,已超过2024年全年融资额;2024年以前,人形机器人行业处于实验测试阶段,产品性质为原型机,规模多在10台以内,2024-2025年,行业进入试制阶段,部分头部企业开启数十台至数百台的试点交付,2025年以后行业将进入规模量产阶段。

需要说明的是,机器人行业玩家根据业务重心可划分为硬件型与软件型两大发展路径。硬件型企业以机器人本体为核心切入点,聚焦关节模组、电机、减速器、控制器等关键零部件的自主研发,并重点突破运动控制算法。这类似于人类的“小脑”,其产品通常以载重、速度与运动性能作为主要衡量指标,比如波士顿动力、宇树科技等。

软件型企业则更多从具身智能技术出发,以前沿的视觉语言大模型、世界模型、仿真合成数据等大脑能力作为研发起点,通常通过外采零部件进行本体集成,重点强调机器人的认知与决策智能,比如银河通用。而像特斯拉这样具备规模化制造基础的车企,能够凭借深厚的硬件制造基因与来自智能驾驶的软件积累,在机器人领域展现出软硬一体的全栈能力。

在人工智能技术尚未成熟阶段,机器人完全依赖工程师编写的精确轨迹代码执行任务,本质与传统的生产设备并无差异。正如波士顿动力Atlas在2017年展示的后空翻动作,本质上仍是预设程序的精确执行。

之后,机器人学习进入数据驱动阶段,通过观察模仿与反复试错自主学习技能。更进一步以后,智能系统与自主学习深度融合,机器人开始能理解抽象指令,在陌生环境中主动尝试解决方案,逐步向能应对复杂现实的自主智能体进化。由此,全球玩家在算法上各展所长。

海外头部玩家Figure AI在2025年2月宣布终止与OpenAI的合作后,转向自研端到端AI模型,据称其AI大模型Helix已取得重大技术突破。Helix首次将双系统思维引入VLA模型(视觉语言动作模型),系统1专注于实时动作控制,能够以极高响应速度处理视觉信息;系统2拥有强大场景理解和语言解析能力,负责解读复杂指令、识别环境要素,并制定行动规划。双系统架构还在模块化迭代能力方面颇具优势。二者可独立优化,无需重新调整整体模型。

国内玩家智元机器人则于2025年9月宣布全面开源其通用具身基座大模型GO-1,该模型采用了创新的ViLLA架构,是全球首个采用该架构并开源的通用具身智能模型。ViLLA架构的全称为Vision-Language-Latent-Action,能够通过引入隐式动作标记,有效弥合图像、文本输入与机器人最终动作执行之间的语义鸿沟,使机器人能够更准确地理解人类指令并转化为精细动作。

此外还有美国的Physical Intelligence和Skild AI等新玩家,正对世界模型这一前沿领域进行探索,旨在让机器人构建一个内在的物理世界模型,从而能够预测自己行动的结果。

03

挑战依旧颇多

机器人行业已开始构建系统化的技术发展框架。

类比L1至L5的自动驾驶分级体系,智元机器人提出了G1至G5的具身智能技术路线图。据海克财经了解,G1级针对特定场景定制,缺乏跨场景迁移能力;G2级则能洞察多场景任务,结合大语言模型实现有限泛化;G3级转向端到端数据驱动,在架构层面实现范式转换;G4级引入通用操作大模型与仿真数据,显著提升复杂任务表现;而G5级作为长期目标,将实现从感知到执行的完全端到端自主操作。

在机器人技术迈向更高水平的过程中,泛化是极为重要的挑战。

所谓泛化,指机器人能够在不同场景中灵活执行多种任务,无需针对每个新场景重新训练或调整。就目前来看,机器人在特定环境下熟练掌握的技能,难以有效迁移到新场景、新任务或新对象上。它或许可以在实验室环境中精准完成抓取动作,但只要更换一个不同形状的杯子,或改变光照条件,其性能就会显著下降甚至完全失效。

这一挑战的根源在于现实世界的无限复杂性。真实环境是开放且动态变化的,物体的形状、材质、摆放角度,以及光线、背景干扰等因素的组合几乎是无穷尽的。人类无法为所有可能性预先编程,也难以收集覆盖所有边缘情况的训练数据。面对一个反光强烈的桌面、突然出现的宠物,或是形状特异的日常物品,机器人操作的准确性便会大幅度降低。这意味着真正意义上的自主智能还为时尚早。

被很多网友揶揄的北京亦庄机器人马拉松赛事即是一例。2025年4月,该人形机器人马拉松赛事聚集了知名机器人及智能制造生态企业超过300家,参赛机器人需要工程师团队全程跟随,负责更换电池、处理失衡等突发状况。比赛视频显示,有的机器人跑着跑着平地摔倒;有的机器人颤颤巍巍,走不出直线;有的机器人甚至直接把头部摔掉了。

而1X公司Neo机器人的相关视频展示了所谓家用机器人的现有水平。Neo完成从3米外冰箱取水的基本操作耗时超过1分钟,人类完成同样任务仅需十几秒。用户无法通过“请帮我收拾房间”这样的自然指令让机器人理解并执行这套复合任务。1X公司坦诚展示了远程操作员的存在,说明当前机器人尚未突破自主应对开放环境的核心技术瓶颈。

机器人训练数据的获取与使用也是亟待解决的重点问题。

如果采用虚拟仿真环境生成训练数据,机器人就必须面对Sim-to-Real Gap(仿真与现实差距)的问题。虚拟世界中的物理参数、传感器噪声与环境交互难以完全还原真实场景的复杂性,导致在仿真中表现优异的算法迁移至实体机器人时出现明显性能衰减。

如果完全依赖在真实环境中采集数据,则面临高昂的时间成本与硬件损耗,规模化推进存在现实阻力。比如特斯拉,就选择整合自有的Dojo训练中心,让Optimus人形机器人团队放弃传统的动作捕捉技术,转而采用纯视频学习方法,通过让机器人观察人类执行任务的视频录像,自主提炼行为模式并生成操作策略。

尽管机器人技术仍面临诸多挑战,但具身智能作为科技前沿的核心方向,发展浪潮已不可阻挡。在这一新兴赛道,国内企业积极布局并已取得显著进展,展现出快速跟进的态势。

政策层面同样已释放出明确支持信号。2025年3月,国务院发布的政府工作报告中明确提出,国家将以培育壮大新兴产业、未来产业作为重点工作方向。报告首次将具身智能与生物制造、量子科技、6G等并列纳入未来产业培育范畴,具身智能发展由此上升至国家战略层面。北京、杭州等地也都围绕具身智能及机器人产业发布了针对性政策文件,旨在加速技术突破和产业集聚。

就目前来看,机器人演进与智能手机产业的发展路径极为相似。早期各家厂商各自为战,技术处于路线分化的探索阶段,逐步走向关键突破点。正如智能手机的“iPhone时刻”重新定义了移动终端的形态与生态,机器人领域也将在未来迎来属于自己的临界点——当某项技术或产品以超越用户预期的体验出现时,将迅速推动行业标准的统一与生态的成型。

这一突破将不仅仅是技术参数的提升,更是用户体验的根本性变革。在AI领域,这更像横空出世的ChatGPT,将AI从实验室概念转化为生活的日常。量产只是漫长征程的第一步,技术的加速度已露端倪,科幻作品中的智能机器人走进寻常百姓家的那一天,离我们或已不远。

本文来自微信公众号“海克财经”,作者:许俊浩,36氪经授权发布。

发布时间:2025-11-06 13:00