只演示一次,机器人就会干活了?北大&BeingBeyond联合团队用“分层小脑+仿真分身”让G1零样本上岗

近日,来自北京大学与BeingBeyond的研究团队提出DemoHLM框架,为人形机器人移动操作(loco-manipulation)领域提供一种新思路——仅需1次仿真环境中的人类演示,即可自动生成海量训练数据,实现真实人形机器人在多任务场景下的泛化操作,有效解决了传统方法依赖硬编码、真实数据成本高、跨场景泛化差的核心痛点。

核心挑战:人形机器人移动操作的“三重困境”

移动操作是人形机器人融入人类环境的核心能力(如搬箱子、开门、递物等),但长期受限于三大难题:

  • 数据效率低:传统方法需采集大量真实机器人遥操作数据,成本极高且难以规模化;
  • 任务泛化差:依赖任务特定的硬编码设计(如预定义子任务、专属奖励函数),换任务需重新开发;
  • Sim-to-Real迁移难:基于仿真训练的策略常因物理引擎差异、传感器噪声,无法在真实机器人上稳定运行。

现有方案要么局限于仿真场景,要么需消耗数百小时真实遥操作数据,难以满足家庭、工业等复杂场景的实用需求。

DemoHLM:分层架构与数据生成革新,破解三重困境

DemoHLM的核心创新在于“分层控制+单演示数据生成”双引擎,既保证了全身运动的稳定性,又实现了极低数据成本下的泛化学习。

分层控制架构:兼顾灵活性与稳定性

DemoHLM采用“低层全身控制器+高层操作策略”的分层设计,解耦“运动控制”与“任务决策”:

  • 低层全身控制器(RL训练):负责将高层指令(如躯干速度、上半身关节目标)转化为关节力矩,同时保证机器人全方位移动性与平衡能力。基于AMO框架优化,运行频率50Hz,可稳定处理高接触场景(如抓取、推物时的力交互);
  • 高层操作策略(模仿学习):通过视觉闭环反馈(RGBD相机感知物体6D位姿),向低层发送任务导向的指令,实现复杂操作决策。支持ACT、Diffusion Policy等多种行为克隆(BC)算法,运行频率10Hz,侧重长时域规划。

此外,团队为机器人设计了2DoF主动颈部+RGBD相机(Intel RealSense D435),通过比例控制器实现“视觉追踪稳定”,模仿人类操作时的视线调节能力,避免物体遮挡导致的感知失效。

单演示数据生成:从“1次演示”到“千条轨迹”

DemoHLM最关键的突破是无需真实数据,仅用1次仿真遥操作演示即可生成海量多样化训练数据,核心流程分三步:

  • 演示采集:通过Apple Vision Pro捕捉人类动作,映射到仿真中的Unitree G1机器人,记录1条成功操作轨迹(含关节位姿、末端执行器位姿、物体位姿);
  • 轨迹转换与分段:将演示轨迹拆解为“移动(Locomotion)、预操作(Pre-manipulation)、操作(Manipulation)”三阶段,并且通过坐标系转换实现泛化——

预操作阶段:采用“物体中心坐标系”,确保机器人在不同物体初始位姿下,末端执行器能精准对齐目标;

操作阶段:切换为“本体感知坐标系”,解决抓取/搬运时末端与物体相对静止的轨迹生成难题;

  • 批量合成:在仿真中随机初始化机器人与物体位姿,自动调整各阶段指令并replay,生成数百至数千条成功轨迹,形成训练数据集。

这一过程完全自动化,规避了传统模仿学习“数据采集地狱”,同时通过随机化初始条件,天然提升了策略的泛化能力。

实验验证:从仿真到真实的稳定表现

团队在仿真环境(IsaacGym)真实Unitree G1机器人上,针对10项移动操作任务(如搬箱子、开门、倒水、递物等)开展全面验证,核心结果如下:

仿真:数据量与性能正相关,算法兼容性强

  • 数据效率显著:随着合成数据量从100条增至5000条,所有任务成功率均大幅提升——例如“PushCube”成功率从52.4%升至89.3%,“OpenCabinet”从18.9%升至67.3%,且边际收益逐渐收敛,证明数据生成 pipeline 的高效性;
  • 算法适配灵活:在ACT、MLP、Diffusion Policy三种BC算法上均表现优异,其中ACT与Diffusion Policy性能接近(如“LiftBox”成功率均超96%),而简单MLP因缺乏时序建模能力性能稍弱,验证了框架对不同学习算法的兼容性。

Real-World:Sim-to-Real迁移稳定,多任务落地

在改装后的Unitree G1(加装3D打印夹爪、2DoF颈部和单目RGBD相机)上,DemoHLM实现零样本迁移,10项任务中:

  • 全成功率任务:LiftBox(搬箱子)、PressCube(按立方体)均实现5/5成功,操作流程与仿真高度一致;
  • 高稳定任务:PushCube(推方块)4/5成功、Handover(递物)4/5成功,仅因地面摩擦差异导致个别失败;
  • 复杂任务突破:GraspCube(抓方块)、OpenCabinet(开门)等需精准力控制的任务,成功率超60%,在同类仿真训练方法中位于前列。

关键原因在于:高层策略通过视觉闭环实时调整指令,抵消了仿真与真实的物理差异(如关节跟踪误差),确保操作行为的一致性。

行业价值与未来方向

DemoHLM的突破为人形机器人实用化提供了关键技术支撑:

  • 降低落地成本:单演示+仿真数据生成,将训练成本从“数百小时真实遥操作”降至“小时级仿真演示”,大幅降低行业应用门槛;
  • 提升泛化能力:无需任务特定设计,1套框架适配多场景(家庭搬运、工业辅助、服务交互),加速机器人从“实验室”到“真实环境”的落地;
  • 推动技术融合:分层架构可兼容触觉传感器、多相机感知等升级,为未来更复杂场景(如遮挡环境、柔性物体操作)打下基础。

团队也指出当前局限:依赖仿真数据可能存在长期的Sim-to-Real偏差,单RGB-D相机在复杂遮挡场景性能受限,且暂不支持未建模物体的操作。未来将探索“仿真+真实数据混合训练”“多模态感知融合”等方向,进一步提升鲁棒性。

总结

DemoHLM以“单仿真演示驱动泛化移动操作”为核心,通过分层控制架构与高效数据生成 pipeline,破解了人形机器人训练成本高、泛化差、迁移难的三大痛点。

其在Unitree G1上的真实落地验证,证明了该框架的实用价值,为下一代人形机器人在家庭、工业、服务场景的规模化应用提供了重要技术路径。

论文连接:

https://arxiv.org/pdf/2510.11258

项目主页:

https://beingbeyond.github.io/DemoHLM/

本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。

发布时间:2025-11-14 11:17