单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体

在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。

基于此,北京大学及BeingBeyond团队提出DemoGrasp框架——

一种简单且高效的通用灵巧手抓取学习方法。

该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定“抓取位置”,调整手指关节角度用于确定“抓取方式”。

这一核心创新——将连续决策的多步MDP(马尔可夫决策过程)重构为基于轨迹编辑的“单步MDP”——有效提升了强化学习在抓取任务上的学习效率和迁移到真机的性能。

核心设计:单条演示 + 单步 RL

从“多步探索”到“全局编辑”

传统RL的困境:高维动作空间的复杂探索

  • 动作空间:每一步都需要输出高自由度机器人所有关节的指令。
  • 奖励设计:需要设计极其复杂的密集奖励函数,引导机器人避开碰撞、接触物体、成功抓取、平滑运动等。
  • 课程学习:需要设计复杂的多阶段学习流程,帮助RL探索

DemoGrasp 的核心创新在于用 “单条成功演示轨迹” 替代 “从零开始的探索”,将高维抓取任务转化为 “演示编辑任务”,再通过单步 RL 优化编辑参数,最终结合视觉模仿学习实现虚实迁移。

单条演示和轨迹编辑

一条抓取特定物体的成功轨迹包含了抓取任务通用的模式(如 “靠近物体→闭合手指→抬起手腕”),只需调整轨迹中的手腕和手指抓取方式,即可适配没见过的新物体。

DemoGrasp只需要对一个物体(比如一个方块)采集一条成功抓取演示轨迹,即可通过物体中心的轨迹编辑做出新物体、新位置的抓取行为:

  • 手腕位姿编辑:在物体坐标系下,对原始轨迹中的每一个手腕位点施加一个统一的变换 T∈SE(3) ,通过灵活地调整手腕抓取方向和位置,适应不同大小、形状、合适抓取点的物体。
  • 手指关节编辑:对手指的抓取关节角施加一个增量 Δq_G,通过与演示轨迹的等比例插值,产生一条灵巧手从初始张开姿态平滑到达新的抓取姿态的动作轨迹。

单步强化学习

在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界里都有不同的物体和摆放场景。

学习过程:每一个仿真世界中,策略网络根据初始的观测(末端位姿和物体点云、位姿) 输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程是否“抓取成功”和“发生碰撞”获得奖励。

通过海量试错和在线强化学习,策略学会根据不同形状物体的观测输出合适的编辑参数。

训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡训练24小时即可收敛到>90%的成功率。

视觉蒸馏,虚实迁移

仿真中的强化学习策略依赖精确的物体点云和位姿,这在现实中难以获取。DemoGrasp通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。

  • 数据收集:在仿真中运行强化学习策略,记录下上万条成功轨迹:包括渲染的相机RGB图像、每一时刻的机器人本体感知和关节角动作。
  • 模型训练:采用流匹配(Flow-Matching)生成模型的方法,学习从图像观测和机器人本体感知预测动作。为缩小仿真到真机的视觉图像差异,训练还使用了预训练的ViT提取图像特征,并在仿真数据收集时充分地进行域随机化(随机化光照、背景、物体颜色纹理、相机参数等)。
  • 多模态适配:DemoGrasp适配单目/双目、RGB/深度相机等多种相机观测。实验表明,双目RGB相机组合的效果最佳,能够更好地减少遮挡、利用纹理和轮廓等信息成功抓取小而薄的物体。

实验结果:仿真和真机双优,全面提升灵巧抓取的泛化性和扩展性

DexGraspNet是灵巧抓取领域的权威数据集(3.4K 物体)。

DemoGrasp在该数据集上使用Shadow Hand抓取,性能显著优于现有方法:视觉策略成功率达到92%,训练集到测试集的泛化差距仅1%,且适应大范围的物体初始位置随机化(50cm×50cm)、具备更强的空间泛化能力。

跨本体扩展:适配任意灵巧手和机械臂本体

DemoGrasp无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率。

高性能的虚实迁移

在真实机器人测试中,使用Franka机械臂和因时灵巧手,DemoGrasp成功抓取了110个未见过的物体。

在常规大小的物体分类上,DemoGrasp成功率均达到90%以上;

对于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)的困难抓取任务,策略能够准确地抓取物体、避免碰撞,成功率达到70%。

DemoGrasp框架支持对真实场景更加复杂的抓取任务的扩展能力,支持 在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到84%的真机单次抓取成功率。对于光照、背景和物体摆放的大幅变化,策略的成功率没有明显下降。

DemoGrasp是融合少量人类演示实现高效机器人强化学习的新起点,将在未来支持功能性抓取、工具使用、双手操作等更多灵巧手任务。

训练时策略的闭环能力是当前方法的一个局限,后续研究将通过更加细粒度的演示轨迹拆分,增加强化学习策略的实时调整、错误恢复能力。

此外,DemoGrasp可以结合多模态大模型,实现开放场景下的自主抓取智能体。

项目主页:https://beingbeyond.github.io/DemoGrasp/

论文:https://arxiv.org/abs/2509.22149

本文来自微信公众号“量子位”,作者:DemoGrasp团队,36氪经授权发布。

发布时间:2025-10-29 17:00