在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。
基于此,北京大学及BeingBeyond团队提出DemoGrasp框架——
一种简单且高效的通用灵巧手抓取学习方法。
该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定“抓取位置”,调整手指关节角度用于确定“抓取方式”。
这一核心创新——将连续决策的多步MDP(马尔可夫决策过程)重构为基于轨迹编辑的“单步MDP”——有效提升了强化学习在抓取任务上的学习效率和迁移到真机的性能。
传统RL的困境:高维动作空间的复杂探索
DemoGrasp 的核心创新在于用 “单条成功演示轨迹” 替代 “从零开始的探索”,将高维抓取任务转化为 “演示编辑任务”,再通过单步 RL 优化编辑参数,最终结合视觉模仿学习实现虚实迁移。
一条抓取特定物体的成功轨迹包含了抓取任务通用的模式(如 “靠近物体→闭合手指→抬起手腕”),只需调整轨迹中的手腕和手指抓取方式,即可适配没见过的新物体。
DemoGrasp只需要对一个物体(比如一个方块)采集一条成功抓取演示轨迹,即可通过物体中心的轨迹编辑做出新物体、新位置的抓取行为:
在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界里都有不同的物体和摆放场景。
学习过程:每一个仿真世界中,策略网络根据初始的观测(末端位姿和物体点云、位姿) 输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程是否“抓取成功”和“发生碰撞”获得奖励。
通过海量试错和在线强化学习,策略学会根据不同形状物体的观测输出合适的编辑参数。
训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡训练24小时即可收敛到>90%的成功率。
仿真中的强化学习策略依赖精确的物体点云和位姿,这在现实中难以获取。DemoGrasp通过视觉模仿学习,将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移。
DexGraspNet是灵巧抓取领域的权威数据集(3.4K 物体)。
DemoGrasp在该数据集上使用Shadow Hand抓取,性能显著优于现有方法:视觉策略成功率达到92%,训练集到测试集的泛化差距仅1%,且适应大范围的物体初始位置随机化(50cm×50cm)、具备更强的空间泛化能力。
跨本体扩展:适配任意灵巧手和机械臂本体
DemoGrasp无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率。
高性能的虚实迁移
在真实机器人测试中,使用Franka机械臂和因时灵巧手,DemoGrasp成功抓取了110个未见过的物体。
在常规大小的物体分类上,DemoGrasp成功率均达到90%以上;
对于扁平物体(手机壳、剪刀等)和小物体(瓶盖、小黄鸭等)的困难抓取任务,策略能够准确地抓取物体、避免碰撞,成功率达到70%。
DemoGrasp框架支持对真实场景更加复杂的抓取任务的扩展能力,支持 在杂乱多物体摆放的场景下实现用语言指令引导抓取,且达到84%的真机单次抓取成功率。对于光照、背景和物体摆放的大幅变化,策略的成功率没有明显下降。
DemoGrasp是融合少量人类演示实现高效机器人强化学习的新起点,将在未来支持功能性抓取、工具使用、双手操作等更多灵巧手任务。
训练时策略的闭环能力是当前方法的一个局限,后续研究将通过更加细粒度的演示轨迹拆分,增加强化学习策略的实时调整、错误恢复能力。
此外,DemoGrasp可以结合多模态大模型,实现开放场景下的自主抓取智能体。
项目主页:https://beingbeyond.github.io/DemoGrasp/
论文:https://arxiv.org/abs/2509.22149
本文来自微信公众号“量子位”,作者:DemoGrasp团队,36氪经授权发布。
发布时间:2025-10-29 17:00