1.北大团队披露新成果

在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战基于此,北京大学及BeingBeyond团队提出DemoGrasp

2.北大cio

框架——一种简单且高效的通用灵巧手抓取学习方法。

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体(插图

3.北大教授团

该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定“抓取位置”,调整手指关节角度用于确定“抓取方式”这一核心创新——将连续决策的多步MDP(马尔可夫决策过程)重构为基于轨迹编辑的“单步MDP”——有效提升了强化学习在抓取任务上的学习效率和迁移到真机的性能。

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体(插图1

4.北大科研团队

核心设计:单条演示 单步 RL从“多步探索”到“全局编辑”传统RL的困境:高维动作空间的复杂探索动作空间:每一步都需要输出高自由度机器人所有关节的指令奖励设计:需要设计极其复杂的密集奖励函数,引导机器人避开碰撞、接触物体、成功抓取、平滑运动等。

5.北大oj

课程学习:需要设计复杂的多阶段学习流程,帮助RL探索DemoGrasp 的核心创新在于用 “单条成功演示轨迹” 替代 “从零开始的探索”,将高维抓取任务转化为 “演示编辑任务”,再通过单步 RL 优化编辑参数,最终结合视觉模仿学习实现虚实迁移。

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体(插图2

6.北大wg

单条演示和轨迹编辑一条抓取特定物体的成功轨迹包含了抓取任务通用的模式(如 “靠近物体→闭合手指→抬起手腕”),只需调整轨迹中的手腕和手指抓取方式,即可适配没见过的新物体DemoGrasp只需要对一个物体(比如一个方块)采集一条成功抓取演示轨迹,即可通过物体中心的轨迹编辑做出新物体、新位置的抓取行为:。

7.北大dv

手腕位姿编辑:在物体坐标系下,对原始轨迹中的每一个手腕位点施加一个统一的变换 T∈SE(3) ,通过灵活地调整手腕抓取方向和位置,适应不同大小、形状、合适抓取点的物体手指关节编辑:对手指的抓取关节角施加一个增量 Δq_G,通过与演示轨迹的等比例插值,产生一条灵巧手从初始张开姿态平滑到达新的抓取姿态的动作轨迹。

8.北大ra

单步强化学习在仿真环境中,DemoGrasp利用IsaacGym创建了数千个并行世界,每个世界里都有不同的物体和摆放场景学习过程:每一个仿真世界中,策略网络根据初始的观测(末端位姿和物体点云、位姿) 输出一组手腕和手指编辑参数,执行编辑后的轨迹,根据执行过程是否“抓取成功”和“发生碰撞”获得奖励。

9.北大vi

通过海量试错和在线强化学习,策略学会根据不同形状物体的观测输出合适的编辑参数训练效率:在这个紧凑动作空间的单步MDP问题上,DemoGrasp使用单张RTX 4090显卡训练24小时即可收敛到

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。