清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能-源码库

这个框架通过一个巧妙的翻译系统，让机器人能直接从普通VR设备记录的人类数据中学习并执行复杂的任务，甚至在从未见过相关机器人演示的情况下，零样本学会了全新的人类动作人类数据是机器人最好的老师机器人模仿学习已经走了很远，但它始终面临一个核心困境：数据。

3.机器人人机交互系统

训练一个能干的机器人，需要海量的、高质量的真实机器人演示数据收集这些数据是一个极其昂贵且耗时耗力的过程，它像一堵无形的墙，限制了机器人操作能力的飞跃想象一下，为了教会机器人拧瓶盖，你需要一遍遍地控制机械臂，从不同角度、用不同力度去完成这个动作，并记录下每一个细节。

4.人机协作机器人系统

现在，把这个过程乘以成百上千个不同的任务，成本之高可想而知为了绕过这堵墙，研究者们开始寻找新出路互联网上的海量图片和文本，成了机器人理解世界的重要知识库通过学习这些数据，机器人学会了识别物体（比如苹果和香蕉的区别），理解指令（比如把苹果递给我）。

5.人机交互与协同计算专业怎么样

这解决了看和听的问题但机器人操作的核心，是动运动知识，也就是如何精确地控制自己的身体去与世界交互，这种知识在互联网上是稀缺的图片和语言无法告诉你，拿起一个鸡蛋需要多大的力，擦桌子需要怎样的轨迹这时，人类数据展现出独特的价值。

6.人机交互中国大学排名

人类是天生的操作大师，我们的日常行为中蕴含着无穷无尽、复杂多样的运动智慧如果能把这些智慧移植给机器人，无疑将极大加速它们的学习进程过去的一些尝试，像是给机器人戴上了有色眼镜它们通过分析人类演示，提取一些中间层的、抽象的表示，比如物体的可供性（一个杯子是可以被握住的）或者关键点的运动轨迹。

7.机器人协同系统

这些方法确实有帮助，但这个中间表示的过程，就像是在人类和机器人之间增加了一个翻译官这个翻译官虽然能传达大概意思，却也过滤掉了许多精妙的细节，并且使得整个学习流程变得复杂，难以和当前主流的、更直接的端到端学习框架兼容。

8.人机协作智能机器人

技术的进步，尤其是VR（虚拟现实）等可穿戴设备的普及，为我们打开了一扇新的大门现在，我们可以非常方便地捕捉到人类精细的手部姿态数据于是，新的思路诞生了：能不能跳过翻译官，让机器人直接学习人类的母语——运动本身？。

9.机器人人机交互技术

一些研究开始尝试将人类运动数据和机器人数据放在一起进行联合训练这些探索证明，人类数据确实能帮助机器人提高视觉定位能力、增强对环境变化的鲁棒性，并提升训练效率但一个最核心、最激动人心的问题始终悬而未决：机器人能否仅仅通过学习人类的演示，就直接掌握一项它从未做过的新动作？。

10.人机交互哪个大学好

这正是MotionTrans要回答的问题它不满足于间接的辅助，它的目标是实现直接的、运动级别的技能转移核心在翻译：把人类数据变成机器人语言MotionTrans的逻辑是：要想让机器人看懂人类数据，首先要把人类数据翻译成机器人能理解的格式。

一旦翻译完成，人类的演示就变成了机器人的补充教材，可以和机器人自己的数据无缝衔接，共同训练一个统一的策略模型这个策略模型因为在机器人的语言环境下学习，所以训练完成后，可以直接部署到真实的机器人上，去执行那些它从未执行过的任务。

这就是从人到机器人的直接运动转移

清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能插图1

整个过程可以拆解为几个关键步骤首先是数据采集为了实现人机协同训练，我们需要两套数据：人类的，和机器人的收集人类数据变得前所未有的简单研究人员使用一台便携的商用VR设备，比如Meta Quest 3，任何人、任何时间、任何地点，都可以成为数据的贡献者。

这套系统不仅记录了VR头显中佩戴者的手部关键点、手腕姿态，还通过一个固定在头显上的RGB摄像头，同步录制了第一人称视角的图像为了保证数据质量，系统在VR视图中提供了实时反馈一个框会提示你的手是否在摄像头的拍摄范围内，另一个指示器则会告诉你VR设备捕捉到的手部姿态是否与你的真实手部精确对齐。

你甚至可以用一个简单的手势，随时终止并放弃不满意的录制这种高效、低成本的数据收集方式，为获取大规模、多样化的人类操作行为数据铺平了道路收集机器人数据则采用更传统的遥操作方式操作员戴上VR设备，他们的手部和手腕动作被实时捕捉，并同步驱动一台机器人去复现这些动作。

通过这两个系统，团队构建了一个名为MotionTrans的数据集。

清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能插图2

这个数据集包含了3,213个演示，涵盖了15个人类任务和15个机器人任务重要的是，这两组任务集是完全不重叠的比如，人类数据里有拔掉充电器、擦毛巾等动作，而机器人数据里则有把面包放到平台上、把胶带放到盒子里等。

数据集中的任务覆盖了拾取、放置、倾倒、擦拭、推动、按压、打开等一系列丰富的技能有了原始数据，接下来就是最关键的翻译环节从VR设备采集的人类数据，其坐标系、动作格式都与机器人数据截然不同为了让它们能在同一个模型里训练，必须进行格式塔转换。

转换的核心是统一观察-动作空间这个空间由三部分构成：图像观察、本体感受状态（你可以理解为机器人的身体知觉，比如关节角度、末端位置）和动作指令对于图像观察，人类和机器人都采用第一人称视角这样，当执行相似任务时，看到的物体空间关系也相似，使得完成任务的动作得以对齐。

对于手腕姿态，统一使用相机坐标系无论是人手还是机械臂，其位置都是相对于拍摄图像的那个相机来定义的，确保了空间定义的一致性最棘手的是手部关节状态的转换人手有20多个自由度，而机器人灵巧手的设计各不相同这里，研究人员使用了一个名为dex-retargeting的开源库。

它像一个聪明的翻译，通过一个基于优化的逆运动学求解器，能够将捕捉到的人类手部关键点位置，实时地、高精度地映射成机器人灵巧手的关节角度经过这番转换，人类的演示数据就变得和机器人数据格式完全一样了你可以直接在真实机器人上重放这些转换后的人类轨迹，就像播放一段为它量身定做的录像。

在重放过程中，研究人员发现了两个关键差异第一，人类的动作速度远快于机器人过快的速度对机器人来说可能是危险且不稳定的解决方法很简单：插值通过在姿态和关节状态之间插入更多的中间帧，将人类数据的速度减慢了2.25倍。

第二，人手和机械臂的舒适工作区存在差异即使在同一个相机坐标系下，人手习惯活动的位置分布，也和机械臂的最优工作范围不完全重合为了弥合这个差距，团队采取了两个策略不使用绝对位置作为动作指令，而是使用基于动作块的相对姿态。

举个例子，即使人手和机械臂的起始位置不同，但如果它们都向前移动10厘米，这个相对动作指令是完全相同的这大大降低了对绝对位置的依赖鼓励数据采集者在录制时多变换视角，这增加了相机与目标物体的相对位置关系的多样性，迫使模型学会适应更广阔的工作空间。

最后一步，是如何将这些处理好的人类和机器人数据喂给模型MotionTrans探索了两种当前非常流行的端到端策略架构：Diffusion Policy (DP) 和视觉语言动作模型 π0-VLADP模型像一个高斯噪声的画家，通过一步步去噪来生成未来的动作序列。

而π0-VLA则更强大，它集成了大规模预训练的视觉语言模型，不仅能看懂图像，还能理解人类的自然语言指令训练中一个至关重要的细节是统一动作归一化在机器学习中，对输入数据进行归一化（比如Z-score归一化）是常规操作，可以提升训练稳定性。

以往的人机协同训练，通常对人类数据和机器人数据采用各自独立的归一化标准MotionTrans坚持采用统一的归一化标准，跨越人类和机器人所有数据，确保了度量衡的统一考虑到人类和机器人数据集的大小可能不平衡，训练时还采用了一种加权策略。

通过一个权重系数α，来平衡两部分数据在总损失函数中的贡献，确保模型对两边的知识雨露均沾，不会因为某一方数据量过大而产生偏见通过这一整套精心设计的数据采集、转换和训练流程，Motion-Trans为实现直接的、运动级别的技能转移奠定了坚实的基础。

机器人零样本学会了人类的动作实验结果验证了MotionTrans的有效性在零样本（Zero-shot）设定下，模型仅使用MotionTrans数据集进行训练，然后直接部署到真实机器人上，去完成那13个它从未见过机器人演示的人类任务。

结果令人振奋。在13个任务中，有9个任务实现了有意义的成功率。

清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能插图3

比如在把橙子放入桶中（Orange-Bucket）这个任务里，无论是橙子这个物体，还是桶这个目标容器，都从未在机器人训练数据中出现过但模型依然能够成功地拿起橙子，并将其放入桶中这证明了模型不仅仅是学会了简单的拾取和放置，而是实现了任务级别的泛化。

清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能插图4

其他成功的任务还涵盖了倾倒、拔出、提升、打开和关闭等多种动作即使在一些成功率不高的任务中，比如拔掉充电器，模型在失败的尝试中也始终表现出正确的运动趋势这就引出了第二个发现：即使任务失败，机器人也学会了有意义的运动。

为了更精细地评估这一点，研究人员引入了一个运动进展分数（Motion Progress Score）这个分数不只看结果，更关注过程比如，一个机器人虽然没能成功拿起杯子，但它准确地伸出手臂到达了杯子旁边，那么它的得分就应该比一个一动不动的机器人要高。

实验结果显示，在所有13个任务上，模型的平均运动进展分数都达到了0.5左右（满分1.0）这意味着，对于所有任务，机器人至少都学会了完成任务的部分子流程比如，在擦毛巾（Wipe Towel）任务中，机器人学会了向前推动毛巾；在按压订书机（Press Stapler）任务中，虽然机器人数据里没有订书机，但它依然表现出了接近订书机的行为。

这证明，通过学习人类数据，机器人获得了识别新物体并与之交互的意图少量样本即可引爆性能零样本转移已经足够惊艳，但MotionTrans的价值不止于此在少样本（Few-shot）微调的场景下，它的优势被进一步放大。

所谓少样本微调，就是假设我们可以为那些人类任务，收集极少量的（比如5个或20个）机器人演示数据，然后在预训练好的模型基础上进行微调实验结果清晰地显示，使用MotionTrans完整数据集预训练过的模型，相比于从零开始训练的模型，在微调后的平均成功率上提升了约40%。

无论是在5个样本还是20个样本的设定下，这个巨大的优势都稳定存在。这说明，人机协同预训练为下游任务的微调提供了极其宝贵的运动先验知识。

清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能插图5

为了探究这个优势的来源，研究人员还对比了只用机器人数据预训练和只用人类数据预训练的效果结果发现，人机协同预训练（MotionTrans）的效果最好其次是只用机器人数据预训练，效果最差的是只用人类数据预训练。

这个排序很有启发性在预训练阶段，机器人数据提供了与最终部署时完全一致的身体信息，即便任务不同；而人类数据则提供了与最终任务完全一致的任务信息，但身体不同实验结果表明，在预训练中，保持身体（embodiment）的一致性，比保持任务的精确匹配更重要。

因为不同机器人任务之间的运动模式也存在共通性，这些共通性可以有效地迁移到新的任务上运动转移的秘密：插值与泛化MotionTrans是如何实现这种神奇的运动转移的？研究人员通过一个精巧的案例研究，揭示了其背后的机制。

他们选择了一个在零样本实验中成功率很高的任务把面包放入桶中（Bread-Bucket）作为研究对象他们关注一个具体的动作维度：物体放置的高度在训练数据中，有三个与面包相关的任务：1.

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能

目录：

1.人机交互清华大学

2.人机交互学校排名

3.机器人人机交互系统

4.人机协作机器人系统

5.人机交互与协同计算专业怎么样

6.人机交互中国大学排名

7.机器人协同系统

8.人机协作智能机器人

9.机器人人机交互技术

10.人机交互哪个大学好

1.人机交互清华大学

2.人机交互学校排名

3.机器人人机交互系统

4.人机协作机器人系统

5.人机交互与协同计算专业怎么样

6.人机交互中国大学排名

7.机器人协同系统

8.人机协作智能机器人

9.机器人人机交互技术

10.人机交互哪个大学好

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

清华、北大，上海交大等发布人机协同训练框架，让机器人零样本学会新技能

目录：

1.人机交互 清华大学

2.人机交互学校排名

3.机器人人机交互系统

4.人机协作机器人系统

5.人机交互与协同计算专业怎么样

6.人机交互中国大学排名

7.机器人协同系统

8.人机协作 智能机器人

9.机器人人机交互技术

10.人机交互哪个大学好

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

1.人机交互清华大学

8.人机协作智能机器人

提示：请文明发言取消回复