看似轻描淡写,实则力透纸背。Physical Intelligence刷屏全网的机器人基础模型π*0.6,一亮相就秀出了实力:

“最强具身VLA大模型”,究竟强在哪儿?(插图

让机器人连续一整天制作意式浓缩咖啡,数小时不间断折叠各类衣物,还能精准组装工厂所需的包装纸箱。在π*0.6的加持下,这些任务的成功率都达到了90%以上。

“最强具身VLA大模型”,究竟强在哪儿?(插图1

然而,仔细阅读论文就会发现,比起连做13个小时咖啡,π*0.6真正的突破在于引入了一种更直觉的学习方法——Recap:指导:用人类示范教它基础动作辅导:纠错指导让它修正错误练习:从自主经验中不断优化、变得更强

这彻底扭转了过去机器人只会逼近 “真值” 的模仿学习模式,让机器人能从自己的错误中成长。就连网友也直呼:从错误中学习,这不比人都强?

“最强具身VLA大模型”,究竟强在哪儿?(插图2

最强VLA模型——π*0.6π*0.6延续了Physical Intelligence此前一贯的VLA(视觉-语言-动作模型)路线,是今年四月份发布π0.5以来最新的VLA模型。

“最强具身VLA大模型”,究竟强在哪儿?(插图3

总的来说,π*0.6的核心贡献在于提出了一种通用训练方法——基于优势条件策略的经验与纠偏强化学习(RL with Experience

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。