1.首个为具身智慧的人

人工智能正在经历从 “感知” 到 “行动” 的跨越式发展,融合大模型的具身智能被认为是人工智能的下一发展阶段,成为学术界与工业界共同关注的话题在大模型领域,随着 o1/R1 系列推理模型的发布,模型训练的重心逐渐从数据驱动的预训练 / 后训练转向奖励驱动的强化学习(Reinforcement Learning, RL)。

OpenAI 预测强化学习所需要的算力甚至将超过预训练与此同时,能够将大规模算力高效利用的 RL infra 的重要性也日益凸显,近期也涌现出一批优秀的框架,极大地促进了该领域的发展

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源(插图

图1 : OpenAI 在红杉资本闭门会上的分享然而,当前框架对具身智能的支持仍然受限相比推理大模型这一类纯大脑模型,具身智能领域存在大脑(侧重推理、长程规划,如RoboBrain)、小脑(侧重执行、短程操作,如OpenVLA)及大小脑联合(快慢系统,如pi 0.5)等多样模型。

其次,具身智能除了包含Agentic AI的多步决策属性外,他还有一个独特属性:渲训推一体化与工具调用智能体、浏览器智能体所交互的仿真器相比,具身仿真器通常需要高效并行物理仿真和3D图形渲染等,因此当前主流仿真器通常采用GPU加速,耦合多步决策带来了算力和显存竞争的新挑战。

总的来说,具身智能领域不仅继承了推理大模型和数字智能体的难点,同时还引入了新的渲训推一体化特征,再加上具身智能模型尚未收敛,对框架的灵活性、高效性和易用性提出挑战。

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源(插图1

图 2:推理大模型与具身智能体对比图在这样的背景下,清华大学、北京中关村学院和无问芯穹联合推出了一个面向具身智能的灵活的、可扩展的大规模强化学习框架 RLinf。

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源(插图2

代码链接:https://github.com/RLinf/RLinfHugging Face链接:https://huggingface.co/RLinf使用文档链接:https://rlinf.readthedocs.io/en/latest/

RLinf 的 “inf” 不仅代表着 RL “infrastructure”,也代表着 “infinite” scaling,体现了该框架极度灵活的系统设计思想RLinf 的系统可以抽象为用户层(统一编程接口)、任务层(多后端集成方案)、执行层(灵活执行模式)、调度层(自动化调度)、通信层(自适应通信)和硬件层(异构硬件)6 大层级。

相比其他框架的分离式执行模式,RLinf 提出的混合式执行模式,在具身智能训练场景下实现了超 120% 的系统提速,VLA 模型涨幅 40%-60%同时,RLinf 高度灵活、可扩展的设计使其可快速应用于其他任务,所训练的 1.5B 和 7B 数学推理大模型在 AIME24、AIME25 和 GPQA-diamond 数据集上取得 SOTA。

首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源(插图3

图 3:RLinf 系统及亮点介绍设计 1:采用基于 Worker 的统一编程接口,利用微执行流实现宏工作流,实现一套代码驱动多种执行模式当前已有强化学习框架通常采用两种执行模式:共享式(所有卡跑同一个组件) 和

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。