1.ai机器人清华大学

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等为此,研究团队提出了SimpleVLA-RL基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。

缺数据也能拿SOTA?清华插图

2.清华ai智能机器人

SimpleVLA-RL通过 “交互式轨迹采样 结果奖励 探索增强” 的设计,解决了VLA模型训练的三大核心瓶颈:降低对大规模演示数据的依赖,提升数据效率;增强模型在分布偏移场景下的泛化能力;实现高效的Sim-to-Real迁移,提升真实世界任务性能。

3.清华首个ai机器人

实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了SoTA的性能更为关键的是,即便在有限数据的条件下,SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力在 “单轨迹 SFT”(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7%。

缺数据也能拿SOTA?清华插图1

4.清华人工智能机器人

此外,模型在训练过程中还展现出自主探索能力,并涌现出新的操作策略,例如通过“推动”替代“抓取”的Pushcut现象这些结果表明,SimpleVLA-RL为VLA模型的高效训练与泛化能力提升开辟了新的研究路径。

5.清华ai女机器人

SimpleVLA-RL:端到端在线训练方案VLA模型作为机器人操控领域的重要研究范式,旨在融合视觉感知、语言理解与动作生成,从而在复杂物理环境中实现灵活的任务执行现阶段的主流训练流程通常遵循 “大规模预训练 有监督微调。

6.清华机器人视频

” 的范式然而,该方法在实际应用中面临两大核心瓶颈:数据稀缺性SFT依赖于大规模的高质量机器人操作轨迹,而此类数据的采集过程需要精心构建实验场景、涵盖多样化的交互对象,并依赖专业操作人员完成由此导致采集成本高昂、规模受限,从根本上制约了其可扩展性。

7.清华录取ai机器人

泛化能力不足SFT的学习过程高度依赖于任务与场景特定的数据分布,因而在面对分布外任务(out-of-distribution tasks)、全新环境或未见过的对象时,模型性能会显著下降,尤其在长时序依赖与组合型任务中尤为明显。

8.清华的机器人

与此同时,大规模推理模型(如DeepSeek-R1)的最新进展表明强化学习在仅依赖结果奖励的情况下,也能显著提升模型的逐步推理能力这引出了一个自然的问题:RL能否同样有效地增强 VLA 模型在长时序任务中逐步规划动作的能力?然而将RL直接应用于VLA训练又面临一些独特挑战:。

9.清华机器人实验室

1、传统机器人RL往往依赖人工设计的过程奖励,该方式难以扩展至复杂的开放环境;2、VLA的训练需要与物理或高保真模拟环境进行多轮交互,训练效率低,成本远高于基于文本的LLM推理优化。

缺数据也能拿SOTA?清华插图2

10.清华大学 人工智能机器人实验室

基于上述问题,研究团队出了SimpleVLA-RL,它是在veRL(LLM强化学习框架)上扩展的一套端到端在线训练方案,专门针对VLA模型的特点做了优化整体设计主要包含四部分:首先是交互式轨迹采样与LLM仅依赖文本token采样不同,VLA必须在闭环中不断更新视觉观测和机器人状态。

因此,SimpleVLA-RL让模型直接输出动作token的概率分布,用随机采样生成多样轨迹整个过程中,机器人执行动作后环境返回新状态,再继续生成,直到任务完成其次是结果奖励建模研究人员不再使用复杂的过程奖励(如距离目标远近),而是采取极简的二元结果:。

任务成功记为1,失败记为0,并将这个奖励均匀分摊到整个轨迹的动作token上这样一来,不仅避免了过程奖励在不同任务间的不可迁移性,也省去了针对任务调参的麻烦,更好地聚焦了训练目标第三是探索增强VLA模型很容易因为训练数据过于单一而收敛到狭窄解法,从而导致rollout的轨迹高度同质化进而影响GRPO的优势估计。

为了解决这个问题,SimpleVLA-RL在三个地方做了调整:动态采样,只保留“部分成功、部分失败”的轨迹组,确保优势估计有效,避免梯度消失;扩大GRPO的裁剪区间,从[0.8, 1.2]放宽到[0.8, 1.28],让低概率但可能有价值的动作更容易被保留;

rollout阶段提高采样温度,从1.0提升到1.6,以此鼓励更多样化的探索最后是训练目标基于上述的一系列改进,团队进一步对GRPO做了简化:移除了KL散度正则项,不再依赖参考模型,从而减少内存消耗,也让新行为的探索不受束缚。

缺数据也能拿SOTA?清华插图3

研究团队的主要贡献可以总结为如下几点:构建VLA专属高效RL框架:基于veRL扩展,加入VLA交互式轨迹采样、多环境并行渲染及 “训练-推理-渲染” 一体化设计,解决VLA与环境交互慢、成本高的问题,支持规模化训练。

最优性能:团队引入了探索增强策略,使性能稳定提升10–15%在LIBERO与RoboTwin 1.0

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。