1.梦之小队视频

Meta超级实验室「Meta Superintelligence Labs,MSL」发了新论文!如果你不断让大语言模型回答「把它改进一下」,会发生什么?上周,MSL的三位成员上传了一篇ArXiv论文,探索了如何利用强化学习(RL)高效地微调大语言模型。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图

2.梦之小队是什么动画片

传送门:https://www.arxiv.org/abs/2509.04575在推理时,LLM这次实现了迭代自我改进自我改进决策过程 GRPO训练具备迭代自我改进能力的模型,代价不菲最直接的做法是训练模型执行。

3.梦之队2019精编串烧1一12节

K步自我改进,但这会让每个训练回合的轨迹步数(rollout步数)膨胀为原来的K倍他们提出了一种新的方法——探索迭代(Exploratory Iteration,ExIt)这是一个基于RL的自动课程学习方法。

4.梦之队xyg

通过「回收利用」大语言模型先前回合中生成的回答,新方法把这些回答作为新的起点,用于自我改进(self-improvement)或自我发散(self-divergence),从而逐步扩展和多样化训练分布

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图1

5.梦之队2020精编

探索迭代(ExIt)策略概览DeepSeek的强化学习微调方法GRPO,性能强大,而且与之前的PPO方法相比减少了资源需求与PPO不同,GRPO不使用学习到的价值函数来计算基线项,而是使用一组G条蒙特卡洛轨迹,估计每个初始提示m的基线。

6.梦之队出场

在此过程中,「可学习性分数」在训练过程中自然产生。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图2

7.梦之队集锦

在决定下一个训练任务时,ExIt的课程机制会优先抽取那些在GRPO表现出更高回报方差的部分历史。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图3

8.梦之队2019精编1

通过这种自举任务空间的自动课程,模型学会多步自我改进,但训练仅需单步任务为了抵消强化学习减少输出多样性的倾向,研究者直接纳入了寻求多样性的组件:发散改进(self-divergence)以概率p_div,自我迭代步成为自我发散步。

9.梦之队首发

在这一步中,策略被提示在先前解决方案的基础上进行改进,同时显著偏离它(见下列提示)。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图4

10.来个梦之队

他们发现:发散步能够从模型中诱导出有意义的不同响应,当整合到ExIt策略中时,可以增加任务空间的覆盖范围机器学习工程MLE-Bench比GRPO强22%在单轮(竞赛数学问题)和多轮(BFCLv3多轮任务)场景中,以及MLE-bench中,研究者考察了ExIt的影响。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图5

表1:在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估数学结果是对所有测试分割的平均值所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差,以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)。

在MLE-bench中,大语言模型在搜索框架下运行,以产生针对真实Kaggle竞赛的解决方案在这些评估设置中,与GRPO相比,ExIt产生的模型在推理时具有更强的自我改进能力值得注意:在测试时,ExIt可进行。

超过训练典型深度的自我迭代;在MLE-bench上,对GRPO的相对提升约22%(58.6vs48.0)尽管在MLE-bench上,这次研究者使用简单的贪心搜索框架评估了ExIt,但这里的核心思想也可以应用于其他搜索框架。

实际上,其中许多都是while循环,在给定合适上下文的情况下,指示LLM对先前的解决方案进行自我改进。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图6

作者进一步分析了不同方法在训练过程中所采样到的任务实例的多样性。下图展示了各方法采样到的训练任务实例数量,相对于GRPO使用的基础训练集的比例。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图7

实验结果表明:1. 仅使用课程学习的基线方法会显著减少训练中遇到的不同任务实例数量这说明优先级采样会导致同一训练实例被大量重复,从而压缩了任务多样性2. 这种任务多样性的降低,可能正是该基线方法表现逊色于ExIt变体的原因。

而在ExIt中,自我迭代步骤有效地恢复了相当一部分丢失的多样性3. 对于完整的ExIt方法,我们观察到在课程机制下提升的多样性,与其在测试集上性能的提升相对应此外,在GRPO的基础分布中,所有MLE-bench任务。

起始点相同(同一个空Python模板);但ExIt下起始代码多样性大幅增加上图的右侧的UMAP降维结果进一步凸显了ExIt变体与基础任务集之间的差异:在嵌入空间中,基础任务集几乎只是单一的一个点,而ExIt所产生的任务实例分布则显著更为分散。

直接追求新颖性的ExIt变体,能够在发现的任务实例中实现更高的平均余弦距离与L2距离其中,完整的ExIt方法达到了最大化的平均两两距离,这说明它在任务空间探索中最具多样性作者简介第一作者,Minqi Jiang今年1月加入Meta,担任高级研究科学家,构建超级智能体。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图8

从泛化(generalization)、人机协同(human-AI coordination)与开放式学习(open-ended learning)三个视角,他研究「既有用、又符合人类价值」的智能体他在谷歌的DeepMind人研究科学家期间,在

Autonomous Assistants(自主助理)团队开始了这项研究。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图9

他与Meta的渊源则更深在2023年9月–2023年12月,他担任了Meta的访问研究员(Visiting Researcher),之后加入谷歌,直到今年1月再次入职Meta更早之前,他有多段创业和工作经历。

小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%(插图10

2008年-2012年,他就读于普林斯顿大学(Princeton University),获得了计算机科学、应用数学、创意写作学士学位2019年–2023年,他在伦敦大学学院(UCL)攻读计算机科学人工智能方向博士学位。

2023年1月–2023年6月,他还是牛津大学(University of Oxford)的访问研究员。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。