小扎「梦之队」首批论文上线！LLM自举进化，单步性能狂飙22%-源码库

通过这种自举任务空间的自动课程，模型学会多步自我改进，但训练仅需单步任务为了抵消强化学习减少输出多样性的倾向，研究者直接纳入了寻求多样性的组件：发散改进（self-divergence）以概率p_div，自我迭代步成为自我发散步。

9.梦之队首发

在这一步中，策略被提示在先前解决方案的基础上进行改进，同时显著偏离它（见下列提示）。

10.来个梦之队

他们发现：发散步能够从模型中诱导出有意义的不同响应，当整合到ExIt策略中时，可以增加任务空间的覆盖范围机器学习工程MLE-Bench比GRPO强22%在单轮（竞赛数学问题）和多轮（BFCLv3多轮任务）场景中，以及MLE-bench中，研究者考察了ExIt的影响。

表1：在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估数学结果是对所有测试分割的平均值所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差，以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)。

在MLE-bench中，大语言模型在搜索框架下运行，以产生针对真实Kaggle竞赛的解决方案在这些评估设置中，与GRPO相比，ExIt产生的模型在推理时具有更强的自我改进能力值得注意：在测试时，ExIt可进行。

超过训练典型深度的自我迭代；在MLE-bench上，对GRPO的相对提升约22%（58.6vs48.0）尽管在MLE-bench上，这次研究者使用简单的贪心搜索框架评估了ExIt，但这里的核心思想也可以应用于其他搜索框架。

实际上，其中许多都是while循环，在给定合适上下文的情况下，指示LLM对先前的解决方案进行自我改进。

作者进一步分析了不同方法在训练过程中所采样到的任务实例的多样性。下图展示了各方法采样到的训练任务实例数量，相对于GRPO使用的基础训练集的比例。

实验结果表明：1. 仅使用课程学习的基线方法会显著减少训练中遇到的不同任务实例数量这说明优先级采样会导致同一训练实例被大量重复，从而压缩了任务多样性2. 这种任务多样性的降低，可能正是该基线方法表现逊色于ExIt变体的原因。

而在ExIt中，自我迭代步骤有效地恢复了相当一部分丢失的多样性3. 对于完整的ExIt方法，我们观察到在课程机制下提升的多样性，与其在测试集上性能的提升相对应此外，在GRPO的基础分布中，所有MLE-bench任务。

起始点相同（同一个空Python模板）；但ExIt下起始代码多样性大幅增加上图的右侧的UMAP降维结果进一步凸显了ExIt变体与基础任务集之间的差异：在嵌入空间中，基础任务集几乎只是单一的一个点，而ExIt所产生的任务实例分布则显著更为分散。

直接追求新颖性的ExIt变体，能够在发现的任务实例中实现更高的平均余弦距离与L2距离其中，完整的ExIt方法达到了最大化的平均两两距离，这说明它在任务空间探索中最具多样性作者简介第一作者，Minqi Jiang今年1月加入Meta，担任高级研究科学家，构建超级智能体。

从泛化（generalization）、人机协同（human-AI coordination）与开放式学习（open-ended learning）三个视角，他研究「既有用、又符合人类价值」的智能体他在谷歌的DeepMind人研究科学家期间，在

Autonomous Assistants（自主助理）团队开始了这项研究。

他与Meta的渊源则更深在2023年9月–2023年12月，他担任了Meta的访问研究员（Visiting Researcher），之后加入谷歌，直到今年1月再次入职Meta更早之前，他有多段创业和工作经历。

2008年-2012年，他就读于普林斯顿大学（Princeton University），获得了计算机科学、应用数学、创意写作学士学位2019年–2023年，他在伦敦大学学院（UCL）攻读计算机科学人工智能方向博士学位。

2023年1月–2023年6月，他还是牛津大学（University of Oxford）的访问研究员。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

小扎「梦之队」首批论文上线！LLM自举进化，单步性能狂飙22%

目录：

1.梦之小队视频

2.梦之小队是什么动画片

3.梦之队2019精编串烧1一12节

4.梦之队xyg

5.梦之队2020精编

6.梦之队出场

7.梦之队集锦

8.梦之队2019精编1

9.梦之队首发

10.来个梦之队

1.梦之小队视频

2.梦之小队是什么动画片

3.梦之队2019精编串烧1一12节

4.梦之队xyg

5.梦之队2020精编

6.梦之队出场

7.梦之队集锦

8.梦之队2019精编1

9.梦之队首发

10.来个梦之队

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

小扎「梦之队」首批论文上线！LLM自举进化，单步性能狂飙22%

目录：

1.梦之小队视频

2.梦之小队是什么动画片

3.梦之队2019精编串烧1一12节

4.梦之队xyg

5.梦之队2020精编

6.梦之队出场

7.梦之队集锦

8.梦之队2019精编1

9.梦之队首发

10.来个梦之队

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复