陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o-源码库

然后使用人类偏好奖励模型（论文中用的是Skywork-v2），对生成的回答在流畅性、相关性、逻辑性、创意等维度给出分数在优化算法方面，RLMT使用在线强化学习算法来更新模型参数，主要实验了DPO、PPO、GRPO，结果表明GRPO效果最好。

但即使使用DPO/PPO，RLMT也始终优于RLHF

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o插图7

训练数据来自于真实用户对话，避免像RLVR那样过度偏向数学/代码训练方式有两种：Warm-start（带SFT预热）：先使用少量SFT数据教会模型CoT格式，再用RLMT优化；Zero（无SFT直接训练）：在基础模型上直接加入固定前缀提示，让它学会“思考回答”结构，通过RLMT强化最终也能超过instruct模型表现。

最终通过RLMT，模型在推理风格上更像人类思考：它自然学会了分组、约束分析、跨部分联系、迭代修正等，从而带来更高质量的对话和写作效果。

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o插图8

研究团队主要测试了Llama3.1-8B和Qwen2.5-7B两个模型的表现效果。结果显示小模型经过RLMT训练可超越大模型，大幅简化后训练成本。

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o插图9

陈丹琦团队出品本项研究一共三位作者：陈丹琦、Adithya Bhaskar、叶曦陈丹琦，普林斯顿大学计算机副教授，普林斯顿NLP小组负责人最近加盟了Thinking Machines Lab她本科就读于清华大学“姚班”，2018年在斯坦福大学获得计算机科学博士学位，导师为Christopher Manning。

曾获得诺奖风向标之称的斯隆奖她的研究方向主要是自然语言理解、知识表示与推理、问答系统、信息抽取、对话代理等。

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o插图10

研究一作为Adithya Bhaskar和叶曦。Adithya Bhaskar现在是普林斯顿大学博三学生，师从陈丹琦。

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o插图11

叶曦是普林斯顿语言与智能研究所博士后。本科毕业于清华大学，在奥斯汀大学获得博士学位。主要研究方向是NLP，重点在提高大语言模型的可解释性和推理能力。

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o插图12

论文地址：https://arxiv.org/abs/2509.20357

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

目录：

1.陈丹琦视频

2.陈丹丹百科

3.陈丹丹个人资料简介

4.陈丹丹专场图片

5.陈丹妮模特

6.陈丹蕾事件百度百科

7.陈丹陈丹

8.陈丹琦论文

9.陈丹琦博士论文

10.陈丹琦父母

1.陈丹琦视频

2.陈丹丹百科

3.陈丹丹个人资料简介

4.陈丹丹专场图片

5.陈丹妮模特

6.陈丹蕾事件百度百科

7.陈丹陈丹

8.陈丹琦论文

9.陈丹琦博士论文

10.陈丹琦父母

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

目录：

1.陈丹琦视频

2.陈丹丹百科

3.陈丹丹个人资料简介

4.陈丹丹专场图片

5.陈丹妮模特

6.陈丹蕾事件百度百科

7.陈丹陈丹

8.陈丹琦论文

9.陈丹琦博士论文

10.陈丹琦父母

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复