1.无需强化的在一定时期容易形成的反应

强化学习能力强大,几乎已经成为推理模型训练流程中的标配,也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为现在,问题来了:要让大模型学会推理,强化学习是必需的吗?近日,哈佛大学一篇论文探索了能否不使用任何额外训练,通过纯粹的采样让基础模型表现出推理能力。

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本(插图

2.化学强化

他们的探索成功了,提出了一种利用基础模型自身似然度的简单迭代采样算法。

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本(插图1

3.强化和不强化的区别

论文标题:Reasoning with Sampling: Your Base Model is Smarter Than You Think论文地址:https://www.arxiv.org/pdf/2510.14901

4.不使用强化券强化装备怎么做

项目网站:https://aakaran.github.io/reasoning_with_sampling/代码地址:https://github.com/aakaran/reasoning-with-sampling

5.7.化学强化的基本原理是什么?

他们还证明,在不同的基础模型上,该算法都能大幅提升推理能力。

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本(插图2

6.不需要化学变化就表现出来的性质

也就是说:直接从基础模型进行采样,可以实现与强化学习相媲美的单次推理能力!更重要的是,该算法无需训练、无需数据集、无需验证器,从而可避免了强化学习方法的一些固有弱点,包括为避免训练不稳定而进行的大量超参数搜索、整理多样化且庞大的后训练数据集的需求,以及无法保证获取真实验证器 / 奖励信号的问题。

7.不使用任何强化物品

不得不说,这个结果着实让人惊讶基础概念:分布锐化这个哈佛团队的核心设计基于分布锐化(distribution sharpening)概念具体来说,针对一个参考分布(reference distribution),锐化是指对该分布进行重新加权,使得高似然度区域的权重被进一步提升,而低似然度区域的权重被降低,从而使采样大幅偏向于参考分布下的高似然度样本。

8.强化学说

基于此,如果经过 RL 后训练的模型实际上只是基础模型的某个锐化版本,就应该能够明确指定一个目标采样分布来实现相同的效果。也就是说,只要找到这个目标采样分布就能让模型具备推理能力!

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本(插图3

9.化学强化的基本原理

使用幂分布进行推理该团队发现,对于分布 p,一种自然的锐化方法是从幂分布 (power distribution) p^α 中采样。由于

不用强化学习也能推理,哈佛新采样算法竟能让基础模型比肩GRPO后训练版本(插图4

10.强化和无强化的区别

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。