如今,强化学习(RL)已成为提升大语言模型(LLM)复杂推理与解题能力的关键技术范式,而稳定的训练过程对于成功扩展 RL 至关重要由于语言具有强烈的上下文属性,LLM 的 RL 通常依赖序列级奖励 —— 即根据完整生成序列给一个标量分数。

然而,主流 RL 算法(如 REINFORCE 与 GRPO)普遍采用基于 token 的优化目标这种「奖励在序列级、优化在 token 级」的不匹配引发了对于它们理论健全性与训练稳定性的担忧,因此已经有研究尝试直接使用序列级优化目标。

此外,token 级优化目标在混合专家(MoE)模型的 RL 训练中带来了新的挑战,比如 MoE 的动态专家路由机制可能破坏 token 级重要性采样比的有效性由此引出的关键问题是:在什么条件下,用 token 级目标优化序列级奖励是合理的?有效程度又是怎样的?。

针对这些问题,阿里千问团队提出了一种针对 LLM 的全新 RL 公式化方法核心洞察是:为了优化序列级奖励的期望值,可以使用一个替代(surrogate)token 级目标作为其一阶近似这一近似在以下两种偏差都足够小的条件下才成立:。

训练与推理之间的数值差异用于采样响应的 rollout 策略与需要优化的目标策略之间的偏差这一观点从原理上解释了多种 RL 稳定训练技巧的有效性,比如 1)重要性采样权重天然出现在基于该一阶近似的 token 级替代目标中;2)剪切(Clipping)机制通过限制策略变化幅度来抑制策略陈旧;3)在 MoE 中,路由重放(Routing Replay)方法通过在策略优化过程中固定专家路由,能够同时减少训练–推理差异与策略陈旧,从而提高训练稳定性。

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图

论文标题:Stabilizing Reinforcement Learning with LLMs: Formulation and Practices论文地址:https://www.arxiv.org/pdf/2512.01374

为验证本文理论洞察并探索实现稳定 RL 训练的有效实践,团队使用一个 30B 参数的 MoE 模型进行大量实验,总计耗费数十万 GPU 小时主要结论包括如下:在 on-policy 训练中,带重要性采样校正的基本策略梯度方法能够实现最高的训练稳定性;。

在引入 off-policy 更新以加速收敛时(即将大规模生成的响应批次拆分成多个 mini-batch 进行多次梯度更新),要缓解因策略陈旧而导致的不稳定性,就必须同时使用 Clipping 与 Routing Replay;

在训练稳定后,不同冷启动方式的模型最终性能趋于一致这说明未来研究应更关注 RL 方法本身,而不必过度强调冷启动细节随着 RL 训练的持续,冷启动带来的差异最终会消失大语言模型(LLM)强化学习的公式化方法。

团队将一个由参数 θ 表示的自回归大语言模型(LLM)定义为策略 π_θ。他们使用 𝒳 表示提示集,用 𝒟 表示数据集。在策略 π_θ 下,给定提示 x,模型生成响应 y 的似然可写作

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图1

,其中 |y| 是响应 y 的 token 数由于团队采用的是序列级奖励设置,即对整个响应 y 赋予一个标量奖励 R (x, y),因此专注于序列级优化,而不考虑基于价值函数的设置(比如 PPO),其中每个 token 会从价值模型获得一个标量评分从而引导策略优化。

至于为什么不采用价值函数方法,是因为团队发现:构建通用、可扩展且可靠的价值模型本身就极为困难(甚至几乎不可能)。直接优化期望序列级奖励非常困难团队的公式化方法从真正希望最大化的序列级奖励期望出发:

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图2

其中 π_θ 是目标策略。由于模型生成响应通常并非在训练引擎(如 Megatron、FSDP)中完成,而是在推理引擎(如 SGLang、vLLM)中进行,团队采用重要性采样(IS)来完成等价的变换:

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图3

Token 级目标作为序列级目标的一阶近似关键步骤是引入以下替代的 token 级优化目标:

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图4

其梯度为:

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图5

这一梯度形式实际上就是带 token 级重要性采样权重的基本策略梯度算法(REINFORCE)核心洞察是:公式 (3) 中的 token 级目标可以视为公式 (1) 中序列级目标的一阶近似也就是说,团队用一个更易优化的 token 级替代目标来逼近真正希望最大化的序列级期望奖励。

一阶近似成立的条件为了使上述一阶近似有效,需要满足一个关键条件:目标策略 π_θ 与 rollout 策略 μ_{θ_old} 必须足够接近这一点乍看不太直观,因此为了便于理解,对于给定的提示 x 和任意 token y_t,团队将其重要性采样权重(IS)重写为:。

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图6

MoE 模型的挑战及 Routing Replay 方法对于 MoE 模型而言,使一阶近似成立的条件变得更为复杂具体来说,在生成每个 token 的前向计算中,MoE 模型会通过专家路由机制动态选择并激活少量专家参数。

将专家路由纳入公式 (5) 后,MoE 模型的 token 级 IS 权重可写为:

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图7

由此可以看出,MoE 场景下的强化学习挑战在于:专家路由与训练 — 推理差异、策略陈旧的紧密耦合,从而更容易导致公式 (3) 中基于一阶近似的 token 级替代优化目标失效Routing Replay 使一阶近似重新成立,但可能引入偏差。

由于专家路由会削弱 MoE 模型中一阶近似的有效性,可通过 Routing Replay 方法消除这一影响Routing Replay 的核心思想是在策略优化过程中固定路由到的专家,从而稳定 MoE 模型的 RL 训练,使其在优化行为上更接近稠密模型。

Routing Replay 主要有两种具体实现方式:Vanilla Routing Replay(R2) 与 Rollout Routing Replay(R3)R2 的目标是减轻专家路由对策略陈旧的影响,其方法是在梯度更新阶段,复现训练引擎中 rollout 策略所选择的路由专家:。

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图8

R3 的目标是减轻专家路由对训练 — 推理差异的影响,其实现方式是在训练引擎中统一复现推理引擎中 rollout 策略所选定的路由专家这一做法不仅降低了训练 — 推理差异,也同时缓解了专家路由对策略陈旧的影响:。

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开(插图9

实验结果在实验中,团队对公式 (3) 的 REINFORCE 优化目标进行了两项最小化修改,从而构建了一个极简基线算法,称为

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。