1.莫纳什大学教授

近两年,思维链(Chain-of-Thought, CoT)推理让大语言模型在复杂推理任务上展现出前所未有的能力——从数学解题到逻辑分析,表现令人惊叹然而,这种强大的推理能力也带来了一个长期存在的挑战:推理过程过于缓慢。

2.莫纳什大学回应

每生成一个 token,模型都要完整算一遍前向传播长一点的推理链,几千上万个 token,不仅延迟高,成本也成倍增加在加速大语言模型的诸多方向中,Speculative Decoding(投机解码) 一直是备受关注的方案。

3.莫纳什选课

它的思路简单:让小模型(SLM)先预测一段输出,大模型(LLM)校验一致性若一致,大模型就能够一次接受小模型的输出,减少大模型解码的次数,从而加速莫纳什、北航、浙江大学等机构的研究者提出了一种动态拼接的大模型推理框架R-Stitch,让大小模型智能协作,在vLLM推理框架下提速最高可达4倍。

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作(插图

4.莫纳什datascience

项目主页:https://caesarhhh.github.io/R-Stitch论文链接:https://arxiv.org/abs/2507.17307研究团队在AMC数据集上,对投机解码测试了多组模型组合,包括DeepSeek-R1-Distill-Qwen-1.5B/7B、L1-1.5B-Short、以及 Qwen2.5-Math-1.5B/7B-Oat-Zero等。

5.莫申江 浙江大学

结果显示出一致的趋势:token 一致性越高,加速越明显;一致性越低,速度提升就越有限并且,并非所有样本都能加速团队观察到相当一部分输入的速度提升低于 1×,即比原始推理还慢——说明当模型间差异较大时,投机解码的一致性校验可能反而带来开销。

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作(插图1

6.莫纳什大学理学院

图1 Token一致性与推理加速分析 (a) 不同大模型–小模型组合在AMC数据集上的token一致率与加速比关系;(b) 各样本的加速比分布,可见部分样本出现低于1×的情况;(c) 在两者都答对的问题上,L1-1.5B-Short的推理更短、更简洁。

7.浙江大学莫群

更有意思的是,在DeepSeek-R1-Distill-Qwen -7B与L1-1.5B-Short的实验中,研究人员发现:当两者都答对时,L1-Short的推理长度远小于该7B模型这意味着:小模型可能以更短的推理路径到达相同结论,而投机解码对token一致性的强调,则忽略了这些更高效的路径。

8.莫纳什校友

经验熵分析不确定性揭示推理风险

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作(插图2

9.莫纳什大学jonathan benney

图2 熵与错误位置的关系 (a) 错误解答的整体熵明显高于正确解答;(b) 熵分布高度集中在0附近,大多数token具有极低或接近零的熵;(c) 首个导致错误的 token 附近区域平均熵更高,说明模型往往在不确定区域产生错误。

10.莫纳什大学知乎

在让大小模型协同推理之前,需要弄清楚一个关键问题:小模型在什么时候能被信任?又是什么迹象预示它可能要「翻车」?为此,团队在AMC数据集 上,对推理过程中的token熵分布进行了深入分析,使用DeepSeek-R1-Distill-Qwen-7B作为大模型,L1-1.5B-Short作为小模型,逐步揭示出三个稳定的规律。

首先,大多数token的熵极低统计结果显示,只有约10%的token熵超过 0.1,而绝大部分几乎为零这意味着模型在大部分生成过程中都非常「自信」,真正的不确定区域其实只占很小一部分其次,错误推理的平均熵显著更高。

在同样的题目上,错误答案的 token 熵明显更高,说明模型在这些题目的推理中更不确定并且,团队观察到一个关键细节:在小模型出错的样本中,错误往往起源于局部的高熵区域在第一个导致错误的 token 附近 token的平均熵显著高于全局水平,因此上述现象可以说明高熵的地方更容易导致错误。

大小模型协同动态解码

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作(插图3

图3 R-Stitch方法流程图熵引导的动态切换基于上述实验观察,团队提出了一种能根据熵动态切换大小模型的解码框架R-Stitch,让推理既快又稳核心思路是:让小模型 (SLM)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。