推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作-源码库

它的思路简单：让小模型（SLM）先预测一段输出，大模型（LLM）校验一致性若一致，大模型就能够一次接受小模型的输出，减少大模型解码的次数，从而加速莫纳什、北航、浙江大学等机构的研究者提出了一种动态拼接的大模型推理框架R-Stitch，让大小模型智能协作，在vLLM推理框架下提速最高可达4倍。

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作插图

4.莫纳什datascience

项目主页：https://caesarhhh.github.io/R-Stitch论文链接：https://arxiv.org/abs/2507.17307研究团队在AMC数据集上，对投机解码测试了多组模型组合，包括DeepSeek-R1-Distill-Qwen-1.5B/7B、L1-1.5B-Short、以及 Qwen2.5-Math-1.5B/7B-Oat-Zero等。

5.莫申江浙江大学

结果显示出一致的趋势：token 一致性越高，加速越明显；一致性越低，速度提升就越有限并且，并非所有样本都能加速团队观察到相当一部分输入的速度提升低于 1×，即比原始推理还慢——说明当模型间差异较大时，投机解码的一致性校验可能反而带来开销。

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作插图1

6.莫纳什大学理学院

图1 Token一致性与推理加速分析 (a) 不同大模型–小模型组合在AMC数据集上的token一致率与加速比关系；(b) 各样本的加速比分布，可见部分样本出现低于1×的情况；(c) 在两者都答对的问题上，L1-1.5B-Short的推理更短、更简洁。

7.浙江大学莫群

更有意思的是，在DeepSeek-R1-Distill-Qwen -7B与L1-1.5B-Short的实验中，研究人员发现：当两者都答对时，L1-Short的推理长度远小于该7B模型这意味着：小模型可能以更短的推理路径到达相同结论，而投机解码对token一致性的强调，则忽略了这些更高效的路径。

8.莫纳什校友

经验熵分析不确定性揭示推理风险

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作插图2

9.莫纳什大学jonathan benney

图2 熵与错误位置的关系 (a) 错误解答的整体熵明显高于正确解答；(b) 熵分布高度集中在0附近，大多数token具有极低或接近零的熵；(c) 首个导致错误的 token 附近区域平均熵更高，说明模型往往在不确定区域产生错误。

10.莫纳什大学知乎

在让大小模型协同推理之前，需要弄清楚一个关键问题：小模型在什么时候能被信任？又是什么迹象预示它可能要「翻车」？为此，团队在AMC数据集上，对推理过程中的token熵分布进行了深入分析，使用DeepSeek-R1-Distill-Qwen-7B作为大模型，L1-1.5B-Short作为小模型，逐步揭示出三个稳定的规律。

首先，大多数token的熵极低统计结果显示，只有约10%的token熵超过 0.1，而绝大部分几乎为零这意味着模型在大部分生成过程中都非常「自信」，真正的不确定区域其实只占很小一部分其次，错误推理的平均熵显著更高。

在同样的题目上，错误答案的 token 熵明显更高，说明模型在这些题目的推理中更不确定并且，团队观察到一个关键细节：在小模型出错的样本中，错误往往起源于局部的高熵区域在第一个导致错误的 token 附近 token的平均熵显著高于全局水平，因此上述现象可以说明高熵的地方更容易导致错误。

大小模型协同动态解码

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作插图3

图3 R-Stitch方法流程图熵引导的动态切换基于上述实验观察，团队提出了一种能根据熵动态切换大小模型的解码框架R-Stitch，让推理既快又稳核心思路是：让小模型 (SLM)

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作

目录：

1.莫纳什大学教授

2.莫纳什大学回应

3.莫纳什选课

4.莫纳什datascience

5.莫申江浙江大学

6.莫纳什大学理学院

7.浙江大学莫群

8.莫纳什校友

9.莫纳什大学jonathan benney

10.莫纳什大学知乎

1.莫纳什大学教授

2.莫纳什大学回应

3.莫纳什选课

4.莫纳什datascience

5.莫申江浙江大学

6.莫纳什大学理学院

7.浙江大学莫群

8.莫纳什校友

9.莫纳什大学jonathan benney

10.莫纳什大学知乎

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作

目录：

1.莫纳什大学教授

2.莫纳什大学回应

3.莫纳什选课

4.莫纳什datascience

5.莫申江 浙江大学

6.莫纳什大学理学院

7.浙江大学莫群

8.莫纳什校友

9.莫纳什大学jonathan benney

10.莫纳什大学知乎

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

5.莫申江浙江大学

提示：请文明发言取消回复