1.选择性百科

本文共同第一作者为加州大学伯克利分校的博士生胡越舟与清华大学的本科生郭佳鑫,通讯作者为佐治亚理工学院的副教授赵拓推测解码(Speculative Decoding, SD)通过使用一个较小的草稿模型(draft model)生成候选预测,再由更大的目标模型(target model)进行验证,从而显著加速大语言模型(LLM)的推理过程。

2.选择性的

SD 的加速效果在很大程度上取决于两者之间的对齐程度目前,最先进的对齐方法是使用知识蒸馏(Knowledge Distillation, KD)在所有 token 上最小化 KL 散度然而,最小化全局 KL 散度并不意味着 token 的接受率最大化。

3.选择性原理

由于小模型容量受限,草稿模型往往难以完整吸收目标模型的知识,导致直接使用蒸馏方法的性能提升受限在极限场景下,草稿模型和目标模型的巨大尺寸差异甚至可能导致训练不收敛为了解决这一问题,佐治亚理工、清华大学与加州大学伯克利分校的研究团队提出

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。