1.陈怡然是谁

在大型语言模型的优化中,业界通常认为计算量与模型性能正相关然而,杜克大学陈怡然教授团队的一项最新研究DPad,却揭示了一个反直觉的现象:对于扩散大语言模型(dLLMs),通过一种「先验丢弃」策略,主动减少其计算量,不仅能带来高达61倍的推理加速,还能意外地增强模型语境学习的能力。

2.陈怡然chen

这一发现源于对dLLM内部一种「中奖彩票」(Lottery Ticket)现象的洞察模型在生成文本时,其庞大的注意力网络中似乎隐藏着一个极度稀疏但高效的「中奖组合」DPad的核心贡献就在于,它无需训练,便能在推理时动态地、近乎零成本地找出这个组合,从而实现速度与精度的双重飞跃。

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」(插图

3.陈怡然老师

论文地址:https://arxiv.org/abs/2508.14148代码地址:https://github.com/Crys-Chen/DPad论文作者团队来自杜克大学CEI中心,由实习生陈欣骅、黄思韬及郭聪博士共同完成,指导教师为李海教授、陈怡然教授,其他作者还包括魏迟越、何银涛、张健一。

4.陈怡然百度百科

独特的注意力机制dLLM的草稿纸团队发现,dLLM的独特之处在于双向注意力,这使得它在生成文本时,会关注所有待生成的后文词元(Suffix Token),并将它们用作规划全文的「草稿纸」「草稿纸」机制使得模型能在Transformer的第n层往后文写入信息,然后在第n 1层读取后文信息,用于辅助前文的解码。

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」(插图1

5.陈怡然是什么电视剧里面的

图1 「草稿纸机制」示意图,左下角为前文往后文写入信息,右上角为前文从后文读取信息反直觉的实验随手一抓,都能中奖?前文提到,dLLM在解码前文时,会将大段的后文词元作为草稿纸团队进一步分析了模型对后文词元的注意力分数,发现模型对后文词元的注意力随着距离快速衰减,但还是会有一些零星「尖峰」。

6.陈怡然教授

说明后文词元有强烈的稀疏性,仅存在少量比较重要的词元这个发现完美契合了深度学习中著名的「彩票假说」(Lottery Ticket Hypothesis)受此启发,团队提出了「扩散彩票假说」(Diffusion Lottery Tickets Hypothesis):在dLLM的后缀token中,存在一个稀疏的「中奖彩票」子集,只要能「抽中」它们,就能在大幅降低计算成本的同时,达到甚至超越完整模型的性能。

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」(插图2

7.歌手陈怡然

图2 当前块对后缀token的注意力分数图可以看到,后文token存在部分尖峰这也是正常词元剪枝(Token Pruning)的逻辑——统计注意力分数,确定不重要的词元,然后将其删除然而,DPad团队并不满足于此,他们进行了一项颠覆性的实验:强行删除那些距离很远、但注意力得分很高的「尖峰」词元。

8.陈怡然的微博

结果出乎意料——模型的准确率几乎毫无损失!不同于自回归模型,dLLM展现出了惊人的「自愈能力」,仿佛后文词元的信息可以自由流动,当一个关键路径被阻断时,注意力会立刻转移到邻近的词元上,形成新的信息通路

免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」(插图3

9.陈怡lyc

图3 「注意力迁移」现象,删除「关键词元」后,模型的注意力尖峰转移到附近词元这个「注意力迁移」现象有力地证明:dLLM的全局规划能力并非依赖于某些特定位置的「明星词元」,而更像是一种分布式的、可替代的冗余系统。

10.陈怡然怎么读

研究人员并没有必要花费大量的计算去确定「关键词元」,直接先验地剪枝,最终保有一套系统就行DPad的核心从「事后剪枝」到「事前筛选」基于上述发现,DPad提出了一套全新的「事前筛选」逻辑不再让模型「全力计算后才发现浪费」,而是在计算开始前就果断地丢弃掉绝大部分冗余部分。

实现该目标的核心是两大策略:1.

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。