1.语言扩散理论

按从左到右的顺序依次生成下一个 token 真的是大模型生成方式的最优解吗?最近,越来越多的研究者对此提出质疑其中,有些研究者已经转向一个新的方向 —— 掩码扩散语言模型(MDLM)和自回归(AR)语言模型不同,MDLM 的训练目标是随机遮蔽序列中的若干位置,模型学习去 in-fill(填充)这些被遮蔽位置。

2.语义扩散模型

这样训练出来的模型存在诸多优势,如支持任意顺序解码、多 token 并行解码等此前有研究表明,MDLM 的这些优势使其在数独等逻辑谜题上的表现得到显著提升然而,最近的一篇论文有了一些意外发现:在数学和编码任务中,任意顺序算法的性能往往不如从左到右采样,或者表现与之相似,而标准的多 token 解码会显著降低性能。

3.讨论语言扩散及其结果

即使仅在两个 token 上进行并行解码,模型在主流基准任务上的性能也会显著下降

扩散语言模型新发现:其计算潜力正在被浪费?(插图

4.扩散算法

使用 MDLM 进行从左到右的采样是一种适用于推理和编码的高效采样算法如果没有 [Arriola et al., 2025] 提出的块大小(block sizes)来强制形成半自回归(AR)的从左到右结构,任意顺序会显著影响性能。

扩散语言模型新发现:其计算潜力正在被浪费?(插图1

5.什么是扩散模型

MDLM 能够并行生成多个固定 token,但这会降低准确性作者使用块任意顺序熵解码,并行解码 1 个、2 个、4 个 token可以看到,除数独外,在所有任务中,即使并行解码两个 token 也会导致性能显著下降。

6.语言扩散名词解释

这一结果引发了一个问题:既然 MDLM 在训练时投入了大量额外计算资源以建模所有被掩码位置的联合分布,那么这些额外的计算是否真的物有所值?

扩散语言模型新发现:其计算潜力正在被浪费?(插图2

7.扩散现象的定义是什么

为了回答这个问题,研究者探究了如何将这些计算资源重新利用为有意义的推理与采样能力他们证明,MDLM 提供了对所有掩码位置的条件分布的访问权限,并具备填充(in-filling)能力,这一特性解锁了传统

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。