目录:
1.语言扩散理论
2.语义扩散模型
3.讨论语言扩散及其结果
4.语言扩散名词解释
5.扩散理论模型
6.语言扩散的主体
7.扩散理论的基础是
8.扩散理论在相关专业问题中的应用
9.扩散模式有哪些
10.扩散算法
1.语言扩散理论
本研究由北京大学研究团队完成通讯作者为李萌,北京大学人工智能研究院和集成电路学院助理教授,博导,PKU SEC Lab 负责人,他的研究兴趣集中于高效、安全人工智能加速算法和芯片,旨在通过算法到芯片的跨层次协同设计和优化,为人工智能构建高能效、高可靠、高安全的算力基础。
2.语义扩散模型
第一作者韦临烨,北京大学集成电路学院博士一年级在读,主要研究方向为多模态高效 AI 系统和加速器设计基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力,最近吸引了广泛的关注。
3.讨论语言扩散及其结果
例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持,挑战了传统自回归 LLMs 的统治地位然而,双向注意力引入的 cache 刷新机制使这一推理过程成为预填充 / 解码交错的模式,将传统自回归模型解码阶段效率的访存瓶颈限制转化为计算 / 访存瓶颈交替限制,占据了推理开销中不可忽视的一部分。
4.语言扩散名词解释
此外,认为整个序列 KV 状态在分块内不变的缓存近似方式还一定程度上劣化了模型性能针对这一缺陷,来自北大的研究团队提出一种新的 dLLM 推理加速框架 ODB-dLLM(Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models)。
5.扩散理论模型
它通过分析现有 dLLM 推理框架中交错的计算和访存瓶颈阶段,引入了自适应长度预测策略和跳跃共享推测解码,以优化 dLLM 在硬件平台上的计算访存特性,最大限度地提高推理效率论文标题:Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models
6.语言扩散的主体
论文链接:https://arxiv.org/abs/2511.21759Github 链接:https://github.com/PKU-SEC-Lab/ODB-dLLM研究背景和动机传统 dLLM 模型中任意两个 token 间的双向注意力破坏了 KV cache 应用的前提,让整个推理过程陷入每一步都执行预填充的计算瓶颈问题,没有取得超越自回归模型的实际推理速度。
7.扩散理论的基础是
Fast-dLLM 及类似工作将预设定长度的输出序列划分为多个分块,只在每个分块解码的第一步执行预填充并存储全局的的 KV 状态,随后计算分块内的 tokens 并基于置信度阈值接收当一个分块内的所有位置都被解掩码,转到下一个分块并刷新 KV cache。
8.扩散理论在相关专业问题中的应用
然而,这样的推理框架仍然存在以下挑战:交错的计算和访存瓶颈模式都限制了效率分块半自回归解码的每个新块都会触发全局预填充以刷新 KV


评论(0)