我们都知道 LLM 中存在结构化稀疏性,但其底层机制一直缺乏统一的理论解释为什么模型越深,稀疏性越明显?为什么会出现所谓的「检索头」和「检索层」?我们非常荣幸地宣布,我们试图回答这些问题的论文 UNCOMP 已被 EMNLP 2025 主会接收!我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解 LLM 内部的信息动态。

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!(插图

论文标题:UNComp: Can Matrix Entropy Uncover Sparsity? — A Compressor Design from an Uncertainty-Aware Perspective

论文地址:https://arxiv.org/abs/2410.03090GitHub:https://github.com/menik1126/UNComp

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!(插图1跨层压缩隐藏状态同时加速TTFT和压缩KV cache!(插图2

核心洞察:一个关于熵的悖论与新解传统的矩阵熵 (Matrix Entropy)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。