将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了(插图

图源:https://x.com/rohanpaul_ai/status/1966820906916815156键值缓存(KV cache)已经成为大模型快速运行的核心技术,它就像一个「记忆库」,能够保存之前计算过的结果并重复使用,这样就不用每次都重新计算同样的内容。

但是,这个记忆库有个问题:输入的文本越长,需要的存储空间就越大,而且模型处理长文本时会变得非常慢为了应对这些挑战,现有的 KV cache 压缩方法主要依赖基于规则的启发式方法当前的方法可以归类为三种范式:。

跨所有层的固定位置信息保留基于注意力权重的均匀层级分配淘汰机制具有预定义深度衰减的金字塔策略虽然这些方法在降低内存占用方面有效,但它们未能考虑两个关键问题:transformer 层在信息处理中的不同功能角色

缓存与任务性能之间的动态关系仅依赖基于规则的 KV cache 预算分层分配,可能导致任务相关信息无法被最优地保留针对这些限制,来自中国科学院大学、中国科学院自动化研究所的 Bohan Yu 和苏黎世联邦理工学院的 Yekun Chai 受到(Chai 等,2022)的启发,采用进化算法直接基于任务性能搜索最优的 KV cache 分配。

将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了(插图1

论文标题:EvolKV: Evolutionary

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。