1.比特数公式

无需重新训练,模型压缩实现2比特媲美FP16。近日,北京大学团队提出一个直接基于已有预训练模型进行极低比特量化的通用框架——Fairy2i。

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行(插图

2.bit复数

该框架通过广泛线性表示将实数模型无损转换为复数形式,再结合相位感知量化与递归残差量化,实现了在仅2比特的情况下,性能接近全精度模型的突破性进展下面是更多详细内容研究核心:复用真值权重与递归残差量化众所周知,大模型在推理时,通常因其庞大的参数存储和计算需求,难以在手机、汽车等边缘设备上高效部署。

传统的量化方法在将模型压缩到极低比特(如1-2比特)时,常面临性能严重下降的问题,尤其是在直接复用预训练模型的情况下,难以在压缩和精度之间找到平衡Fairy2i针对性地解决了这一痛点,具体表现在:1、广义线性表示:低成本无损继承,打通实数与复数桥梁。

在“架构”上,Fairy2i通过解决实数模型如何“变身”复数模型的问题,极大地降低了训练所需的成本不同于iFairy等需要花费高昂算力从头预训练(Pre-training from scratch)的方式,Fairy2i选择了一条更高效的“继承”之路。

团队证明了一个数学等价性:任何偶数维的实数线性层,都可以无损地重参数化为等价的 “广义线性复数形式”(Widely-Linear Complex Form)这意味着,完全可以直接加载LLaMA等模型的预训练权重,将其转换为复数形式,而无需改变原有的参数规模。

这种策略不仅完美避开了从零构建复数模型所需的庞大算力消耗,且在量化前保持模型的推理结果完全不变,为后续的超低比特量化提供了完美的起点。

2比特复数模型媲美全精度!北大通用框架让大模型在手机上也能流畅运行(插图1

2、相位感知量化:沿用{±1, ±i}高效编码在“量化”上,Fairy2i继承了iFairy的核心优势它利用单位圆上的四个四次单位根{ 1, -1, i, -i}作为码本,相比于实数域的二值( 1, -1)或三值( 1, 0, -1)量化,复数域的这四个点充分利用了2-bit的编码空间,具有更高的信息密度和更好的对称性。

3、递归残差量化:极低代价消除误差为了进一步逼近全精度性能,团队提出了递归残差量化(Recursive Residual Quantization)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。