VLM 实现 10%的精度提高，13.1倍加速！纽约大学新算法让视觉语言模型更小、更快、更准确-源码库

视觉语言模型是人工智能领域的一项杰出成就，它赋予了AI像人一样同时理解图像和文字的能力无论是让AI看图说话，进行生动的图像描述，还是回答关于一张图片内容的复杂问题，这些都离不开VLM的核心支持它就像是连接视觉世界和语言世界的桥梁，在医疗诊断、在线教育、互动娱乐等众多领域展现出巨大的应用潜力。

3.lsp 纽约大学

然而，这种强大的能力背后，是巨大的计算代价VLM需要吞噬海量的数据，处理高维度的视觉与文本信息，这导致其模型体积庞大，内存占用极高，计算过程缓慢尤其是在模型进行推理，也就是生成答案或描述时，一个名为键值缓存（KV Cache）的机制会急剧消耗内存带宽，成为拖慢整体速度的主要瓶颈。

4.纽约大学dmdl

这种高昂的硬件成本，极大地限制了VLM在普通设备，特别是手机、笔记本电脑等资源受限环境中的部署和应用为了让这项技术真正走进千家万户，科学家们必须为这头巨兽瘦身减负，在不牺牲其智慧的前提下，让它变得更轻、更快。

5.纽约大学ui

奇思妙想：将Q、K、V三个矩阵捆绑处理过去，研究者们尝试了各种方法来压缩模型，比如分组查询注意力或多查询注意力，思路主要是减少计算中的某些环节最近，DeepSeek-v3模型提出的多头潜在注意力（MLA）提供了一个新颖的视角，它通过将KV缓存压缩成更小的潜在向量，显著提升了推理效率。

6.纽约大学ms是什么

受到MLA的启发，纽约大学的研究者们提出了一个更大胆的想法在VLM的核心组件多头注意力（Multi-Head Attention）模块中，输入的信息会通过三个独立的权重矩阵，分别变换成查询（Query, Q）、键（Key, K）和值（Value, V）。

7.纽约大学vlog

这三个元素是注意力机制的关键，决定了模型在处理信息时应该关注什么传统的优化方法，通常是独立地去压缩处理Q、K、V各自的权重矩阵这就像是三个独立的优化任务，分别对三个部件进行改造而QSVD的核心创新在于，它不再将这三者分开看待。

8.纽约大学mcc排名

研究团队将原本独立的三个大小为E×E的权重矩阵WQ、WK、WV，在逻辑上拼接成一个更宽的、大小为E×3E的联合矩阵Wconcat然后，他们对这个拼接后的超级矩阵进行一次统一的奇异值分解（Singular Value Decomposition, SVD）。

VLM 实现 10%的精度提高，13.1倍加速！纽约大学新算法让视觉语言模型更小、更快、更准确插图1

9.百度纽约大学

SVD是一种经典的矩阵分解技术，可以理解为一种精密的数据压缩手术它能将一个复杂的矩阵，分解为几个更简单、更小的矩阵相乘的形式，并自动找出原矩阵中最重要的特征信息，用一个对角矩阵中的奇异值来表示其重要性，数值越大的奇异值越重要。

10.纽约大学mph

通过保留那些最重要的奇异值，就可以用几个小得多的矩阵来近似模拟原来的大矩阵，从而实现压缩。QSVD的这一步操作，带来了立竿见影的好处。

VLM 实现 10%的精度提高，13.1倍加速！纽约大学新算法让视觉语言模型更小、更快、更准确插图2

在原始模型中（a, d），输入数据X需要分别和WQ、WK、WV做三次矩阵乘法，计算成本高同时，生成的KV缓存直接存储完整的K和V向量，内存占用大如果像之前的方法那样，分别对WQ、WK、WV做SVD（图b, e），虽然也能压缩权重，但在计算时，输入X还是要分别和两个不同的下投影矩阵相乘，生成两个中间结果Ck和Cv并缓存起来。

而QSVD的方法（图c, f）则优雅得多输入X只需要和那个共享的下投影矩阵相乘一次，就能得到一个统一的中间结果结果在权重参数量、计算开销（浮点运算次数FLOPs）和最关键的KV缓存大小这三个方面，都实现了显著的降低。

为每个奇异值打出重要性得分联合SVD提供了一把锋利的手术刀，但如何下刀，切除多少，才能既切除冗余，又不伤及模型的智慧，这是一个核心挑战这个度的把握，就是如何为模型中所有注意力层的联合矩阵，确定一个最优的截断秩（rank）。

简单粗暴地为所有层设置一个统一的秩，或者沿用过去基于费雪信息（Fisher Information）的分配方法，效果并不理想QSVD为此设计了一套更精细、更高效的秩分配策略其核心思想是，直接量化每一个奇异值对模型最终准确率的贡献度。

我们知道，一个矩阵的SVD分解可以看作是多个单秩分量的加和，每个分量由一个奇异值和其对应的左右奇异向量构成截断一个奇异值，就等于从原矩阵中移除了它所代表的那部分信息这个移除操作，必然会引起模型最终输出的变化，从而导致训练损失（Training Loss）的增加。

QSVD的目标，就是找到那些移除后对损失函数影响最小的奇异值，将它们截断首先对模型所有注意力层的QKV权重进行联合SVD分解，得到所有的奇异值接着使用一小部分校准数据集（例如从ScienceQA中抽取256个样本），计算出每一个奇异值对应的重要性评分。

然后QSVD执行一个关键的全局排序它不再局限于单个注意力层，而是将模型中所有层的、所有奇异值放在一起，根据它们的重要性评分进行一个总排名最后设定一个总的秩预算k，只保留全局排名前k的那些最重要的奇异值，无论它们来自哪一层。

其余的奇异值全部被截断（设为0）这种全局最优的分配策略，确保了有限的秩资源被用在了刀刃上，保留了对模型性能最关键的组件，从而在最大化压缩率的同时，将精度损失降到最低极致压缩：为低秩模型引入可控的量化方案。

经过联合SVD和智慧秩分配，VLM已经变得苗条了许多但QSVD的目标是极致的效率，于是它引入了量化（Quantization）量化，就是将模型中用高精度浮点数（如FP16）表示的权重和激活值，转换为低精度的整数（如INT8甚至INT4）来存储和计算。

这能大幅减少内存占用和计算延迟，因为整数运算比浮点运算快得多然而，量化也是一把双刃剑这个过程必然会带来精度损失，就像把3.14159近似成3一样特别是当数据分布中存在一些极端的大数值，即异常值（Outliers）时，量化误差会急剧放大，严重损害模型性能。

研究者们分析了LLaVA-v1.5 13B模型的内部数据，发现无论是在注意力模块还是前馈网络中，输入激活值X都存在非常严重的通道级异常值直接对这样的数据进行量化，后果不堪设想为了解决这个问题，学术界已经有了一些成熟的方法，比如通过引入一个正交矩阵H进行旋转，来平滑异常值的分布，同时保持模型的数学计算等价性。

但QSVD面对的情况更复杂，因为它的注意力架构已经被SVD改造过了研究者们为此开发了一种与低秩SVD框架深度融合的量化方法最终，QSVD的量化方案，通过引入两个正交矩阵H1和H2，以及一个可学习的参数β，成功地驯服了低秩VLM中的异常值，实现了从输入、权重到中间结果的全链路低精度计算。

这使得模型在享受SVD带来的结构性优化的同时，还能获得量化带来的存储和计算双重红利，从而达到极致的硬件效率更低的成本，更高的精度研究团队在LLaVA-v1.5、LLaVA-Next和SmolVLM等多个主流视觉语言模型上，对QSVD进行了全面的评估。

为了公平对比，他们将QSVD与当前顶尖的SVD方法（如ASVD, SVD-LLM）和量化方法（如QuaRot,

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

VLM 实现 10%的精度提高，13.1倍加速！纽约大学新算法让视觉语言模型更小、更快、更准确

目录：

1.纽约大学im

2.纽约大学im是什么专业

3.lsp 纽约大学

4.纽约大学dmdl

5.纽约大学ui

6.纽约大学ms是什么

7.纽约大学vlog

8.纽约大学mcc排名

9.百度纽约大学

10.纽约大学mph

1.纽约大学im

2.纽约大学im是什么专业

3.lsp 纽约大学

4.纽约大学dmdl

5.纽约大学ui

6.纽约大学ms是什么

7.纽约大学vlog

8.纽约大学mcc排名

9.百度纽约大学

10.纽约大学mph

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

VLM 实现 10%的精度提高，13.1倍加速！纽约大学新算法让视觉语言模型更小、更快、更准确

目录：

1.纽约大学im

2.纽约大学im是什么专业

3.lsp 纽约大学

4.纽约大学dmdl

5.纽约大学ui

6.纽约大学ms是什么

7.纽约大学vlog

8.纽约大学mcc排名

9.百度纽约大学

10.纽约大学mph

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复