1.什么是向量空间嵌入

这几天,一篇关于向量嵌入(Vector Embeddings)局限性的论文在 AlphaXiv 上爆火,热度飙升到了近 9000。

DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?(插图

2.嵌入式向量

要理解这篇论文的重要性,我们先简单回顾一下什么是向量嵌入向量嵌入就像把文字、图片或声音这些复杂的东西,转化成一个多维空间里的「坐标点」比如,把「苹果」这个词变成一串几百维的数字,这些数字捕捉了它的语义(它可以指水果,也可以指公司)。

3.单词嵌入向量

在这个空间里,相似的概念彼此靠近,不相似的则远离借助这种机制,计算机能够快速搜索或比较海量数据,而无需逐字逐句地比对

DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?(插图1

4.基于向量的插图

图源:veaviate多年以来,嵌入主要用于「检索」任务,例如搜索引擎中的相似文档查找,或推荐系统中的个性化推荐随着大模型技术的发展,嵌入的应用开始拓展到推理、指令遵循、编程等更复杂的任务这些新兴需求,推动着嵌入技术朝着能处理任何查询、任何相关性定义的方向演进。

5.simd向量化

然而,先前的研究已经指出了向量嵌入的理论局限性它的本质,是把一个高维度、复杂的概念(比如「爱」,可能包含亲情、爱情、友情、奉献、占有等无数面向)强行压缩成一串固定长度的向量这个过程不可避免地丢失信息,就像三维苹果被拍成二维照片 —— 无论照片多清晰,你都无法从中还原出它的重量、气味等属性。

6.向量模型图

过去几年,业界普遍认为这种理论困难可以通过更好的训练数据和更大的模型来克服这就是过去几年以 OpenAI 为代表的公司所遵循的「大力出奇迹」(Scaling Laws)的哲学从 GPT-2 到 GPT-4,再到 GPT-5,模型参数量和数据量指数级增长,能力也确实发生了质的飞跃。

7.向量模型在中学数学中的应用

这让很多人相信,这条路能一直走下去然而,当前 AI 圈的一个热点争论就是:我们是不是快要撞上「Scaling Laws」的天花板了?DeepMind 的最新研究为这个争论提供了新的证据他们将几何代数与通信复杂度理论结合,证明了向量嵌入的能力存在一个数学下界:对于任意给定的嵌入维度 d,当文档数量超过某个临界点时,总会存在一些相关文档组合是无论如何都无法通过查询同时召回的。

8.词向量嵌入

这意味着,嵌入模型存在一个不可逾越的限制,无法单纯依靠「更大的模型」来突破。

DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?(插图2

论文标题:On the Theoretical Limitations of Embedding-Based RetrievalarXiv 地址:https://arxiv.org/pdf/2508.21038

这一理论瓶颈在现实中最直接的体现,就是检索增强生成(RAG)RAG 的工作机制是:先用向量嵌入从知识库中检索相关信息,再交给大模型生成答案但 DeepMind 的证明表明,当知识库规模足够大、一个问题需要多份文档共同回答时,即使采用最先进的嵌入模型,也可能因为维度不足而无法完整召回关键信息。

这会导致大模型在生成时受到错误或不完整上下文的干扰

DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?(插图3

为了证明这一理论限制对任何模型或训练数据都成立,研究者采用了一种「最佳情况」设定,即向量本身是使用测试数据直接进行优化的实验发现,对于每个嵌入维度 d 都存在一个临界点,一旦文档数量超过该点,嵌入维度就不足以编码所有的组合。

他们还证明了这种临界关系可以通过一个多项式函数进行经验性建模更进一步,研究者基于这些理论局限性构建了一个名为 LIMIT 的简单数据集尽管任务很简单(例如,「谁喜欢苹果?」),但即便是 MTEB 基准上最先进的嵌入模型也很难解决这个问题,而对于嵌入维度较小的模型来说则是不可能的。

论文一作、约翰霍普金斯大学博士生 Orion Weller 表示,在当前的信息检索领域,大家希望嵌入模型能够同时承担指令理解和推理等一切能力遗憾的是,单向量嵌入模型在理论和实证上都做不到,它们存在根本性限制。

通过开源的简单评测任务,他们证实了即便是

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。