1.多模态信息检索

统一多模态嵌入模型是众多任务的技术基石当前主流方法通常采用批内负例挖掘策略,通过计算查询-候选对的相似度进行训练但这类方法存在明显局限:难以捕捉候选样本间细微的语义差异,负例样本多样性不足,且模型在区分错误负例与困难负例时的判别能力有限。

2.多模态检索综述

针对这些问题,团队提出全新解决方案——基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。

3.多模态图像检索

这一设计带来三重突破:以匹配分数为依据实现精准困难负例挖掘,有效规避错误负例干扰确保筛选出的困难负例兼具多样性与高质量特性通过软标签机制打破传统一对一的刚性映射约束

AAAI 2026 Oral | 多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP(插图

4.多模态搜索引擎

通过将模型相似度矩阵与软语义匹配分数矩阵对齐,使模型真正学会辨析候选样本间的语义差异,显著提升判别能力为进一步提升性能,团队基于挖掘的困难负例训练出重排序模型UniME-V2-Reranker,采用配对与列表联合优化策略。

AAAI 2026 Oral | 多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP(插图1

5.多模态分析elan软件入门

图1 UniME-V2与以往方法的本质不同,在于巧妙利用了多模态大模型(MLLM)的深层语义理解能力它不仅能用此能力精准挖掘“困难负例”,更能生成一个软语义匹配分数,如同一位资深导师,指导模型学会辨别候选样本间微妙的语义差异。

6.多模态分析软件

方法MLLM-as-a-Judge 困难负样本挖掘过去的研究主要依赖于批内硬负样本挖掘,其中计算查询-候选嵌入相似性以采样负样本然而,这种方法通常受到负样本多样性有限和嵌入判别能力不足的困扰,难以有效区分错误和困难的负样本。

7.多模态推荐算法

为了克服这些挑战,如图2所示,首先利用全局检索构建一个潜在的困难负样本集之后,利用MLLM的强大理解能力来评估每个查询-候选对的语义对齐性,并生成软语义匹配分数这个分数指导了硬负样本挖掘,使得能够识别出多样化和高质量的困难负样本,同时减少错误负样本的影响。

AAAI 2026 Oral | 多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP(插图2

8.多模态目标检测

图2:基于MLLM-as-a-Judge的困难负样本挖掘流程我们首先利用现有的多模态嵌入模型进行全局检索,构建一个潜在的困难负样本集然后,利用MLLM强大的理解能力根据语义对齐性对查询-候选对进行评分,从而精确识别困难负样本。

9.多模态 transformer

潜在困难负样本集合为了从全局样本中提取更高质量的困难负样本,首先使用VLM2Vec为查询和候选生成嵌入接着,为每个查询检索出50个最相关的候选为了应对错误负样本并增加多样性,我们基于查询-候选相似度分数设定一个相似度阈值。

AAAI 2026 Oral | 多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP(插图3

10.多模态媒资检索

,并选择前50名的候选作为潜在的困难负样本集

AAAI 2026 Oral | 多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP(插图4

AAAI 2026 Oral | 多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP(插图5

其中

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。