AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（-源码库

长文本图像检索新SOTA来了！描述得越详细，图文匹配的分数就应该越高——这听起来是常识，但现有的CLIP模型却做不到而就在最近，中国联通数据科学与人工智能研究院团队在AAAI 2026 (Oral)上发表了一项最新成果，成功突破了这一局限。

2.aaai2026开会时间

研究名为HiMo-CLIP，通过巧妙地建模“语义层级”与“语义单调性”，在不改变编码器结构的前提下，让模型自动捕捉当前语境下的“语义差异点”由此，成功解决了视觉-语言对齐中长期被忽视的结构化问题，在长文本、组合性文本检索上取得SOTA，同时兼顾短文本性能。

3.aaai2026在哪开会

这一工作不仅提升了检索精度，更让多模态模型的对齐机制更加符合人类的认知逻辑，为未来更复杂的多模态理解任务指明了方向。

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（插图

4.aaai2026录用论文列表

痛点：当描述变长，CLIP却“懵”了在多模态检索任务中，我们通常期望：文字描述越详细、越完整，其与对应图像的匹配度（对齐分数）应该越高这被称为“语义单调性”然而，现实很骨感现有的模型（包括专门针对长文本优化的Long-CLIP等）往往将文本视为扁平的序列，忽略了语言内在的层级结构。

5.aaai2026论文集

如下图所示，对于同一张“白色福特F250皮卡”的图片，当文本从简短的“正面视图…”扩展到包含“超大轮胎”、“车轴可见”、“有色车窗”等详细描述的长文本时，许多SOTA模型的对齐分数反而下降了这种现象表明，模型未能有效处理长文本中的“语义层级”，导致细节信息淹没了核心语义，或者无法在复杂的上下文中捕捉到最具区分度的特征。

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（插图1

6.aaai2026时间

△图1 随着描述变长，现有模型分数下降，而HiMo-CLIP（绿勾）稳步提升方法：HiMo-CLIP框架为了解决上述问题，研究团队提出了一种即插即用的表征级框架HiMo-CLIP它包含两个核心组件：层级分解模块（Hierarchical Decomposition，HiDe）和单调性感知对比损失（Monotonicity-aware Contrastive Loss，MoLo）。

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（插图2

7.AAAI2027举办地点

△图2. HiMo-CLIP框架概览（1）HiDe模块利用Batch内的PCA动态提取语义成分；（2）MoLo损失函数强制模型同时对齐“全量文本”和“语义成分”，实现单调性约束HiDe：谁是重点？由“邻居”决定。

8.AAAI2026最新消息今天

在真实场景中，数据样本往往是高度复杂的如上图2所示，我们面对的不是简单的“红苹果”和“青苹果”，而是像“一只金毛猎犬在公园草坪上追赶红盘”、“盘子里放着鲜红的草莓、黄香蕉和深紫色的葡萄”这样高度复杂的场景。

9.AAAI2026时间线

传统的固定分词法在这种复杂度下根本抓不住重点HiMo-CLIP换了个思路，它像一个玩“大家来找茬”的高手：通过观察Batch内的“邻居”，动态提取最具区分度的特征长文本特征f1：代表“整句话”的意思动态子语义f2：代表“这句话里最独特的记忆点”。

10.AAAI2026截稿日期

举个栗子：假设长文本是：“一只戴着墨镜的柯基在沙滩上奔跑”场景A（混在风景照里）：如果这一批次（Batch）的其他图片都是“沙滩排球”、“海边游艇”PCA一分析，发现“沙滩”大家都有，不稀奇唯独“柯基”是独一份。

→此时，f2自动代表“柯基（物体）”场景B（混在狗群里）：如果这一批次的其他图片都是“草地上的柯基”、“沙发上的柯基”PCA一分析，发现“柯基”遍地都是，也没法区分唯独“戴墨镜”和“在沙滩”是特例→此时，f2自动代表“戴墨镜/沙滩（属性/环境）”。

这就是HiDe最聪明的地方：它不需要人教它什么是重点，而是利用统计学原理，自适应地提取出那个最具辨识度的“特征指纹”，自动构建语义层级MoLo：既要顾全大局，又要抓住细节找到了重点f2，怎么用呢？作者设计了MoLo，强制模型“两手抓”：。

MoLo=InfoNCE(f1, feat) λ*InfoNCE(f2, feat)第一手：InfoNCE(f1, feat)是传统的图文匹配，保证图片和“整句话”（f1）对齐第二手：InfoNCE(f2, feat)强制图片特征还要特别像那个提取出来的“独特记忆点”（f2）。

这个操作看似简单，实则一石三鸟：自动摘要：f2就是特征空间里的“高维短文本”，省去了人工构造短文本的偏差更懂机器的逻辑：人类定义的关键词（如名词）未必是模型分类的最佳依据（可能是纹理或形状）PCA完全在特征空间操作，提取的是机器认为的差异点，消除了人类语言和机器理解之间的隔阂（Gap）。

数据效率高：你只需要喂给模型长文本，它在训练中顺便学会了如何拆解长句、提取关键词训练的是长文本，却白捡了短文本的匹配能力实验：长短通吃，全面SOTA研究团队在多个经典的长文本、短文本检索基准，以及自行构造的深度层级数据集HiMo-Docci上进行了广泛实验。

在长文本（表1）和短文本（表2）检索任务上，HiMo-CLIP展现出了显著的优势值得注意的是，HiMo-CLIP仅使用了1M（一百万）的训练数据，就击败了使用100M甚至10B数据的方法（如LoTLIP，SigLIP等）。

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（插图3

△表1 长文本检索结果

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（插图4

△表2 短文本检索结果为了充分评估长文本的对齐效果，研究团队构建了HiMo-Docci数据集，同时还提出了HiMo@K指标，以量化模型是否真的“读懂”了层级结果显示，HiMo-CLIP保持了极高的单调性相关系数（0.88），远超对比方法。

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（插图5

△HiMo-Docci上的单调性可视化随着文本描述逐渐完整（1→5），HiMo-CLIP的分数（红线）呈现出完美的上升趋势，而其他模型的分数则波动剧烈，甚至下降进一步的，为了探究各个组件对性能的具体贡献，研究团队进行了详尽的消融实验，揭示了HiDe与MoLo协同工作的内在机理。

感兴趣的朋友可到原文了解更多细节～论文链接：https://arxiv.org/abs/2511.06653开源地址：https://github.com/UnicomAI/HiMo-CLIP

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（

目录：

1.aaai2026截稿时间

2.aaai2026开会时间

3.aaai2026在哪开会

4.aaai2026录用论文列表

5.aaai2026论文集

6.aaai2026时间

7.AAAI2027举办地点

8.AAAI2026最新消息今天

9.AAAI2026时间线

10.AAAI2026截稿日期

1.aaai2026截稿时间

2.aaai2026开会时间

3.aaai2026在哪开会

4.aaai2026录用论文列表

5.aaai2026论文集

6.aaai2026时间

7.AAAI2027举办地点

8.AAAI2026最新消息今天

9.AAAI2026时间线

10.AAAI2026截稿日期

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

AAAI 2026 Oral｜让大模型学会“高维找茬”，中国联通新研究解决长文本图像检索痛点（

目录：

1.aaai2026截稿时间

2.aaai2026开会时间

3.aaai2026在哪开会

4.aaai2026录用论文列表

5.aaai2026论文集

6.aaai2026时间

7.AAAI2027举办地点

8.AAAI2026最新消息今天

9.AAAI2026时间线

10.AAAI2026截稿日期

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复