RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward-源码库

本研究由西湖大学 ENCODE Lab 牵头，联合同济大学、浙江大学和新加坡国立大学共同完成团队在大模型强化学习与多模态推理方向具有深厚研究基础近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

2.细粒度视觉分类

但一个朴素而尖锐的问题始终横在面前：当视觉信息变得极其繁复、结构密集，模型究竟能不能「看懂图」？比如以高分辨率地铁图为代表的真实场景，既要求精细的视觉感知，又要求跨线路、跨站点的空间推理来自该团队的前向工作 ReasonMap 首次系统揭示了这一问题：在高分辨率地铁图等真实场景下，即使最先进的 MLLMs 也频繁在跨线路、跨站点的路径规划中出现「看错线」「漏站」「重复路线」等推理幻觉。

3.细粒度图像检索

团队进一步发现，在高分辨率、信息极其密集的地铁图上，仅依靠最终答案给出成败信号的强化学习，很容易陷入奖励极度稀疏的困境：多数输出几乎得不到任何正反馈，少数「偶然对」的样本又会造成高方差梯度，训练既慢又不稳，这使得模型在长链路路径规划中频繁出现看错线、漏站、甚至重复路线的「幻觉」。

4.细粒度图像分类算法

为此，该团队进一步提出 RewardMap：一个围绕真实 map reasoning 任务场景设计的多阶段强化学习框架，用难度感知的细粒度奖励与从易到难的课程式训练，系统提升 MLLMs 的细粒度视觉理解与空间推理能力。

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward插图

5.什么是细粒度图像识别

论文标题：RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

6.细粒度图像识别算法

论文链接：https://arxiv.org/abs/2510.02240项目主页：https://fscdc.github.io/RewardMap/代码：https://github.com/fscdc/RewardMap

7.细粒度图像分类代码

数据集：https://huggingface.co/collections/FSCCS/reasonmap-688517b57d771707a5d64656

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward插图1

ReasonMap-Plus：为「冷启动」准备的密集监督团队首先在 ReasonMap 的基础上构建 ReasonMap-Plus，它与 ReasonMap 一致采用高分辨率的地铁/轨交地图，覆盖 30 座城市，共计 4018 个问题样本，并在设计上明确区分了五类更偏感知的细粒度题型（两类 Local Counting、Global Counting、两类 True/False），以便为强化学习阶段提供更细密的监督与可拆解的目标。

数据集还给出了易/中/难的难度标签，并在训练/测试划分上保持城市与难度分布的多样性与均衡性

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward插图2

我们提出了什么：RewardMap 框架RewardMap 的核心思想并不复杂，却紧扣痛点第一步，用「细节可分解」的奖励把一项路线规划题拆成若干可评估的子目标，让模型不再只有「对/错」两级的冰冷信号；第二步，以「从易到难」的课程式训练组织数据分布，先让模型在更密集、噪声更小的子任务上「热身」，再稳步迁移到真实的路线规划上。

具体而言，RewardMap 包含两大组件：其一是「难度感知的细节奖励」；其二是「多阶段强化学习」，后者显式利用 ReasonMap-Plus 中更易获得稠密信号的问题类型进行冷启动，从一开始就提升训练信噪比并降低不稳定性。

在难度感知上，团队对训练样本的奖励总和施加难度感知权重，综合考虑地图难度以及问题难度两个维度：前者针对 ReasonMap 与 ReasonMap-Plus 的全部地图统一划分为三档；后者在 ReasonMap 的规划题中可由换乘次数来度量，换乘越多、难度越高，权重也越大。

RewardMap 的奖励函数同样体现了「把复杂问题拆成可学信号」的思路总奖励由三部分组成：格式合规（format）、最终正确性（correctness）与细节项（detail），并由难度权重进行缩放以体现题目的真实复杂度；其中细节项以 α=0.5 的系数参与总分，确保它既能提供稳定梯度，又不会喧宾夺主。

在细节项的具体计算里，我们对「起点/终点是否正确、线路名称是否匹配、换乘站点是否合理、路线分段数是否正确」等要素分别给出加/扣分，形成一个「部分正确即可得分」的连续型信号，而不是过去那种「一票否决」的全或无。

关键结果那么，RewardMap 在多基准上的综合表现如何？除了在 ReasonMap/ReasonMap-Plus 上带来持续且可复现实验增益之外，我们还将其推广到覆盖「空间推理、细粒度视觉、通用视觉问答」三大类别的六项外部评测。

结果显示，RewardMap 在所有基准上均取得一致提升，其中在 SpatialEval 上的增幅最高，达到 13.51%；相较之下，传统的

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

目录：

1.细粒度图像识别综述

2.细粒度视觉分类

3.细粒度图像检索

4.细粒度图像分类算法

5.什么是细粒度图像识别

6.细粒度图像识别算法

7.细粒度图像分类代码

1.细粒度图像识别综述

2.细粒度视觉分类

3.细粒度图像检索

4.细粒度图像分类算法

5.什么是细粒度图像识别

6.细粒度图像识别算法

7.细粒度图像分类代码

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

目录：

1.细粒度图像识别综述

2.细粒度视觉分类

3.细粒度图像检索

4.细粒度图像分类算法

5.什么是细粒度图像识别

6.细粒度图像识别算法

7.细粒度图像分类代码

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复