浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力-源码库

「小明买了3个苹果，每个5元，他付了20元，应该找回多少钱？」这是典型的小学数学应用题但在日常生活中，我们更常遇到的是它的视觉版本：看到货架上的苹果标价牌，数出购物篮里的苹果数量，估算总价，再从收银员手中接过找零，快速判断对不对。

2.浙江大学大计基题库

这个过程几乎不需要语言，而是依靠视觉线索完成推理：看到、比较、计算、验证语言让我们能以符号方式进行逻辑、推理与知识的传递，但人类真正的理解往往并不止于语言人类更擅长通过视觉去「看见」数量、空间与比例，以具象的方式形成抽象的逻辑。

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力插图

3.浙江大学新生数学基础测试

正是在这一理念启发下，研究团队提出了一个关键问题：「能否将自然语言表述的数学应用题转化为纯视觉形式的多图像问题，从而更真实地评估视觉语言模型（VLMs）的数学推理能力？」视觉语言模型（VLMs）在图像与文本的联合建模上取得了显著进展，其在视觉问答、多模态理解等任务中表现优异。

4.浙江大学基础数据系统

但当把数学推理引入视觉场景时，现有模型仍面临明显瓶颈，且现有视觉数学基准存在以下局限：当前视觉数学基准大多聚焦在几何题，任务范围过窄，无法覆盖实际应用题情形几乎没有对数学应用题的视觉化评估，因此无法衡量模型在真实数学理解任务中的能力。

5.浙江大学oj题库

很少涉及多图像跨场景推理，这使得难以检验模型跨场景关联能力在文本数学基准GSM8K上，许多模型的准确率已轻松突破 90%，甚至达到或超越人类水平；然而，当题目被转化为视觉形式后，研究团队发现：多数顶级模型瞬间腰斩，与人类水平存在显著差距。

6.浙江大学题库

面对这些问题，浙江大学的研究团队提出了GSM8K-V——将广泛使用的数学基准GSM8K系统性地映射为其视觉对应版本，构建出一个跨场景、多图像的视觉数学推理基准该基准旨在检验模型是否真正能「看得懂」数学，而不仅仅是「读得懂」文字。

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力插图1

7.浙江大学基础数学研究方向

论文链接：https://arxiv.org/abs/2509.25160项目地址：https://zju-real.github.io/GSM8K-V代码仓库：https://github.com/ZJU-REAL/GSM8K-V

8.浙江大学应用数学系

数据集：https://huggingface.co/datasets/ZJU-REAL/GSM8K-V基准特点基准的数据来源可靠：基于GSM8K测试集，共包含1,319道题目，对应5,343张高质量图像，平均每题4张图，最多可达11张。

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力插图2

9.浙江大学应用数学研究所

任务覆盖全面：涵盖6大类、13个子类数学场景，从基础算术、测量、图形识别到时间与比例推理。跨图推理能力测试：漫画式多场景视觉呈现，通过多场景组合检验模型在不同画面间的逻辑关联能力。

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力插图3

10.浙江大学数理基础科学

三阶段自动化构建流程GSM8K-V的核心在于如何让「文字题」变成等价的「视觉题」。为此，研究团队设计了一套三阶段自动化构建流程，确保视觉题与原始文本题目在语义上一一对应、逻辑一致。

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力插图4

阶段一：问题分解与场景分配在这一阶段，使用

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力

目录：

1.浙大基础数学

2.浙江大学大计基题库

3.浙江大学新生数学基础测试

4.浙江大学基础数据系统

5.浙江大学oj题库

6.浙江大学题库

7.浙江大学基础数学研究方向

8.浙江大学应用数学系

9.浙江大学应用数学研究所

10.浙江大学数理基础科学

1.浙大基础数学

2.浙江大学大计基题库

3.浙江大学新生数学基础测试

4.浙江大学基础数据系统

5.浙江大学oj题库

6.浙江大学题库

7.浙江大学基础数学研究方向

8.浙江大学应用数学系

9.浙江大学应用数学研究所

10.浙江大学数理基础科学

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

浙大推出首个「多图应用题」基准GSM8K-V，全面评估 VLM数学推理能力

目录：

1.浙大基础数学

2.浙江大学大计基题库

3.浙江大学新生数学基础测试

4.浙江大学基础数据系统

5.浙江大学oj题库

6.浙江大学题库

7.浙江大学基础数学研究方向

8.浙江大学应用数学系

9.浙江大学应用数学研究所

10.浙江大学数理基础科学

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复