1.浙大基础数学

「小明买了3个苹果,每个5元,他付了20元,应该找回多少钱?」这是典型的小学数学应用题但在日常生活中,我们更常遇到的是它的视觉版本:看到货架上的苹果标价牌,数出购物篮里的苹果数量,估算总价,再从收银员手中接过找零,快速判断对不对。

2.浙江大学大计基题库

这个过程几乎不需要语言,而是依靠视觉线索完成推理:看到、比较、计算、验证语言让我们能以符号方式进行逻辑、推理与知识的传递,但人类真正的理解往往并不止于语言人类更擅长通过视觉去「看见」数量、空间与比例,以具象的方式形成抽象的逻辑。

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力(插图

3.浙江大学新生数学基础测试

正是在这一理念启发下,研究团队提出了一个关键问题:「能否将自然语言表述的数学应用题转化为纯视觉形式的多图像问题,从而更真实地评估视觉语言模型(VLMs)的数学推理能力?」视觉语言模型(VLMs)在图像与文本的联合建模上取得了显著进展,其在视觉问答、多模态理解等任务中表现优异。

4.浙江大学基础数据系统

但当把数学推理引入视觉场景时,现有模型仍面临明显瓶颈,且现有视觉数学基准存在以下局限:当前视觉数学基准大多聚焦在几何题,任务范围过窄,无法覆盖实际应用题情形几乎没有对数学应用题的视觉化评估,因此无法衡量模型在真实数学理解任务中的能力。

5.浙江大学oj题库

很少涉及多图像跨场景推理,这使得难以检验模型跨场景关联能力在文本数学基准GSM8K上,许多模型的准确率已轻松突破 90%,甚至达到或超越人类水平;然而,当题目被转化为视觉形式后,研究团队发现:多数顶级模型瞬间腰斩,与人类水平存在显著差距。

6.浙江大学题库

面对这些问题,浙江大学的研究团队提出了GSM8K-V——将广泛使用的数学基准GSM8K系统性地映射为其视觉对应版本,构建出一个跨场景、多图像的视觉数学推理基准该基准旨在检验模型是否真正能「看得懂」数学,而不仅仅是「读得懂」文字。

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力(插图1

7.浙江大学基础数学研究方向

论文链接:https://arxiv.org/abs/2509.25160项目地址:https://zju-real.github.io/GSM8K-V代码仓库:https://github.com/ZJU-REAL/GSM8K-V

8.浙江大学应用数学系

数据集:https://huggingface.co/datasets/ZJU-REAL/GSM8K-V基准特点基准的数据来源可靠:基于GSM8K测试集,共包含1,319道题目,对应5,343张高质量图像,平均每题4张图,最多可达11张。

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力(插图2

9.浙江大学应用数学研究所

任务覆盖全面:涵盖6大类、13个子类数学场景,从基础算术、测量、图形识别到时间与比例推理。跨图推理能力测试:漫画式多场景视觉呈现,通过多场景组合检验模型在不同画面间的逻辑关联能力。

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力(插图3

10.浙江大学数理基础科学

三阶段自动化构建流程GSM8K-V的核心在于如何让「文字题」变成等价的「视觉题」。为此,研究团队设计了一套三阶段自动化构建流程,确保视觉题与原始文本题目在语义上一一对应、逻辑一致。

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力(插图4

阶段一:问题分解与场景分配在这一阶段,使用

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。