目录:
1.浙大基础数学
2.浙江大学大计基题库
3.浙江大学新生数学基础测试
4.浙江大学基础数据系统
5.浙江大学oj题库
6.浙江大学题库
7.浙江大学基础数学研究方向
8.浙江大学应用数学系
9.浙江大学应用数学研究所
10.浙江大学数理基础科学
1.浙大基础数学
「小明买了3个苹果,每个5元,他付了20元,应该找回多少钱?」这是典型的小学数学应用题但在日常生活中,我们更常遇到的是它的视觉版本:看到货架上的苹果标价牌,数出购物篮里的苹果数量,估算总价,再从收银员手中接过找零,快速判断对不对。
2.浙江大学大计基题库
这个过程几乎不需要语言,而是依靠视觉线索完成推理:看到、比较、计算、验证语言让我们能以符号方式进行逻辑、推理与知识的传递,但人类真正的理解往往并不止于语言人类更擅长通过视觉去「看见」数量、空间与比例,以具象的方式形成抽象的逻辑。

3.浙江大学新生数学基础测试
正是在这一理念启发下,研究团队提出了一个关键问题:「能否将自然语言表述的数学应用题转化为纯视觉形式的多图像问题,从而更真实地评估视觉语言模型(VLMs)的数学推理能力?」视觉语言模型(VLMs)在图像与文本的联合建模上取得了显著进展,其在视觉问答、多模态理解等任务中表现优异。
4.浙江大学基础数据系统
但当把数学推理引入视觉场景时,现有模型仍面临明显瓶颈,且现有视觉数学基准存在以下局限:当前视觉数学基准大多聚焦在几何题,任务范围过窄,无法覆盖实际应用题情形几乎没有对数学应用题的视觉化评估,因此无法衡量模型在真实数学理解任务中的能力。
5.浙江大学oj题库
很少涉及多图像跨场景推理,这使得难以检验模型跨场景关联能力在文本数学基准GSM8K上,许多模型的准确率已轻松突破 90%,甚至达到或超越人类水平;然而,当题目被转化为视觉形式后,研究团队发现:多数顶级模型瞬间腰斩,与人类水平存在显著差距。
6.浙江大学题库
面对这些问题,浙江大学的研究团队提出了GSM8K-V——将广泛使用的数学基准GSM8K系统性地映射为其视觉对应版本,构建出一个跨场景、多图像的视觉数学推理基准该基准旨在检验模型是否真正能「看得懂」数学,而不仅仅是「读得懂」文字。

7.浙江大学基础数学研究方向
论文链接:https://arxiv.org/abs/2509.25160项目地址:https://zju-real.github.io/GSM8K-V代码仓库:https://github.com/ZJU-REAL/GSM8K-V
8.浙江大学应用数学系
数据集:https://huggingface.co/datasets/ZJU-REAL/GSM8K-V基准特点基准的数据来源可靠:基于GSM8K测试集,共包含1,319道题目,对应5,343张高质量图像,平均每题4张图,最多可达11张。

9.浙江大学应用数学研究所
任务覆盖全面:涵盖6大类、13个子类数学场景,从基础算术、测量、图形识别到时间与比例推理。跨图推理能力测试:漫画式多场景视觉呈现,通过多场景组合检验模型在不同画面间的逻辑关联能力。

10.浙江大学数理基础科学
三阶段自动化构建流程GSM8K-V的核心在于如何让「文字题」变成等价的「视觉题」。为此,研究团队设计了一套三阶段自动化构建流程,确保视觉题与原始文本题目在语义上一一对应、逻辑一致。

阶段一:问题分解与场景分配在这一阶段,使用


评论(0)