ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力-源码库

本文第一作者杨昱威，来自澳大利亚国立大学，合作者包括章泽宇（澳大利亚国立大学）、侯云钟（澳大利亚国立大学）、李卓婉（约翰霍普金斯大学）、Gaowen Liu（思科）、Ali Payani（思科）、丁源森（俄亥俄州立大学）以及郑良（澳大利亚国立大学）。

背景与动机在科研、新闻报道、数据分析等领域，图表是信息传递的核心载体要让多模态大语言模型（MLLMs）真正服务于科学研究，必须具备以下两个能力：1. 精准识别与理解图表元素（如坐标轴、图例、数据点、标题等）；。

2. 对图表数据进行深度推理（如计算差值、比较趋势、跨子图推理等）；然而，即便是最先进的开源多模态大语言模型（MLLMs），在高难度科学图表理解基准测试上准确率依旧徘徊在 30%–50%尽管合成数据集易于生成，但它们通常存在以下问题：。

风格单一：缺乏视觉和内容多样性；缺乏真实性：与真实图表的分布差异较大；数据模式受限：生成的图表数据过于简单，无法模拟复杂场景；

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力插图

为此，我们提出 ECD（Effective Chart Dataset）—— 一个规模大、质量高、风格多样的合成图表数据集同时，本文还配套设计了一条模块化数据合成流水线以及高质量评测基准

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力