1.古希腊陶罐艺术

现在AI都懂文物懂历史了一项来自北京大学的最新研究引发关注:他们推出了全球首个面向古希腊陶罐的3D视觉问答数据集——VaseVQA-3D,并配套推出了专用视觉语言模型VaseVLM这意味着,AI正在从“识图机器”迈向“文化考古Agent”。

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型(插图

2.古希腊陶罐创意画

传统视觉语言模型(VLM)如GPT-4V、Gemini等,擅长描述日常图像,在开放域视觉理解方面效果显著,但在面对文化遗产类复杂对象时——它们几乎“一脸茫然”受限于训练数据的领域覆盖和语义建模能力,其对复杂纹饰、器形及文化背景的理解仍存在明显不足。

3.古希腊陶瓶

为什么?因为缺乏高质量、结构化的专业数据此次,北大牵头团队带来了突破性解决方案AI首次“看懂”古希腊陶罐以往的视觉语言模型(VLM)如CLIP、LLaVA、GPT-4V等,虽然能识别日常图片,却在文化遗产这类专业领域失灵。

4.古希腊陶罐的由来

北大团队指出:“AI能认猫狗,却认不出陶罐的时代、风格与技法。”于是他们构建了一个庞大的新基座VaseVQA-3D。

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型(插图1北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型(插图2

5.希腊的陶罐

△VaseVQA-3D中的陶罐3D模型与问答示例:每个模型都能被AI“旋转、观察、回答”从现有资源里找了3万多张古希腊陶器的2D照片,先通过:ResNet-50质检:去掉模糊与残缺图像;CLIP语义过滤:识别“碎片”与“完整器物”;

6.古希腊陶罐装饰画

多视角选优:自动挑选最佳视角图像。三道筛选,留下3880张高质量的;

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型(插图3

7.古希腊陶罐儿童画

再用TripoSG技术把这些2D图转成664个高保真的GLB模型(像真的陶器一样能看前后上下);最后还通过GPT-4o生成问答与增强描述,配了4460组「问题-答案」(比如 “这个陶器的制作工艺是什么?”“是黑绘工艺”),甚至给每个3D模型写了详细说明。

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型(插图4

8.古希腊陶瓶的几种主要器型

为了保证3D模型质量,专门挑了24个高质量3D陶器当标准样板,用来检验生成的3D模型好不好总结下来就是:664个高保真3D古希腊陶罐模型(GLB格式)4460条考古问答数据完整的2D→3D生成与质检流程。

9.古希腊陶瓶三种风格

涵盖陶罐六大核心属性:材质、工艺、形制、年代、装饰、归属VaseVLM:懂考古的视觉语言大模型有了数据,团队进一步训练了专用模型 VaseVLM以Qwen2.5-VL为基底,通过两阶段强化:阶段一:SFT监督微调 —— 用360°旋转视频 考古描述训练基础识别能力。

10.古希腊陶罐图案

阶段二:RLVR强化学习 —— 将考古知识拆分为六个语义维度(Fabric、Technique、Shape、Dating、Decoration、Attribution),AI会每个维度根据回答得到奖励这种“可验证奖励机制”让模型的回答更专业、更贴近学术标准。

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型(插图5

△RLVR奖励机制:AI像考古学家一样分维度分析陶罐特征在多项Vase-3D视觉问答任务上,VaseVLM的表现大幅超越现有模型相比最强基线模型,VaseVLM在R@1准确率提升12.8%;词汇相似度提升 6.6%;专家人工评分平均达4.57/5(10位考古专家评分)。

VaseVLM生成的描述更自然、学术准确,显著优于通用大模型。

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型(插图6

未来,该项目计划拓展到更多文化遗产领域,并建立更完善的数字遗产展示形式,为数字考古提供全新技术路径论文原文:https://arxiv.org/abs/2510.04479官方网站: https://aigeeksgroup.github.io/VaseVQA-3D。

代码开源: https://github.com/AIGeeksGroup/VaseVQA-3D数据集:https://huggingface.co/datasets/AIGeeksGroup/VaseVQA-3D

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。