1.复旦大学 甲骨文

让大模型破译从未见过的甲骨文,准确率拿下新SOTA!来自复旦大学的研究人员提出了一种基于部首和象形分析的可解释甲骨文破译框架——不仅在公开基准数据集HUST-OBC和EV-OBC上,达到最先进的Top-10识别准确率以及优异的零样本破译能力。

2.甲骨文模型怎么做

而且面对未破译甲骨文,所提方法也能够输出可解释性的分析文本,从而为考古破译工作提供潜在帮助。

大模型破译甲骨文创下新SOTA!复旦团队推出新框架(插图

3.甲骨文模拟器

事实上,作为最古老的成熟文字系统,甲骨文长期以来因其稀有性、抽象性和象形多样性,给考古破译工作带来了重大挑战当前基于深度学习的方法在甲骨文破译任务上取得了令人鼓舞的进展,但现有方法往往忽视了甲骨文字形与语义之间的复杂关联。

4.甲骨文破译悬赏

这导致了有限的泛化能力和可解释性,尤其是在处理零样本场景和未破译的甲骨文时为此,本文提出了一种基于大型视觉语言模型的可解释甲骨文破译方法,该方法通过联合部首分析与象形语义理解,弥合了甲骨文字形与语意之间的鸿沟。

5.甲骨文研究大师

下面具体来看——首个象形解析甲骨文破译数据集概括而言,团队提出了一种渐进式训练策略,引导模型从部首识别和部首分析,过渡到象形分析,最后进行部首-象形交互分析,从而实现从字形到字意的推理论文还设计了基于分析结果的“部首-象形双重匹配机制”,显著提升了模型的零样本破译性能。

6.甲骨文创新中心

为便于模型训练,论文提出了包含47,157个汉字的象形破译甲骨文数据集,其中部分汉字具有相应甲骨文图像和古代字体图像,所有汉字都具备现代楷书图像、部首分析和象形分析标注先说数据集尽管现有视觉语言大模型在多种任务上表现优异,但仍难以直接应用于甲骨文破译任务。

7.甲骨文搭建ssr

为解决这一挑战,论文提出了象形破译甲骨文(PD-OBS)数据集,用于训练具备甲骨文象形分析能力的视觉语言大模型,这对甲骨文破译任务具有重要意义PD-OBS数据集共包含47,157个汉字其中,3173个汉字与从公开的HUST-OBC和EVOBC数据集收集的甲骨文图像相关联;10,968个汉字提供了来自字形库的古代隶书图像;所有汉字均配有来自《汉典》的现代楷书图像。

8.甲骨文模仿

除图像数据外,每个汉字均通过文本形式标注了部首分析和象形分析,这两者均与汉字的语义含义密切相关标注过程分为三个阶段,如图1所示首先,通过汉典从《说文解字》(一部古代汉语词典)中检索每个汉字的部首标签、定义及解释。

9.上海甲骨文软件

其次,将获取的部首标签及其解释与每个汉字的现代、古代字体和甲骨文图像关联接着,利用GPT-4.1基于参考的字形图像丰富部首标签,并总结分析内容最后,通过GPT-4.1进行自我检查和人工修正来确保数据集的整体质量。

大模型破译甲骨文创下新SOTA!复旦团队推出新框架(插图1

10.甲骨文破译第一人

基于部首和象形分析的可解释甲骨文破译视觉语言大模型1、模型整体结构整体框架基于Qwen2.5-VL-7B构建,共享相同的视觉编码器和大型语言模型(LLM)如图2所示,研究人员引入了一个空间patch合并模块作为视觉适配器,以及一个分类器来预测部首标签,并且还提出了部首LoRA和象形LoRA模块来分析相应的信息。

此外,研究人员设计了一种渐进式训练方法,从部首识别开始,接着进行部首和象形分析,最终实现联合分析,以逐步引导模型完成甲骨文破译任务还提出了一个新颖的部首-象形双重匹配机制,以从数据库中选择最合适的字符

大模型破译甲骨文创下新SOTA!复旦团队推出新框架(插图2

2、部首识别在本阶段,研究人员的目标是将视觉编码器适配于甲骨文的独特视觉风格,并预测用于下游推理的关键信息——部首标签为此,团队设计了一个空间patch合并模块作为视觉适配器,该适配器将高维视觉特征压缩并聚合为预设维度的特征向量,作为甲骨文的抽象表示。

此外,研究人员基于欧式距离设计了一个三元组损失函数,以明确提升不同部首特征向量之间的区分度具体而言,团队实施了一种采样策略,确保每个批次中每个部首类别至少包含两个样本在训练过程中,对于批次中的每个样本,将它的特征向量Vn 指定为锚点,然后选择一个正样本(即具有相同根部标签的样本)和一个负样本(即具有不同根部标签的样本)。

三元组损失如下:

大模型破译甲骨文创下新SOTA!复旦团队推出新框架(插图3

关于分类器,研究人员使用交叉熵损失来优化它。因此,本阶段的整个损失函数可以表示如下:

大模型破译甲骨文创下新SOTA!复旦团队推出新框架(插图4

3、部首-象形联合分析为了在甲骨文中实现字形与意义的关联,研究人员设计了一个渐进式的字形分析过程,以促进破译任务的完成在甲骨文和古代汉字中,部首通常决定了字的基本语义,如图3中的Q1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。