1.攻克的公式是什么
本工作核心作者为汤子瑞(上海交通大学)、牛博宇(上海交通大学)合作者为李帛修、周炜、王健楠、李国良、张心怡、吴帆通讯作者为上海交通大学计算机学院博士生导师周煊赫团队长期从事人工智能与数据交叉研究半结构化表格是我们日常工作中常见的 “拦路虎”—— 布局五花八门、结构复杂多变,让自动化数据处理变得异常困难。

2.攻克的课
面对这样的挑战,传统的表格处理工具往往力不从心研究发现,现有的大模型以及表格理解领域模型在 NL2SQL / 结构化表格已经有了较好的效果(准确率超 80%),但是在那些诸如金融报表、库存表、企业管理表等具有合并单元格、嵌套表格、层次结构等特征的复杂半结构化表格上表现明显退化。

3.攻克什么?
为了解决这一痛点,来自上海交通大学计算机学院、西蒙菲莎大学、清华大学、中国人民大学的合作团队,带来基于树形框架的智能表格问答系统(ST-Raptor),其不仅能精准捕捉表格中的复杂布局,还能自动生成表格操作指令,并一步步执行这些操作流程,最终准确回答用户提出的问题 —— 就像给 Excel 装上了一个会思考的 “AI 大脑”。
4.攻克难关mod
目前,该论文已被数据库领域国际顶尖学术会议 ACM SIGMOD 2026 接收。

5.攻克是啥意思
论文标题:ST-Raptor: LLM-Powered Semi-Structured Table Question Answering论文链接:https://arxiv.org/abs/2508.18190
6.模型攻击
项目仓库:https://github.com/weAIDB/ST-Raptor该项目发布后得到广泛关注与转发:

7.攻克功课
现有的 NL2SQL 方法需要将半结构化表格转换为结构化表格处理,这通常会导致大量的信息丢失此外,现有的 NL2Code 和多模态 LLM 问答都无法准确捕捉半结构化表格独特的信息组织方法,因此无法准确回答相应的问题。
8.攻克解释
下图展示了一些基线方法在半结构化表格问答上的表现在总共 100 个问题的回答中,大模型的错误率均较高,且其在涉及到表格结构理解,数据获取,问题推理三方面表现均不佳

9.攻克cccdna
准确率低的原因主要由于以下几点:(1)半结构化表格结构个性化程度高,结构复杂多样且隐含了部分语义信息,大模型难以捕捉到布局的微妙之处(2)在进行表格数据检索时,模型容易产生幻觉,造成失真(3)模型对问题的理解能力不足,不能从表格里获取解决问题需要的信息。
10.攻克关卡
HO-Tree创新性的半结构化表格表示方案为了定制解决半结构化表格信息的复杂分布问题,本文提出了层次正交树(HO-Tree)这一数据结构HO-Tree 由


评论(0)