永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍-源码库

AI再夺IOAA金牌，见证历史！国际天文与天体物理奥林匹克竞赛（International Olympiad on Astronomy and Astrophysics，IOAA），由国际天文学联合会主办的全球性青少年天文赛事，是国际科学奥林匹克竞赛之一、全球天文科学领域最具有影响力的赛事之一。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍插图7

6.2021天文奥赛报名

竞赛包含理论测试、实测数据分析、天文观测三大核心环节，并设置团队协作项目以增强国际互动这些竞赛试题极为严苛，通常只有全球最顶尖的学生才能解答它们需要深厚的概念理解能力、冗长的公式推导，以及需耗时数小时才能完成的天体物理学难题。

7.天文奥赛什么大学承认

如今人工智能不仅能够通过考试，更在全球200至300名人类参赛者中跻身前两名GPT-5平均得分85.6%，Gemini 2.5 Pro获得84.2%——两者均达到金牌标准我们已正式进入AI能与物理学和天文学领域最聪颖的年轻头脑抗衡的时代。

8.天文竞赛

这并非琐碎知识的比拼，而是关于中子星、吸积流、磁场和轨道力学的尖端推理。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍插图8

9.天文竞赛金牌有什么用

人工智能不再只是生成文字，它开始思考宇宙的奥秘。但报告指出，在空间和时间推理方面，目前所有LLM都存在困难。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍插图9

10.天文奥赛官网

因此，ASI之路还很长，仍需上下求索。五大LLM打擂台，几乎全线摘金最新研究由俄亥俄州立大学团队完成，重点考察了五大顶尖LLM，在天文和物理学方面的实力。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍插图10

论文地址：https://arxiv.org/pdf/2510.05016为此，他们选取了最近四届IOAA理论考试（2022-2025）之所以选择IOAA来衡量，原因有三：现有的基准，如AstroMLab、AstroBench等仅通过选择、简答和判断题来考察LLM的天文学知识；。

IOAA题目具备全面性，涵盖了宇宙学、球面三角学、恒星天体物理学、天体力学、光度学和仪器学等广泛的主题；IOAA将理论物理、观测约束和真实天文数据与数学计算融为一体，为评估LLM的科学问题解决能力提供了一个独特的视角。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍插图11

除了以上提到的Gemini 2.5 Pro和GPT-5，团队还让o3、Claude-4.1-Opus、Claude-4-Sonnet等三款模型共同参战它们均是在AstroBench表现最强模型之一，而且还具备了多模态能力。

所有模型的输出，由两名IOAA专家遵循官方评分细则进行独立评分实验结果：理论考试在理论考试中，GPT-5和Gemini 2.5 Pro表现最佳，比分高出其他模型约7到25个百分点具体来说（见下表2），GPT-5在2022年（93.0%）、2023年（89.6%）和2025年（86.8%）取得最高分，而Gemini 2.5 Pro在2024年以83.0%夺冠。

在以几何题为主的2024年试卷上，Gemini 2.5 Pro凭借更强的几何问题解决能力，取得了最佳总体成绩（85.6%）；GPT-5在该年未能获得高分。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍插图12

尽管总体表现强劲，GPT-5在难题上的表现优于简单与中等难度题对此，研究人员分析出三点可能的原因第一，各难度级别的问题数量较少，容易产生表现波动：简单题仅10道，中等题11道，分别约占总分185分和151分（总分为所有类别的1200分）。

因此，少数错误就能显著影响模型在该难度段的得分第二，GPT-5在2024年试卷上出现了若干重大失误，这些失误多来自涉及几何与空间可视化的题目第三，GPT-5有时在天体物理学题上出错例如，2024年试卷的第9题（被归为简单题）中，GPT-5因概念性错误与计算错误共损失18分——这一题的错误几乎占简单题可得分数的10%。

基于这些原因，研究人员认为，GPT-5在简单题和中等难度题上表现不佳，并非由于明显的不当行为；更大的数据集，可能会减少偶尔错误的影响，并在难度类别之间实现更平衡的分布其他模型也具有竞争力：OpenAI o3总体得分77.5%，比Claude系列高出约13–17个百分点；其中Claude Opus 4.1得分64.7%，Claude Sonnet 4得分60.6%。

此外，这些模型的表现会随着题目难度的增加而下降尽管三者在某些简单基准（如带多项选择题的AstroMLab）上的表现相近并且积极，这次评估仍揭示了显著的性能差距这提示需要更全面地评估天文学领域的LLM，以测试其在问题解决能力上超越单纯知识回忆的能力。

实验结果：数据分析考试相比之下，数据分析考试更能揭示模型在细节与多模态任务上的能力与局限（见表1）。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍插图13

GPT-5在数据分析部分表现出色，总体得分88.5%，高于其理论考试成绩（84.2%）这一提升与其他模型形成鲜明对比：其他模型从理论到数据分析通常下降约10–15个百分点造成这种差异的原因在于：数据分析考试，高度依赖图表解读与数据可视化；

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

永别了，人类冠军！AI横扫天文奥赛，GPT-5得分远超金牌选手2.7倍

目录：

1.天文奥赛2020

2.天文奥赛cnao

3.天文竞赛被叫停2019

4.天文竞赛2021