1.x奥特曼博士

奥特曼在GPT-5的发布会上曾说过一个结论「以后每个人的兜里都有一个博士级AI随时随地的提供建议」GPT-5的发布后也被全球的疯狂实测,API使用量暴增当然,有些讨论重点关注的是「还我GPT-4o」这种情绪化的能力方面。

2.奥特博士是谁

但重点是,奥特曼一直强调,GPT-5有「博士级」推理能力。这事儿,真的靠谱吗?

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图

3.奥特曼的博士叫什么

这不,一个叫FormulaOne的硬核测试,就让世界上这些最顶级的模型「现了原形」。FormulaOne题目分三关,一关比一关难。

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图1

4.奥特曼中的博士

论文地址:https://arxiv.org/pdf/2507.13337结果呢?有点扎心了基础题,AI们还算顶得住,正确率还可以,唯一一个GPT-5能接近50%可到了进阶题,画风突变就算是GPT-5,也只做对了4%。

5.奥特曼博士是谁

其他模型更是惨不忍睹至于最难的「最深层问题」部分?所有模型,全军覆没。直接交了白卷,全部零分。

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图2

FormulaOne测试基准给自己取名字叫做:超越竞赛编程的算法推理深度测量。这是由一家名为AAI的公司出品的,他们的官网是:doubleai.com。

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图3

公司是由Mobileye联合创始人、希伯来大学教授Amnon Shashua发起的科研向AI创业公司,2023年8月在耶路撒冷成立,长期「半隐身」。

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图4

Amnon Shashua曾于2020年荣获丹·大卫奖(Dan David Prize)人工智能领域的获奖者,并于2022年被汽车名人堂(Automotive Hall of Fame)评为移动创新者1999年,Shashua联合创立了Mobileye,该公司于2014年成为以色列历史上规模最大的IPO。

2017年,公司被Intel以153亿美元收购2022年,公司再次于纳斯达克证券交易所上市AI必须硬核现在的AI离真正的专家,到底还有多远?真正的专家,那可是要解决硬核难题的,他们是推动科学边界的人所以,得给AI上点真正的强度了。

目前的基准测试往往无法完整描绘出人工智能理解的深度尽管最近取得了一些显著成就,例如OpenAI在CodeForces上获得了2724的评分,或是在国际信息学奥林匹克竞赛中获得金牌但这些成绩仍然掩盖了一个令人清醒的现实:为这些竞赛磨炼出的技能,并不能涵盖解决大规模现实世界研究问题所需的全部推理能力。

例如优化全球供应链、管理大规模电网、设计具有弹性的网络基础设施等任务要困难多个数量级,它们所需的算法洞察力远远超出了典型竞技编程的范畴FormulaOne包含220个新颖的、基于图的动态编程问题这些问题分为三个类别,从适中的难度到研究级别的难度不等。

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图5

FormulaOne是一个处于图论、逻辑和算法交叉点的基准测试,完全在前沿模型的训练分布范围内这些问题极具挑战性,需要一系列推理步骤,涉及拓扑和几何洞察、数学知识、组合考虑、精确实现等FormulaOne具有三个关键特性。

第一,它具有商业价值,与实际的大规模优化问题相关,例如路径规划、调度和网络设计中出现的问题第二,它生成自图上的单一二阶(Monadic Second-Order,MSO)逻辑这一高度表达的框架,为大规模自动问题生成铺平了道路——非常适合构建强化学习(RL)环境。

第三,许多问题与理论计算机科学的前沿以及其中的核心猜想密切相关,例如强指数时间假设(Strong Exponential Time Hypothesis,SETH)为什么模型在「deepest」(最深层)任务上会出现概念崩溃,即使它们在算法编程竞赛中达到了超越人类顶尖选手的水平?。

「deepest」层级的问题需要非常深入的推理能力,而这是现有模型根本无法做到的。FormulaOne可能需要一种定性不同的方法,正通过一个实时排行榜和评估框架与社区分享它。

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图6

FormulaOne中的问题都很简洁,仅由一两句话组成,任何本科生都能理解,但解决这些问题却需要创造力和深入的推理。

GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图7GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图8GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图9GPT-5惨遭零分打脸,顶级AI全军覆没!奥特曼AI博士级能力神话破灭(插图10

虽然这些问题通常很容易描述,但它们的解决方案远非显而易见这一大类问题的可解性由一个Courcelle提出的算法元定理所保证,该定理大致表述为:对于每个足够树状的图,任何可在一种表达能力强的形式逻辑——单子二阶(MSO)逻辑中定义的问题,都可以通过一个动态规划算法来求解,该算法的运行时间与图的阶数成线性关系。

FormulaOne中的问题源自一个单一的无限族:图上的单阶二阶(MSO)逻辑简单来说,这些问题就是图上的自然动态规划问题

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。