1.openai gpt-3

几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一但发布会上搞了一个大乌龙,52.8>69.1=30.8?于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界(左边)。

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题(插图

2.opengpg

虽然这张表格一开始在OpenAI的官博中是准确的,但是当面向全世界直播竟然搞了这么大一个Bug抛开乌龙外,更重要的但是被人们忽视的一个事情是,GPT-5在SWE-bench Verified基准上取得的。

3.openpgp使用教程

74.9%的通过率。这个分数略高于Anthropic的Claude Opus 4.1的74.5%。

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题(插图1

4.open gapp

这一下子,就让GPT-5成为当前软件工程任务基准上的领先模型但等等,这分数…好像有点猫腻啊OpenAI并未运行SWE-bench Verified的全部500道测试任务,而是略去了其中无法运行的23个任务,仅基于。

5.openpgp协议

477个任务计算得分。SemiAnalysis专门发帖提到这个问题。

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题(插图2

6.openwrt gpt

Anthropic专门在它的博客里也「内涵」了这个问题。

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题(插图3

7.openrti

SWE-bench Verified总共500道题,GPT-5只做了477道,那23道题,它直接跳过了!而对手Claude呢?老老实实,500道题一道没落这下,性质全变了当然OpenAI是承认这件事情的。

8.open i7

他们从GPT-4.1开始就在「备注」里说明了:OpenAI的基础设施无法运行这23道题目。(好奇啊,什么样的题目,OpenAI的天才们竟然说无法运行)

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题(插图4

9.openmp gpu

如果将这23道无法运行的题目按0分计入,GPT-4.1的得分将从54.6%降至52.1%由此推测,GPT-5的74.9%,若也将那23道题视作全错,其实际全500题通过率约为71.4%(74.9%×477/500,注意这是极度简化的计算)明显。

10.openj-gate

低于Claude Opus 4.1基于500道题取得的74.5%需要强调的是,那23个被略去的任务并非对GPT-5「无关紧要」相反,它们大多是Verified集中最困难的一批问题据第三方分析,在Verified数据集的「耗时

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。