目录:
1.openai gpt-3
2.opengpg
3.openpgp使用教程
4.open gapp
5.openpgp协议
6.openwrt gpt
7.openrti
8.open i7
9.openmp gpu
10.openj-gate
1.openai gpt-3
几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一但发布会上搞了一个大乌龙,52.8>69.1=30.8?于是,OpenAI那些年薪上亿的天才们做的一张表格火遍了全世界(左边)。

2.opengpg
虽然这张表格一开始在OpenAI的官博中是准确的,但是当面向全世界直播竟然搞了这么大一个Bug抛开乌龙外,更重要的但是被人们忽视的一个事情是,GPT-5在SWE-bench Verified基准上取得的。
3.openpgp使用教程
74.9%的通过率。这个分数略高于Anthropic的Claude Opus 4.1的74.5%。

4.open gapp
这一下子,就让GPT-5成为当前软件工程任务基准上的领先模型但等等,这分数…好像有点猫腻啊OpenAI并未运行SWE-bench Verified的全部500道测试任务,而是略去了其中无法运行的23个任务,仅基于。
5.openpgp协议
477个任务计算得分。SemiAnalysis专门发帖提到这个问题。

6.openwrt gpt
Anthropic专门在它的博客里也「内涵」了这个问题。

7.openrti
SWE-bench Verified总共500道题,GPT-5只做了477道,那23道题,它直接跳过了!而对手Claude呢?老老实实,500道题一道没落这下,性质全变了当然OpenAI是承认这件事情的。
8.open i7
他们从GPT-4.1开始就在「备注」里说明了:OpenAI的基础设施无法运行这23道题目。(好奇啊,什么样的题目,OpenAI的天才们竟然说无法运行)

9.openmp gpu
如果将这23道无法运行的题目按0分计入,GPT-4.1的得分将从54.6%降至52.1%由此推测,GPT-5的74.9%,若也将那23道题视作全错,其实际全500题通过率约为71.4%(74.9%×477/500,注意这是极度简化的计算)明显。
10.openj-gate
低于Claude Opus 4.1基于500道题取得的74.5%需要强调的是,那23个被略去的任务并非对GPT-5「无关紧要」相反,它们大多是Verified集中最困难的一批问题据第三方分析,在Verified数据集的「耗时


评论(0)