1.全球编程大赛作品

继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌ICPC,被公认为全球最具挑战的大学生编程竞赛之一OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗?。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图

2.全球编程语言

最新一项基准测试,直接打脸了全世界的顶尖模型。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图1

3.世界级的编程大赛

它就是SWE-Bench Pro,专为评估AI编程智能体而生的新一代基准测试,直面真实企业级工程任务相较于前代SWE-Bench,Pro版本升级带来了三大突破:任务难度全面提升抗数据污染能力更强无限逼近真实代码库。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图2

4.编程全国等级考试

这一版,堪称编码中的「最后人类考试」在实际测试(公开集)中,顶尖模型几乎溃败GPT-5虽拿下了第一,但成绩仅有23.3%,Claude Opus 4.1以22.7%得分位居第二其他模型更是没有一个能打的,得分全部低于15%。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图3

5.ai编程大赛

这意味着,在更贴近真实世界的编程任务中,LLM的长程编码能力仍是短板。最新21页技术论文,详细公开了SWE-Bench Pro设计细节。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图4

6.世界编程冠军

论文地址:https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale (9).pdf编码界,需要一场硬核考试

7.编程国际比赛

过去,SWE-Bench等基准成为了评估LLM在软件工程中的重要标准这些测试中,通常要求AI基于完整代码库和自然语言描述,生成代码Patch就拿SWE-Bench Verified来说,顶尖LLM已实现超70%成功率,听起来确实非常厉害。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图5

8.2021全球编程语言排行榜

但这也暴露了一个问题:未来6至12个月内,现有基准或许会「饱和」,无法再去有效衡量AI的进步由此,Scale AI正式发布了SWE-Bench Pro它提供了一个更真实、更具挑战的「考场」,直击痛点解决现有基准的缺陷。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图6

9.全球编程语言排行榜

数据污染,与现实脱节当前,已有的编码基准测试,存在两大缺陷一方面,数据污染风险高很多基准基于开源GitHub仓库构建,但这些仓库,尤其是MIT、Apache许可的项目,很容易被LLM训练数据「爬虫」由此一来,AI在测试时存在「作弊」的可能,或许它早就见过类似的难题。

10.全球计算机编程大赛

另一方面,现有基准的任务太过简单,达不到「工业级别」。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图7

还以SWE-Bench Verified举例,500道题中,竟有161道只需改1-2行代码这在实验室里可行,但到了企业环境中,往往涉及跨多个文件、数百行代码的复杂修改这样的基准,根本无法反映AI在真实开发场景中的表现。

编码考试不是AI智能体的最终目的,但一个更硬核基准,才能真实评估LLM是否真正符合工业级应用的标准SWE-Bench Pro:超100行代码难题在SWE-Bench Pro设计中,一共包含1865个经人工验证与增强的问题,细分了三类子集——公开集、商业集、保留集。

论文中,研究团队介绍了SWE-Bench Pro的三大贡献:1. 巧妙收集设计,降低数据污染风险SWE-Bench Pro创新数据收集策略,避开了污染陷阱(1)仅采用强著佐权许可证(GPL)的代码库构建公开集(11个代码库)和保留集(12个代码库);。

(2)从真实初创企业获取商业代码以构建商业集(18个代码库),从而捕捉企业级问题。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图8

• 公开集:在HuggingFace公开发布731个实例,并在本文中报告相关统计数据和模型表现这些实例源自采用著佐权(copyleft)许可证的公开代码库• 商业集:来自初创企业代码库的276个商业集问题。

这是唯一包含初创企业专有代码库的集合,因法律限制无法公开• 保留集:保留了858个与公共集结构镜像但采用不同代码库的问题集。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图9

2. 任务升级,更具挑战、多样,更贴近工业为了确保任务复杂度,Scale AI排除了1-10行代码「小修小补」的任务,只保留需要多文件、实质性修改的问题参考解决方案平均涉及4.1个文件、107.4行代码,所有任务至少改10行,超100项任务需改超100行。

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭(插图10

除了复杂度外,选的代码库都是活跃维护的,覆盖了消费级App、B2B服务和开发者工具平台等多个领域而且,每个代码库贡献了50-100个实例(上限100),避免了对单一库的依赖3.

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。