GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭-源码库

数据污染，与现实脱节当前，已有的编码基准测试，存在两大缺陷一方面，数据污染风险高很多基准基于开源GitHub仓库构建，但这些仓库，尤其是MIT、Apache许可的项目，很容易被LLM训练数据「爬虫」由此一来，AI在测试时存在「作弊」的可能，或许它早就见过类似的难题。

10.全球计算机编程大赛

另一方面，现有基准的任务太过简单，达不到「工业级别」。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭插图7

还以SWE-Bench Verified举例，500道题中，竟有161道只需改1-2行代码这在实验室里可行，但到了企业环境中，往往涉及跨多个文件、数百行代码的复杂修改这样的基准，根本无法反映AI在真实开发场景中的表现。

编码考试不是AI智能体的最终目的，但一个更硬核基准，才能真实评估LLM是否真正符合工业级应用的标准SWE-Bench Pro：超100行代码难题在SWE-Bench Pro设计中，一共包含1865个经人工验证与增强的问题，细分了三类子集——公开集、商业集、保留集。

论文中，研究团队介绍了SWE-Bench Pro的三大贡献：1. 巧妙收集设计，降低数据污染风险SWE-Bench Pro创新数据收集策略，避开了污染陷阱（1）仅采用强著佐权许可证（GPL）的代码库构建公开集（11个代码库）和保留集（12个代码库）；。

（2）从真实初创企业获取商业代码以构建商业集（18个代码库），从而捕捉企业级问题。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭插图8

• 公开集：在HuggingFace公开发布731个实例，并在本文中报告相关统计数据和模型表现这些实例源自采用著佐权（copyleft）许可证的公开代码库• 商业集：来自初创企业代码库的276个商业集问题。

这是唯一包含初创企业专有代码库的集合，因法律限制无法公开• 保留集：保留了858个与公共集结构镜像但采用不同代码库的问题集。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭插图9

2. 任务升级，更具挑战、多样，更贴近工业为了确保任务复杂度，Scale AI排除了1-10行代码「小修小补」的任务，只保留需要多文件、实质性修改的问题参考解决方案平均涉及4.1个文件、107.4行代码，所有任务至少改10行，超100项任务需改超100行。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭插图10

除了复杂度外，选的代码库都是活跃维护的，覆盖了消费级App、B2B服务和开发者工具平台等多个领域而且，每个代码库贡献了50-100个实例（上限100），避免了对单一库的依赖3.

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

目录：

1.全球编程大赛作品

2.全球编程语言

3.世界级的编程大赛

4.编程全国等级考试

5.ai编程大赛

6.世界编程冠军

7.编程国际比赛

8.2021全球编程语言排行榜

9.全球编程语言排行榜

10.全球计算机编程大赛

1.全球编程大赛作品

2.全球编程语言

3.世界级的编程大赛

4.编程全国等级考试

5.ai编程大赛

6.世界编程冠军

7.编程国际比赛

8.2021全球编程语言排行榜

9.全球编程语言排行榜

10.全球计算机编程大赛

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

目录：

1.全球编程大赛作品

2.全球编程语言

3.世界级的编程大赛

4.编程全国等级考试

5.ai编程大赛

6.世界编程冠军

7.编程国际比赛

8.2021全球编程语言排行榜

9.全球编程语言排行榜

10.全球计算机编程大赛

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复