1.华裔数学家陶哲轩的逻辑难题

继续领跑!Gemini 3本周一发布,便开启了横扫各大基准测试之旅,频繁登上各种排行榜的榜首。

谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题(插图

2.难倒陶哲轩7小时的一道imo难题

Gemini 3不仅跑分领先,面对网友的各种刁钻实测也毫不拉胯用现实证明了自己就是目前最强模型!这不,就在昨天,知名研究机构Epoch AI再添一力证——Gemini 3 Pro在FrontierMath基准测试中创下新纪录:Tier 1-3准确率达 38%,Tier 4达19%。

3.数学天才陶哲轩简介

在综合多项基准测试的Epoch能力指数(ECI)中,Gemini 3 Pro获得154分,超越了GPT-5.1此前保持的151分的最高纪录。

谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题(插图1

4.ucla陶哲轩

FrontierMath是由Epoch AI联合众多职业数学家打造的一个高级数学基准它由数百道原创、从未公开的难题构成,被设计成一块专门测量AI高阶数学推理能力的「试金石」这些题目几乎覆盖现代数学的主要分支:从需要大量计算的数论、实分析,到高度抽象的代数几何、范畴论。

5.陶哲轩3n 1

普通一道题就足以让相关领域的研究者思考数小时甚至数天。这些题目大概长这样,大家可以感受一下。

谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题(插图2谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题(插图3

6.陶哲轩数学有多厉害

完整数据集包含350道题:其中300题构成Tiers 1–3,难度大致对应从高年级本科到初级研究生水平另外50题被归入极端困难的Tier 4,接近乃至达到数学的前沿研究问题为便于社区实验,FrontierMath只开放了少量公开子集,其余题目则严格保密,用于评测。

7.陶哲轩是不是最厉害的数学家

在评测时,模型必须为每道题提交一个Python函数answer(),返回整数(通常)或SymPy等Python对象,由系统自动运行与校验这一设计既允许模型调用代码深度推理,又用程序化判分确保结果客观可重复,使FrontierMath成为当前衡量AI数学前沿能力最严苛、也最具说服力的基准之一。

8.数学大师陶哲轩

截至目前,FrontierMath排行榜上的领先模型,都是由Gemini和GPT系列占据。

谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题(插图4

9.陶哲的歌

从「跑分最强」到「实战破题」虽说Gemini 3确实很强,但只是一味的霸榜基准测试,还是差点意思至少,缺少点说服力还好,Gemini 3很快就在实战中证明了自己就在昨天,数学大神陶哲轩发帖表示,他用Gemini Deepthink模式十分钟,便解决了埃尔德什问题#367

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。