在HLE(“人类最后考试”)的专家校验子集上,首次有系统突破60分大关!就在最近,由耶鲁大学唐相儒、王昱婕,上海交通大学徐望瀚,UCLA万冠呈,牛津大学尹榛菲,Eigen AI金帝、王瀚锐等团队联合开发的Eigen-1多智能体系统实现了历史性突破——
在HLE Bio/Chem Gold测试集上,Pass@1准确率达到48.3%,Pass@5准确率更是飙升至61.74%,首次跨越60分大关这一成绩远超谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)。

最令人振奋的是,这一成就并非依赖闭源超大模型,而是完全基于开源的DeepSeek V3.1搭建在这个开源底座上,研究团队通过叠加Monitor-based RAG(隐式知识增强)、HSR(分层解法修复)、QAIR(质量感知迭代推理)三大创新机制,实现了质的飞跃。

下面详细展开——技术创新:三大支柱撑起60分突破当AI开始挑战人类知识的终极边界,一场前所未有的较量正在上演当大模型在MMLU、GPQA等传统基准上纷纷“卷到90分”时,这些测试逐渐失去了区分力为了追踪AI在科学推理前沿的真实进展,Center for AI Safety与Scale AI联合推出了“人类最后的考试”(Humanity’s Last Exam,HLE)——。
涵盖数学、自然科学、工程学、人文社科等百余领域共3000道博士级难题,被视为AI知识推理的终极试炼而HLE Bio/Chem Gold则是HLE的黄金标准子集,包含149道经过领域专家人工审核和纠正的题目。
相比原始HLE数据集,这个子集排除了可能存在歧义或错误答案的问题,确保了标签的准确性和可靠性,因此成为评估AI科学推理能力最可信的基准正是在HLE Bio/Chem Gold子集上,Eigen-1系统首次跨越60分大关,而这背后离不开其三大创新机制。
1. Monitor-based RAG:告别“工具税”的隐式检索增强传统的检索增强生成(RAG)系统就像一个频繁暂停的视频播放器——每次需要外部知识时,都必须中断推理流程、构建查询、处理结果,再重新整合上下文。
研究团队将这种开销形象地称为“工具税”(Tool Tax)——每次工具调用都会打断思考流程,导致上下文丢失传统RAG系统的“工具税”问题在下图的人口遗传学案例中展现得淋漓尽致左侧显示模型过度自信地使用错误公式,右侧则展示了即使通过显式RAG获得正确公式,推理流程的中断导致模型无法将知识重新整合到原始问题中。

Eigen-1的Monitor-based RAG彻底改变了这一范式:隐式监控:Monitor持续监测推理流中的不确定性,像一位细心的助手,在后台默默关注着每一个可能需要帮助的时刻扫描推理轨迹以便在不确定时触发RAG。
精准查询:Querier在检测到不确定性时,精准提取最小关键词集合,避免搜索空间的不必要扩展无缝注入:Injector则将检索到的知识无缝融入推理流,就像在对话中自然地补充背景信息,而不是生硬地插入引用。
实验数据显示,与显式RAG相比,Monitor-based RAG将token消耗减少53.5%,将工作流迭代次数减少43.7%,同时保持了更高的准确率见下图单倍型计数案例,Monitor检测到重组约束的不确定性,Querier生成针对性查询,Injector注入两个关键事实,使模型能够排除无效案例并得出正确的30个单倍型答案。

2. Hierarchical Solution Refinement (HSR):从“民主投票”到“层级精炼”除了隐式知识增强,Eigen-1还革新了多智能体的协作模式传统的多智能体系统采用“民主投票”机制,所有候选方案被平等对待,容易“稀释”最优解。
而Eigen-1引入的分层解决方案精炼(HSR)打破了这种假设HSR采用“锚点—修复”结构:一个候选作为 anchor,其余作为参考依次修正,形成层次化协作在HSR框架下,每个候选解决方案轮流充当“锚点”,其他方案则作为“参考”提供针对性修正。
这种设计让强方案能够吸收弱方案的有价值见解,而不是简单地进行平均具体包括四种修复维度:逻辑补全(填补缺失的推理步骤)、数值修正(纠正计算错误)、方法替换(用更优策略替代较弱方法)、表达优化(提升清晰度而不改变实质)。
这种设计让优质方案能吸收其他方案的有价值见解,而非简单平均下图通过一个图像识别任务生动展示了HSR的工作原理面对昆虫识别和花朵计数的复合任务,锚点解决方案最初选择了ResNet(选项C),但存在部署时间计算错误。
通过引入其他解决方案作为参考,系统进行了四类针对性修正

3. Quality-Aware Iterative Reasoning (QAIR):质量驱动的迭代优化质量感知迭代推理(QAIR)能根据解答质量自适应地调整迭代深度:高质量解答可提前收敛,低质量解答则触发更多探索,从而在效率与准确率之间取得平衡。
该机制为每个方案评估三个维度:逻辑性、答案正确性、解释完整性。只有未达标的方案才会进入下一轮修正,避免在低质量候选上浪费计算资源。全面碾压:不止于HLEEigen-1的优势不限于HLE:

1、HLE Bio/Chem Gold(149题)Pass@1: 48.30%(领先SciMaster 13.4个百分点)Pass@5:


评论(0)