1.nvidia 开源

当问题又深又复杂时,一味上最强模型既贵又慢测试时扩展能想得更久,却不一定想得更对最近,来自英伟达和香港大学的研究员提出一种新范式:用一个8B小模型当指挥家,把代码解释器、网络搜索、数学模型、甚至更强的大模型当作乐手,按需编排、分工合作,用强化学习把“正确、便宜、合你心意”三件事同时做到。

2.英伟达8代

在人类最后一场考试(Humanity’s Last Exam)上,指挥家 Orchestrator-8B以 37.1% 的成绩超过GPT-5(35.1%),还更省2.5×计算成本;在τ²-Bench与FRAMES上同样全面领先,成本却只有对手的大约三成。

Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来(插图

3.英伟达开发者论坛

为什么需要Agent微调?只靠提示词也可以搭建一个多智能体系统,但是论文发现,依赖提示词的系统,存在着两大偏见:自增强偏见:模型倾向“找自己家族的人帮忙”;例如GPT-5倾向于调用GPT-5-mini,造成性能下降。

4.英伟达bar技术开启

他增强偏见:无脑调用“最强模型”,成本爆表例如Qwen3-8B大量把活交给GPT-5,不管代价如何这两种偏见的存在都会让一个大模型“自我调度”往往失灵:因此,论文提出使用强化学习训练指挥家agent,通过多重奖励来提升效果和效率。

5.英伟达开发板

ToolOrchestra:统一接口 多轮编排 强化学习三重奖励ToolOrchestra的核心是把各种工具(网页/本地检索、代码执行、数学与通用 LLM 等)统一成一个JSON接口,让8B指挥家能在多轮回合里先思考、再调用、再读回馈,直到收敛。

6.英伟达开发版

训练上,使用GRPO强化学习,ToolOrchestra让模型同时最大化三种奖励:正确性(任务是否解决);效率(货币/时延罚项);用户偏好(你更爱本地检索还是云搜索,更看重速度还是成本)。

Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来(插图1

7.英伟达gf800

为了配合强化学习训练,论文还打造了一个合成数据集ToolScale:先由 LLM生成领域数据库与API,再自动合成“任务—黄金动作序列”,并通过执行正确性、过程完整性等可验证标准筛选覆盖金融、医疗、出行、教育等10个领域,为端到端RL提供真实而丰富的环境。

Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来(插图2

8.英伟达k1开发板

实验亮点:更强、更省,还更稳主赛道:HLE(人类最后一场考试):Orchestrator-8B 37.1% > GPT-5(35.1%)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。