Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来（-源码库

当问题又深又复杂时，一味上最强模型既贵又慢测试时扩展能想得更久，却不一定想得更对最近，来自英伟达和香港大学的研究员提出一种新范式：用一个8B小模型当指挥家，把代码解释器、网络搜索、数学模型、甚至更强的大模型当作乐手，按需编排、分工合作，用强化学习把“正确、便宜、合你心意”三件事同时做到。

2.英伟达8代

在人类最后一场考试（Humanity’s Last Exam）上，指挥家 Orchestrator-8B以 37.1% 的成绩超过GPT-5（35.1%），还更省2.5×计算成本；在τ²-Bench与FRAMES上同样全面领先，成本却只有对手的大约三成。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来（插图

3.英伟达开发者论坛

为什么需要Agent微调？只靠提示词也可以搭建一个多智能体系统，但是论文发现，依赖提示词的系统，存在着两大偏见：自增强偏见：模型倾向“找自己家族的人帮忙”；例如GPT-5倾向于调用GPT-5-mini，造成性能下降。

4.英伟达bar技术开启

他增强偏见：无脑调用“最强模型”，成本爆表例如Qwen3-8B大量把活交给GPT-5，不管代价如何这两种偏见的存在都会让一个大模型“自我调度”往往失灵：因此，论文提出使用强化学习训练指挥家agent，通过多重奖励来提升效果和效率。

5.英伟达开发板

ToolOrchestra：统一接口多轮编排强化学习三重奖励ToolOrchestra的核心是把各种工具（网页/本地检索、代码执行、数学与通用 LLM 等）统一成一个JSON接口，让8B指挥家能在多轮回合里先思考、再调用、再读回馈，直到收敛。

6.英伟达开发版

训练上，使用GRPO强化学习，ToolOrchestra让模型同时最大化三种奖励：正确性（任务是否解决）；效率（货币/时延罚项）；用户偏好（你更爱本地检索还是云搜索，更看重速度还是成本）。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来（插图1

7.英伟达gf800

为了配合强化学习训练，论文还打造了一个合成数据集ToolScale：先由 LLM生成领域数据库与API，再自动合成“任务—黄金动作序列”，并通过执行正确性、过程完整性等可验证标准筛选覆盖金融、医疗、出行、教育等10个领域，为端到端RL提供真实而丰富的环境。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来（插图2

8.英伟达k1开发板

实验亮点：更强、更省，还更稳主赛道：HLE（人类最后一场考试）：Orchestrator-8B 37.1% ＞ GPT-5（35.1%）

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来（

目录：

1.nvidia 开源

2.英伟达8代

3.英伟达开发者论坛

4.英伟达bar技术开启

5.英伟达开发板

6.英伟达开发版

7.英伟达gf800

8.英伟达k1开发板

9.英伟达开源驱动和闭源驱动

10.英伟达gf820a

1.nvidia 开源

2.英伟达8代

3.英伟达开发者论坛

4.英伟达bar技术开启

5.英伟达开发板

6.英伟达开发版

7.英伟达gf800

8.英伟达k1开发板

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来（

目录：

1.nvidia 开源

2.英伟达8代

3.英伟达开发者论坛

4.英伟达bar技术开启

5.英伟达开发板

6.英伟达开发版

7.英伟达gf800

8.英伟达k1开发板

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复