目录:
1.gpt会比mbr快吗
2.gpt更快吗
3.gpt 和
4.gpt,gop
5.gpt对应什么
6.gpt比mbr快多少
7.gpt比mbr
8.gpt值
9.gpgpt
10.gpt gtp
1.gpt会比mbr快吗
如何让模型在思考时更聪明、更高效,还能对答案有把握?最近,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个令人振奋的答案——Deep Think with Confidence(DeepConf),让模型自信的深度思考。

2.gpt更快吗
论文地址:https://arxiv.org/pdf/2508.15260项目主页:https://jiaweizzhao.github.io/deepconf这项新方法通过并行思考与「置信度筛选」,不仅让模型在国际顶尖数学竞赛AIME 2025上拿下了
3.gpt 和
高达99.9%的正确率。可以说,这是首次利用开源模型在AIME 2025上实现99.9%的准确率,并且不使用任何工具!

4.gpt,gop
并且在保持高质量推理的同时,将生成的token数量削减了84.7%。

5.gpt对应什么
DeepConf还为并行思考(parallel thinking)带来了多项硬核优势:性能飙升:在各类模型与数据集上,准确率平均提升约10%极致高效:生成token数量锐减高达85%即插即用:兼容任何现有模型——无需额外训练(也无需进行超参数微调!)
6.gpt比mbr快多少
轻松部署:在vLLM中仅需约50行代码即可集成以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)的第11道题目上的推理过程为例。

7.gpt比mbr
核心思想是DeepConf通过「置信度信号」筛选推理路径,从而得到高质量答案,并在效率与准确率之间取得平衡横轴(token index):表示模型生成的推理步骤(随着token逐步增加)纵轴(confidence)。
8.gpt值
:表示每条推理路径在该步骤上的置信度水平绿色曲线:表示不同推理路径的置信度轨迹,越深的绿色表示置信度越高红色叉叉:低于置信度阈值的推理路径,被动态筛除绿色对勾:最终被保留下来的高置信度路径最终表决:这些路径在
9.gpgpt
基于置信度加权的多数表决下,最终得出统一答案:29。DeepConf在生成过程中,会持续监控推理路径的置信度,低置信度路径被及时淘汰,只保留「更有把握」的路径,提升整体准确性。

10.gpt gtp
通过准确率对比曲线,上图可以看出纵轴是accuracy(准确率),黄色曲线(DeepConf)比蓝色曲线(标准方法)明显更高表明DeepConf在相同投票规模下能达到更高的准确率下图横轴是token数量。
(推理所需的计算成本),黄色曲线在准确率保持较高的同时,token消耗明显更少表明DeepConf大幅减少了无效token的生成,推理效率更优DeepConf让模型不再「胡思乱想」,而是高效地走在高置信度的推理轨道上。
DeepConf支持两种工作模式:离线模式:根据置信度筛选已完成的推理路径,然后根据质量对投票进行加权在线模式:当置信度实时降至阈值以下时,立即停止生成DeepConf的秘诀是什么?其实,LLM知道自己何时开始不确定的,只是大家一直没有认真关注过他们的「思考过程」。
之前的方法在完整生成之后使用置信度/熵用于测试时和强化学习(RL)DeepConf的方法不同,不是在完成后,而是在生成过程中捕捉推理错误DeepConf实时监控「局部置信度」,在错误的推理路径消耗数千个token之前及时终止。
只有高质量、高置信度的推理路径才能保留下来!

DeepConf是怎样「用置信度筛选、用置信度投票」?这张图展示了DeepConf在离线思考时的核心机制:它先判断哪些推理路径值得信赖,把不靠谱的路径提前剔除,再让靠谱的路径进行加权投票,从而得到一个更准确、更高效的最终答案。

首先是每一token「有多确定」当模型在写推理步骤时,其实每个词(token)背后都有一个「信心值」如果模型觉得「这一步答案很靠谱」,信心值就高如果它自己都拿不准,这个信心值就会低上图里用不同深浅的绿色和红色标出来:绿色=更自信,红色=不自信。
其次,不光要看单token,还要看整体趋势DeepConf不只看某一个词,而是会滑动窗口:看看一小段话里的平均信心值,衡量「这段话整体是否靠谱」重点看看最后几句话的信心值,因为最终答案、最终结论往往决定于结尾。
DeepConf也会记下这条推理链里最差的一步,如果中间有明显「翻车」,这条路径就不太可靠这样一来,每条完整的推理链路都会得到一个综合的「置信度分数」最后,是先淘汰,再投票当模型并行生成很多条不同的推理路径时:。
第一步:过滤,把「置信度分数」排序,最差的10%直接丢掉,避免浪费第二步:投票,在剩下的推理链里,不是简单数票,而是按照置信度加权投票也就是说:一条高置信度的路径,它的意见分量更大;低置信度的路径,即便答案一样,也不会拉高太多票重。
最后看一下结果,在图的右边可以看到:有的路径说「答案是109」,有的说「答案是103、104、98」。但由于支持「109」的路径更多、而且置信度更高,所以最终投票选出了109作为答案。

成绩刷爆99.9%比GPT-5还高离线模式结果:在AIME 2025上达到99.9%的准确率(基线为97%)!在5个模型×5个数据集上实现普适性增益。在所有设置下均取得约10%的稳定准确率提升。

在线模式结果:在所有基准测试中节省33%-85%的token!在AIME 2025基准测试中,使用GPT-OSS-120B,在减少85%的token消耗下,仍达到97.9%的准确率该方法适用于从8B到120B的各类开源模型——在不牺牲质量的前提下实现实时高效。

在离线环境中对置信度度量进行基准测试。报告的数值为准确率(%)。Cons@512和mean@512分别表示使用512条推理轨迹进行的多数投票结果,以及平均置信度的均值。所有实验均重复进行了64次。

在在线环境中对DeepConf进行基准测试。在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的方法的准确率(%)以及生成的token数量(×10⁸)。

基于置信度的深度思考研究者的思考是:到底怎么把「置信度」用得更巧妙,让模型既想得更准,又想得更快呢?正如前文所述,这里可以分成两个使用场景:离线思考:等模型把一整条推理路径都写完了,再回头去评估每条路径的置信度,把靠谱的结果聚合在一起。
这样做的好处是能最大化提升答案的准确性在线思考:在模型一步步生成推理的过程中,就实时参考置信度如果发现某条思路不靠谱,可以及时停掉,避免浪费算力这样能边走边筛选,提升效率甚至精度离线思考在离线思考模式下,每个问题的所有推理路径均已生成。
此时的核心挑战是:如何聚合来自多条路径的信息,从而更准确地确定最终答案针对这一点,研究人员采用了标准的多数投票(majority voting)方法多数投票(Majority Voting)在标准的多数投票中,每条推理路径得出的最终答案对最终决策的贡献是均等的。
设T为所有已生成路径的集合,对于任意路径t∈T,设answer(t)为从该路径中提取的答案文本。那么,每个候选答案a的票数为:

置信度加权多数投票这个方法不再均等对待每条路径的投票,而是依据其关联路径的置信度,为每个最终答案赋予权重。对于每个候选答案a,它的总投票权会被重定义为:

置信度过滤在加权多数投票的基础上,还需要应用置信度过滤,才能在将投票更集中于高置信度的推理路径具体来说就是,通过路径的置信度分数,筛选出排序前η%的路径,从而确保只有最可靠的路径参与最终答案的决定选择前10%:专注于置信度最高的少数路径。
适用于少数路径就能解决问题的场景,但风险是如果模型存在偏见,容易选错答案选择前90%:纳入更广泛的路径这种方法能保持多样性、减少模型偏见,在各路径置信度相差不大时尤其稳健图3阐释了各种置信度度量方法以及基于置信度的离线思考的工作原理。

算法1则提供了该算法的详细实现。

在线思考在线思考模式通过在生成过程中实时评估推理路径的质量,来动态终止低质量的路径,进而确保其在后续的置信度过滤阶段大概率能被排除对此,研究人员提出了两种基于最低分组置信度,并会自适应地中止生成过程并调整推理路径的预算的方法:DeepConf-low和DeepConf-high。
其中,共包含两大核心组件:离线预热与自适应采样离线预热(Offline Warmup)DeepConf需要一个离线预热阶段,以便为在线决策过程建立停止阈值s对于每个新的提示词,首先生成Ninit条推理路径(例如,Ninit=16)。
停止阈值s定义为:

在所有配置下,DeepConf-low均统一采用前η=10%的策略,而DeepConf-high则统一采用前η=90%的策略在在线生成过程中,一旦某条推理路径的置信度低于预热阶段的数据所设定的、能够筛选出置信度排序前η%路径的最低门槛,生成过程就会被终止。
自适应采样(Adaptive Sampling)在DeepConf中,所有方法都采用了自适应采样,如此就可以根据问题难度动态调整所生成推理路径的数量问题难度通过已生成路径之间的一致性程度来评估,其量化方式为多数投票权重与总投票权重的比值:。

若β


评论(0)