DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决（-源码库

简单来说，问题出在了GRPO算法上来自Sea AI Lab和新加坡国立大学等研究机构的学者认为，GRPO存在两个“隐藏偏见”长度偏见：错误答案越长，惩罚反而会越轻GRPO计算奖励时，会把“答案长度”算进去，导致短的错误答案被罚得更重。

6.deepsource

结果就是：模型会故意生成“又长又错”的答案，看起来像是在“认真推理”，其实是在“凑字数躲惩罚”难度偏见：太简单或太难的题被过度关注GRPO会根据“同一批题的得分标准差”调整权重比如一道题所有人都做对（标准差小），或所有人都做错（标准差也小），这道题会被当成 “重点” 反复训练；而中等难度、有人对有人错的题（标准差大），反而被忽略。

7.deep.sea

但实际训练中，中等难度的题才是提升能力的关键这项研究的核心作者Zichen Liu指出，DeepSeek-V3.2已经通过新的优势值计算方式，修正了“难度偏见”（如下图红框所示）但仍然保留了有偏的长度规范项（如下图蓝框所示）。

8.deepcs

也就是说，“长度偏见”依然存在

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决（插图3

9.deepexploit

实际上，这个问题DeepSeek官方报告亦有提及技术报告中，DeepSeek研究人员坦承，token效率对于DeepSeek-V3.2而言，仍然是个挑战：通常情况下，本次上新的两个模型需要生成更长的轨迹，才能达到Gemini-3.0-Pro的输出质量。

10.deepkey

而DeepSeek-V3.2-Speciale本身，也是特意放宽了RL的长度限制，允许模型生成极长思维链，使得模型能够通过大量消耗token来进行深度的自我修正和探索可以说走的是一条“在超长上下文下持续扩展强化学习”的路线。

考虑到从百万token的输出成本来看，DeepSeek-V3.2价格仅为GPT-5的1/24，似乎也尚可接受另外，也有网友指出，DeepSeek的128K上下文已经很久没动了这与GPU资源有限也不无关系。

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决（插图4

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决（

目录：

1.deepcrack

2.deep cracks

3.deepsearch官方下载

4.deep search最新版

5.deepscale

6.deepsource

7.deep.sea

8.deepcs

9.deepexploit

10.deepkey

1.deepcrack

2.deep cracks

3.deepsearch官方下载

4.deep search最新版

5.deepscale

6.deepsource

7.deep.sea

8.deepcs

9.deepexploit

10.deepkey

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

DeepSeek-V3.2被找出bug了：疯狂消耗token，答案还可能出错，研究人员：GRPO老问题没解决（

目录：

1.deepcrack

2.deep cracks

3.deepsearch官方下载

4.deep search最新版

5.deepscale

6.deepsource

7.deep.sea

8.deepcs

9.deepexploit

10.deepkey

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复