DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（-源码库

DeepSeek 一发布模型，总会引起业内的高度关注与广泛讨论，但也不可避免的暴露出一些小 Bug比如老外用英文询问，它却在思考过程中切回「神秘的东方文字」当然，DeepSeek 模型对汉字「情有独钟」的情况早已出现，「极」字 Bug 就是典型例子。

2.巨晰吃人

而这一次，随着新模型 DeepSeek-V3.2 的发布，大家又发现了 DeepSeek 需要优化的地方：其长思考版本（Speciale）暴露出一些 Token 使用效率不佳的问题根据多位研究者反馈，DeepSeek-V3.2 Speciale 在处理复杂任务时出现明显的 Token 消耗异常。

3.巨蚺吃人吗

具体表现为：在相同任务上，Gemini 只消耗 2 万 Token，DeepSeek-V3.2 Speciale 却用了 7.7 万，也就是说，它需要 3 倍以上的 Token 才能输出类似质量的结果另外，Speciale 版本出现输出内容又长又啰嗦的问题，但最终仍然错的情况，这并不是新问题，而是 GRPO 算法本身的固有缺陷。

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图

4.巨shi

来源：https://x.com/Compute_King/status/1996179050012794968实际上，DeepSeek-V3.2 在 Token 消耗方面的异常表现，已经被不少用户与研究者观察到。

5.吃爹巨人

有社区网友指出，Speciale 版本的确具备极强的推理能力，但在实际使用中 Token 消耗速度如喝水般迅速，显著高于同类模型他们评价，如果 DeepSeek-V3.2 Speciale 的生成速度能够从当前的大约 30 tokens/s 提升至 100 tokens/s 左右，那么其综合可用性和使用体验都将获得大幅改善。

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图1

6.巨711

独立分析 AI 模型和托管服务提供商 Artificial Analysis 则表示：「DeepSeek V3.2 在推理模式下比上一代更啰嗦，在运行 AAII（Artificial Analysis Intelligence Index）基准测试时，输出 Token 消耗明显增加，达 8600 万，而上一版本仅为 6200 万。

7.巨ojkがプチ怎么玩

」

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图2

8.巨鳄百科

来源：https://x.com/ArtificialAnlys/status/1996110264102781332「即使是和 Grok 和 Mistral 对比，也是明显看到 DeepSeek V3.2 输出 Token 的延迟。

9.巨犰狳图片

」

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图3

来源：https://x.com/kurtqian/status/1995728391115362529这种情况，DeepSeek 也在技术报告中很坦诚的承认并且做出了数据对比。

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图4

报告中提及，DeepSeek-V3.2-Speciale 的 token 使用效率明显低于 Gemini-3.0-Pro为了降低部署成本并减少推理时延，官方版 DeepSeek-V3.2 的训练过程中施加了更为严格的 token 约束，以期在性能与成本之间取得更优的权衡。

DeepSeek 研究者们表示，token 效率仍将是未来一个至关重要的研究方向DeepSeek 技术报告：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

输出内容又长又啰嗦，GRPO 算法存在缺陷GRPO 算法随着 DeepSeek 的诞生而成为强化学习的黄金范式，相信读者们早就不陌生了我们对 GRPO 的方法基本原理曾有过系统的介绍，建议读者参考我们的科普文章。

早在今年三月份公开的论文《Understanding R1-Zero-Like Training: A Critical Perspective》中，来自 Sea AI Lab 和 NUS 等的研究者们，揭示了 GRPO 算法的两大问题，认为 GRPO 会导致模型有偏置的优化。

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图6

论文标题：Understanding R1-Zero-Like Training: A Critical Perspective论文链接：https://arxiv.org/pdf/2503.20783

Github 链接：https://github.com/sail-sg/understand-r1-zero在 DeepSeek-R1-Zero 的训练过程中，就已有模型的响应长度在整个训练阶段持续增长的现象，而在 DeepSeek-V3.2 Speciale 中仍然存在。

以下公式是经典的 GRPO 损失函数，论文作者很贴心地把影响优化过程的部分标红了：

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图7

GRPO 的目标函数结构中存在了：1. 长度偏置（Length Bias）该偏置来源于目标函数中对每个序列引入的归一化因子：

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（插图8

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（

目录：

1.巨鳐被吃

2.巨晰吃人

3.巨蚺吃人吗

4.巨shi

5.吃爹巨人

6.巨711

7.巨ojkがプチ怎么玩

8.巨鳄百科

9.巨犰狳图片

1.巨鳐被吃

2.巨晰吃人

3.巨蚺吃人吗

4.巨shi

5.吃爹巨人

6.巨711

7.巨ojkがプチ怎么玩

8.巨鳄百科

9.巨犰狳图片

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了（

目录：

1.巨鳐被吃

2.巨晰吃人

3.巨蚺吃人吗

4.巨shi

5.吃爹巨人

6.巨711

7.巨ojkがプチ怎么玩

8.巨鳄百科

9.巨犰狳图片

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复