1.巨鳐被吃

DeepSeek 一发布模型,总会引起业内的高度关注与广泛讨论,但也不可避免的暴露出一些小 Bug比如老外用英文询问,它却在思考过程中切回「神秘的东方文字」当然,DeepSeek 模型对汉字「情有独钟」的情况早已出现,「极」字 Bug 就是典型例子。

2.巨晰吃人

而这一次,随着新模型 DeepSeek-V3.2 的发布,大家又发现了 DeepSeek 需要优化的地方:其长思考版本(Speciale)暴露出一些 Token 使用效率不佳的问题根据多位研究者反馈,DeepSeek-V3.2 Speciale 在处理复杂任务时出现明显的 Token 消耗异常。

3.巨蚺吃人吗

具体表现为:在相同任务上,Gemini 只消耗 2 万 Token,DeepSeek-V3.2 Speciale 却用了 7.7 万,也就是说,它需要 3 倍以上的 Token 才能输出类似质量的结果另外,Speciale 版本出现输出内容又长又啰嗦的问题,但最终仍然错的情况,这并不是新问题,而是 GRPO 算法本身的固有缺陷。

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图

4.巨shi

来源:https://x.com/Compute_King/status/1996179050012794968实际上,DeepSeek-V3.2 在 Token 消耗方面的异常表现,已经被不少用户与研究者观察到。

5.吃爹巨人

有社区网友指出,Speciale 版本的确具备极强的推理能力,但在实际使用中 Token 消耗速度如喝水般迅速,显著高于同类模型他们评价,如果 DeepSeek-V3.2 Speciale 的生成速度能够从当前的大约 30 tokens/s 提升至 100 tokens/s 左右,那么其综合可用性和使用体验都将获得大幅改善。

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图1

6.巨711

独立分析 AI 模型和托管服务提供商 Artificial Analysis 则表示:「DeepSeek V3.2 在推理模式下比上一代更啰嗦,在运行 AAII(Artificial Analysis Intelligence Index)基准测试时,输出 Token 消耗明显增加,达 8600 万,而上一版本仅为 6200 万。

7.巨ojkがプチ怎么玩

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图2

8.巨鳄百科

来源:https://x.com/ArtificialAnlys/status/1996110264102781332「即使是和 Grok 和 Mistral 对比,也是明显看到 DeepSeek V3.2 输出 Token 的延迟。

9.巨犰狳图片

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图3

来源:https://x.com/kurtqian/status/1995728391115362529这种情况,DeepSeek 也在技术报告中很坦诚的承认并且做出了数据对比。

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图4DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图5

报告中提及,DeepSeek-V3.2-Speciale 的 token 使用效率明显低于 Gemini-3.0-Pro为了降低部署成本并减少推理时延,官方版 DeepSeek-V3.2 的训练过程中施加了更为严格的 token 约束,以期在性能与成本之间取得更优的权衡。

DeepSeek 研究者们表示,token 效率仍将是未来一个至关重要的研究方向DeepSeek 技术报告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

输出内容又长又啰嗦,GRPO 算法存在缺陷GRPO 算法随着 DeepSeek 的诞生而成为强化学习的黄金范式,相信读者们早就不陌生了我们对 GRPO 的方法基本原理曾有过系统的介绍,建议读者参考我们的科普文章。

早在今年三月份公开的论文《Understanding R1-Zero-Like Training: A Critical Perspective》中,来自 Sea AI Lab 和 NUS 等的研究者们,揭示了 GRPO 算法的两大问题,认为 GRPO 会导致模型有偏置的优化。

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图6

论文标题:Understanding R1-Zero-Like Training: A Critical Perspective论文链接:https://arxiv.org/pdf/2503.20783

Github 链接:https://github.com/sail-sg/understand-r1-zero在 DeepSeek-R1-Zero 的训练过程中,就已有模型的响应长度在整个训练阶段持续增长的现象,而在 DeepSeek-V3.2 Speciale 中仍然存在。

以下公式是经典的 GRPO 损失函数,论文作者很贴心地把影响优化过程的部分标红了:

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图7

GRPO 的目标函数结构中存在了:1. 长度偏置(Length Bias)该偏置来源于目标函数中对每个序列引入的归一化因子:

DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了(插图8

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。