1.华为新开源!扩展内存

今年,文本生成领域迎来了从自回归(Auto-Regressive)向扩散语言模型(Diffusion LM)的重要范式转变然而,长序列训练的不稳定性一直是制约扩散模型发展的核心痛点上下文窗口限制使得模型在处理复杂的数学推理、编程任务,尤其是需要深度推理的「慢思考」场景时,显得捉襟见肘。

2.华为宣布开源

华为近日正式发布 openPangu-R-7B-Diffusion,基于openPangu-Embedded-7B 进行少量数据(800B tokens)续训练,成功将扩散语言模型的上下文长度扩展至 32K。

3.华为发起的开源项目

在「慢思考」能力的加持下,该模型在多个权威基准中创下了 7B 参数量级的全新 SOTA 纪录:多学科知识(MMLU-Pro):超越 16B 参数量的 LLaDA 2.0-mini-preview

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。