1.斯坦福与清华

清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Negative-aware FineTuning (DiffusionNFT)。

2.斯坦福清华学霸

该方法首次突破现有 RL 对扩散模型的基本假设,直接在前向加噪过程(forward process)上进行优化,在彻底摆脱似然估计与特定采样器依赖的同时,显著提升了训练效率与生成质量文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。

清华、NVIDIA、斯坦福提出DiffusionNFT:基于前向过程的扩散强化学习新范式,训练效率提升25倍(插图

3.斯坦福厉害还是清华厉害

论文标题:DiffusionNFT: Online Diffusion Reinforcement with Forward Process论文链接:https://arxiv.org/abs/2509.16117

4.北大清华斯坦福

代码仓库:https://github.com/NVlabs/DiffusionNFT背景 | 扩散模型的 RL 困境近年来,强化学习在大语言模型(LLMs)后训练中的巨大成功,催生了人们将类似方法迁移到扩散模型的探索。

5.清华和斯坦福的差距

例如,FlowGRPO 等方法通过将扩散采样过程离散化为多步决策问题,从而在反向过程上应用策略梯度优化然而,这一思路存在多重根本性局限:1.

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。