1.srp华南理工大学

从Stable Diffusion的文生图到Sora的文生视频,扩散模型凭借其卓越的生成质量始终占据着图像和视频生成领域的主导地位然而,这种高质量的生成往往伴随着巨大的代价(包括最近的扩散语言模型),它需要通过数十甚至上百步的迭代,从纯噪声中逐步恢复图像。

2.theol华南理工

这就带来了两个让业界头疼的核心矛盾:推理效率与质量的博弈:想快(减少步数),画质就崩;想画质好,就得忍受漫长的生成时间理论与实践的割裂:为了加速,业界提出了各种基于微分方程(ODE)的求解器(如DPM-Solver)。

3.华南理理工

但这些方法往往更像是一种「数值近似技巧」,缺乏对扩散过程本质的解释例如,为什么某些参数化方法(如预测噪声)效果不如预测数据?我们到底在优化什么?更棘手的是,现有的许多SOTA加速算法(如LD3,DPM-Solver-v3)都依赖于

4.华南理工大学cp

参考轨迹(Reference Trajectory)进行优化或者蒸馏也就是说,为了优化这10步的生成路径,你需要先跑一遍高精度的路径 (比如200步下的结果) 作为「参考答案」在实际应用中,不仅增加了巨大的计算开销,也限制了基础模型的。

5.华南理工大学usnews

泛化能力。华南理工大学「统计推断,数据科学与人工智能」团队提出的EVODiff,正是为了解决这两种核心的问题,不再修补ODE求解器的数值误差,而是回到了扩散模型的物理本源——熵(Entropy)。

NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA(插图

6.华南理工cs

论文链接:https://openreview.net/forum?id=rKASv92MylEVODiff的核心洞察非常深刻:扩散模型的去噪过程,本质上就是一个不断减少不确定性、恢复信息的过程。

NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA(插图1

7.ipp华南理工大学

EVODiff的熵减路径的直观理解在物理学中,熵代表系统的混乱程度前向扩散过程是向图像中加噪,熵不断增加;反向去噪过程则是从混乱中恢复秩序,条件熵(Conditional Entropy)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。