1.何恺明简介
无需任何预训练教师模型的蒸馏,完全从零开始训练,仅需一步实现1.72 FID的图像生成质量。

2.何凯明 moco
卡内基梅隆大学,麻省理工学院,Adobe公司,清华大学团队提出的改进版平均流(Improved Mean Flows,简称iMF),证明了不依赖复杂的蒸馏管道,直接通过改进数学训练目标和模型架构,就能训练出超越蒸馏模型的一步生成器。
3.何凯明博士简介
这一突破不仅大幅简化了训练流程,更将生成质量提升到了新的高度,相对前代方法实现了50%的性能飞跃。

4.何恺源简介
扩散模型(Diffusion Models)与流匹配(Flow Matching)在生成式AI领域占据统治地位,其生成质量令人惊叹,但计算成本高昂传统的生成过程类似求解微分方程,需要数十步甚至上百步的迭代,这使得推理速度成为瓶颈。
5.何恺明有多厉害
为了解决这一问题,业界普遍采用蒸馏技术,即先训练一个强大的多步教师模型,再将其压缩为一个少步的学生模型这种方法虽然有效,但流程繁琐,且受限于教师模型的上限iMF颠覆了这一现状何恺明团队今年5月提出平均流(MeanFlow ,简称MF) ,下图是iMF和MF的比较。

6.何恺明国籍
原始MF的目标依赖网络自身预测,导致回归不稳定iMF将目标重构为对瞬时速度v的回归,使得输入纯粹且合法,移除了对未知量的依赖回归训练目标的缺陷与数学重构原始的MeanFlow框架极具开创性,它试图直接学习跨越时间步的平均速度场,从而实现从噪声到数据的单步跳跃。
7.何恺明在哪里工作
这种快进思维在物理模拟中并不陌生,将其引入生成模型是一个精妙的构想MeanFlow通过一个恒等式建立了瞬时速度与平均速度之间的微分关系,试图以此绕过繁琐的积分过程这一理论在实践中遇到了巨大的阻碍原始MeanFlow的训练目标存在一种隐蔽的自指现象。
8.如何评价何恺明
在训练过程中,网络试图预测平均速度,但构建这个训练目标本身又需要用到网络对平均速度的预测这种我预测我自己的循环,导致回归目标不再是一个固定的真值,而是一个随着网络参数更新而不断移动的靶子从回归分析的角度看,这是一个非标准的回归问题。
9.resnet 何恺明
网络的输入不仅包含了合法的带噪数据z,还被迫引入了条件速度e-x。这意味着网络在训练时看到了答案的一部分。这种信息泄露虽然在数学推导上看似成立,但在优化过程中会导致损失函数的方差极大,极不稳定。

实验数据清晰地记录了这一现象:原始MeanFlow的损失曲线震荡严重且无法有效下降,模型虽然勉强学会了生成,但远未达到最优状态iMF团队对这一问题进行了手术刀式的修正他们没有抛弃MeanFlow的核心思想,而是转换了求解方向。
既然直接回归平均速度困难重重,不如回归瞬时速度在流匹配的框架下,瞬时速度的真值是非常明确的,即噪声与数据的差值e-x这是一个固定、清晰且不依赖网络状态的锚点研究人员利用MeanFlow恒等式,构建了一个参数化的复合函数。
这个函数内部依然通过神经网络预测平均速度,并计算其对时间的导数(雅可比-向量积,JVP),但在最外层,它被包装成对瞬时速度的估计这种数学上的等价变换带来了质的改变训练目标变回了标准的流匹配损失函数将一个非标准的、不稳定的移动目标回归问题,转化为了一个标准的、稳定的监督学习问题。
这一改变的效果立竿见影原本震荡发散的损失函数变得平滑且稳步下降,模型训练的稳定性得到了根本保障更重要的是,这种方法保留了学习平均速度带来的快进能力,使得模型依然具备一步生成的特性,同时享受了标准流匹配训练的稳定性。
动态制导机制释放推理潜力除了训练目标的数学重构,iMF在制导机制上也进行了大刀阔斧的改革无分类器制导(Classifier-Free Guidance, CFG)是提升生成图像质量的关键技术,它通过调节制导比例(Scale),在样本多样性和图像保真度之间寻找平衡。
在原始的MeanFlow以及许多一步生成模型中,为了简化训练或推理,CFG比例通常在训练前就被固定下来。这意味着模型被训练为只能在某一个特定的制导强度下工作。这种做法极大地限制了模型的灵活性。

实验数据表明,最优的CFG比例并不是一成不变的它与模型的大小、训练的时长、甚至推理时的步数都密切相关一个训练得更充分的大模型,往往倾向于使用较小的制导比例;而较弱的模型可能需要更强的制导来保证物体结构的完整性。
如果强行固定一个预设值,模型就注定无法在推理阶段发挥出最佳性能iMF提出了一种将制导比例视为条件的动态机制在iMF的训练过程中,CFG比例不再是一个固定的超参数,而是一个随机采样的输入变量网络学会了在不同的制导强度下预测相应的速度场。
这种设计赋予了推理阶段极大的自由度用户不需要重新训练模型,就可以在推理时随意调整CFG比例,搜索最适合当前任务的甜点值对于一步生成这种对精度要求极高的任务,能够微调CFG比例往往意味着FID分数的显著提升。
随着训练轮次的增加,模型的最优CFG比例发生了明显的漂移固定的制导策略会不仅会错失这些性能提升的机会,甚至可能导致模型在训练后期性能退化iMF的动态制导机制让模型能够适应自身的进化,始终运行在最佳工作点。
这种条件化的思想还被扩展到了CFG区间技术中有时我们只希望在生成过程的某一个时间段内开启制导,而在其他时间段关闭,以获得更好的效果iMF将开启和关闭的时间点也作为条件输入网络,使得单步模型也能模拟这种复杂的多步策略行为,进一步挖掘了生成质量的潜力。
上下文条件架构带来的效率革命在解决了数学目标和制导机制后,iMF团队将目光投向了模型架构本身现代生成模型通常基于Transformer架构,处理各种条件信息(如时间步、类别标签)的标准做法是使用自适应层归一化(adaLN-zero)。
adaLN-zero模块虽然有效,但极其笨重它需要将所有条件压缩为一个向量,然后通过多层感知机(MLP)预测出每一个Transformer层所需的缩放和偏移参数随着模型深度的增加,adaLN模块占据的参数量迅速膨胀,甚至可以占到模型总参数量的相当一部分。
当引入了动态CFG比例、CFG时间区间等更多条件后,这种单一向量调制的瓶颈愈发明显简单地将所有条件相加或拼接后输入adaLN,可能会导致信息在压缩过程中丢失,且让该模块不堪重负iMF引入了上下文条件(In-Context Conditioning)机制,彻底摒弃了adaLN-zero。
这一设计的灵感来源于大语言模型对Token的处理方式既然图像是Token,为什么条件不能是Token?在iMF架构中,时间、类别、CFG比例、CFG区间等所有条件,都被独立映射为一组Token这些条件Token不再是幕后的参数调制者,而是直接被拼接到图像Token序列的前端,作为输入的一部分进入Transformer。

这种万物皆Token的设计带来了双重红利在效率方面,移除adaLN-zero使得模型参数量大幅下降以基础版模型(Base)为例,参数量从133M骤降至89M,减少了三分之一这让模型变得更加轻量化,训练和推理的算力效率更高。
在性能方面,尽管参数量减少了,生成质量却不降反升。

实验显示,使用上下文条件的89M模型,其FID分数达到了4.09,优于使用adaLN的133M模型的4.57这说明通过Transformer自带的自注意力机制(Self-Attention),图像Token能够更精细、更有效地与条件Token进行交互,捕捉条件信息对生成内容的深层影响。
这种架构的简洁性还体现在对初始化策略的优化上传统的adaLN-zero依赖于零初始化来保证训练初期的稳定性在移除该模块后,iMF采用了一种特定的高斯初始化策略,使得残差块在初始状态下依然近似恒等映射,保证了深层网络训练的顺利启动。
SOTA级生成质量与实验验证iMF的一系列改进最终体现在了硬核的实验数据上。在ImageNet 256×256这一标准的基准测试中,iMF展现了统治级的表现。

对于最具挑战性的一步生成(1-NFE)任务,iMF-XL/2模型取得了1.72的FID分数这一成绩不仅刷新了无蒸馏模型的记录,更是将原始MeanFlow的3.43 FID提升了整整50%与那些依赖预训练模型进行蒸馏的方法相比,iMF同样占据优势。

例如,基于蒸馏的FACM模型FID为1.76,DMF为2.16iMF证明了通过正确的数学建模和架构设计,从零训练的模型完全可以超越复杂的蒸馏模型对比生成对抗网络(GAN),iMF的优势更加明显著名的BigGAN仅能达到6.95的FID,StyleGAN-XL也停留在2.30。
iMF将生成质量推进到了一个新的数量级

训练曲线生动地展示了每一个改进点的贡献从原始MeanFlow基线开始,引入V-Loss目标重构让曲线下移,加入灵活CFG条件进一步压低误差,最后替换为上下文条件架构让性能再次跃升在视觉质量上,iMF生成的图像彻底告别了早期一步生成模型常见的模糊和伪影。

图中展示的样本中,无论是鸟类羽毛的纹理、花盆的几何结构,还是湖畔风景的光影变化,都表现得细腻逼真这些图像是在没有任何后期筛选的情况下直接生成的,充分说明了模型分布的鲁棒性当我们将步数放宽到两步(2-NFE)时,iMF的性能进一步提升至1.54 FID。
这已经非常接近那些计算昂贵的多步扩散模型(如SiT-XL/2 REPA的1.42 FID),证明了iMF所学习到的速度场具有极高的精度,能够有效利用额外的计算资源来精细化结果长久以来,人们认为快与好在生成模型中是不可兼得的,或者必须通过复杂的教师-学生蒸馏流程来妥协。
iMF用严谨的数学推导和工程实践告诉我们,只要找对了优化目标和模型架构,从零开始训练一个极速且高质量的生成模型是完全可行的iMF是一个无需蒸馏、高效强力的新一代生成模型框架它为未来的实时生成应用奠定了坚实的理论和实践基础。


评论(0)