1.谢赛克简介
存在 10 多年后,VAE(变分自编码器)时代终于要淘汰了吗?就在今天,纽约大学助理教授谢赛宁团队放出了新作 ——VAE 的替代解决方案 ——RAE(Representation Autoencoders,表征自编码器)。
2.谢赛克比赛视频
他表示,三年前,DiT(Diffusion Transformer) 用基于 Transformer 的去噪骨干网络取代了传统的 U-Net那时候就知道,笨重的 VAE 迟早也会被淘汰如今,时机终于到了。

3.谢赛月资料
谢赛宁进一步做出了解释,DiT 虽然取得了长足的进步,但大多数模型仍然依赖于 2021 年的旧版 SD-VAE 作为其潜空间基础这就带来了以下几个主要问题:过时的骨干网络使架构比实际需要的更复杂:SD-VAE 的计算量约为 450 GFLOPs,而一个简单的 ViT-B 编码器只需要大约 22 GFLOPs。
4.赛宁 谢峥
过度压缩的潜空间(只有 4 个通道)限制了可存储的信息量:人们常说压缩带来智能,但这里并非如此:VAE 式压缩实际上作用有限,几乎和原始的三通道像素一样受限表征能力弱:由于仅使用重建任务进行训练,VAE 学到的特征很弱(线性探针精度约 8%),这会导致模型收敛更慢、生成质量下降。
5.谢赛璐简介
我们现在已经很清楚 —— 表征质量直接影响生成质量,而 SD-VAE 并不是为此而设计的因此,谢赛宁团队将预训练的表征编码器(如 DINO、SigLIP、MAE)与训练好的解码器相结合,以取代传统的 VAE,形成了一种新的结构 —— 表征自编码器(RAE)。
6.谢赛克老婆
这种模型既能实现高质量的重建,又能提供语义丰富的潜空间,同时具备可扩展的 Transformer 架构特性由于这些潜空间通常是高维的,一个关键的挑战在于如何让 DiT 能够在其中高效地运行从原理上来说,将 DiT 适配到这些高维语义潜空间是可行的,但需要经过精心的设计。
7.谢赛定 鄞州简历
最初的 DiT 是为紧凑的 SD-VAE 潜空间而设计的,当面对高维潜空间时会遇到多方面的困难,包括 Transformer 结构问题、噪声调度问题、解码器鲁棒性问题为此,研究者提出了一种新的 DiT 变体 ——DiT^DH,它受到了


评论(0)