1.字节 bt
字节发布了InfinityStar框架,将一段5秒720p高清视频的生成时间,从主流扩散模型的30多分钟,压缩到了58秒并且用一套统一的框架,支持图像生成、文本生成视频、图像生成视频、视频续写等多样化的任务。

2.字节=b
视觉生成赛道的核心架构,已经从U-Net系统性地迁移到了Transformer2022年,Stable Diffusion以一种全新的范式定义了图像生成,它的1.5版本至今仍在消费市场广泛应用2023年,DiT架构诞生,标志着扩散模型正式拥抱Transformer作为骨干网络,这为后来的模型规模化扩展铺平了道路。
3.字节t2
接着,2024年OpenAI的Sora系统,首次向世界展示了DiT架构在视频生成领域的Scaling Law(规模法则)效应,通过将视频切成时空补丁(Spacetime Patch)进行处理,实现了分钟级别的长视频生成。
4.字节kb
这是扩散模型路线的演进另一条路线,自回归模型,也在悄然发展2023年的VideoPoet项目,探索了语言模型在视频生成中的应用潜力,但它受限于视频离散化的质量和生成效率2024年4月,VAR(视觉自回归建模)提出了一种全新的图像生成视角,称之为下一尺度预测。
5.字节范 视频
它不再像传统自回归模型那样一个像素一个像素地预测,而是将预测单位从token级别提升到了特征图(Feature Map)的尺度级别,这极大地提升了生成质量同年12月,Infinity模型在VAR的基础上,引入了比特级建模,将模型的词汇表规模扩展到了惊人的2的64次方。
6.字节 1%
这让它在图像生成任务上,达到了与扩散模型旗鼓相当的性能,同时保持了超过8倍的推理速度优势两条路线都在高歌猛进,但各自的短板也异常清晰基础的扩散模型需要反复执行50到100次去噪步骤,生成一段720p的视频,耗时通常超过30分钟,并且它很难自然地支持视频的续写和外推。
7.字节ka
传统的自回归模型,比如Emu3,需要预测数以万计的token,一次生成延迟高达数分钟,视觉保真度也一直落后于扩散模型视觉质量、生成效率、任务通用性,三者似乎难以兼得InfinityStar打破了这个困境。
8.字节la
它在保证工业级应用所要求的视觉质量的前提下,实现高效的、像水流一样可持续的生成能力视频的本质是时空的分离InfinityStar的架构设计,源于一个对视频数据本质的第一性原理思考视频,并不是一个在时间和空间上均匀分布的数据结构。
9.字节rd
它实际上是一个复合体,由相对静态的外观信息和持续变化的动态运动信息共同构成目前的大多数方法,比如Sora,倾向于将视频视为一个统一的3D数据块进行处理这种方式虽然直观,但却让模型难以将这两种正交的特征——外观与运动——进行解耦学习。
10.字节 兆
模型需要在一个统一的网络里,同时理解一只猫的毛发纹理和它奔跑的姿态,这增加了学习的难度InfinityStar提出了一种截然不同的思路:时空金字塔模型(Spacetime Pyramid Model)

它的核心思想,是显式地将空间尺度的增长与时间维度的扩展分离开来,从而实现一种更符合物理直觉的建模方式具体来说,系统会将一段输入的视频,分解成一连串连续的片段每个片段的长度是固定的,比如5秒钟,以16fps计算,就是80帧。
第一个片段的首帧,会被单独作为一个特殊的片段c₁来处理它的时间长度T=1,专门用来编码视频最核心的静态外观线索,比如场景的布局、物体的材质和颜色从第二个片段开始,所有后续片段都保持T


评论(0)