32倍加速，58秒搞定720p视频！字节发布离散自回归框架，统一视觉生成和长视频生成-源码库

视觉生成赛道的核心架构，已经从U-Net系统性地迁移到了Transformer2022年，Stable Diffusion以一种全新的范式定义了图像生成，它的1.5版本至今仍在消费市场广泛应用2023年，DiT架构诞生，标志着扩散模型正式拥抱Transformer作为骨干网络，这为后来的模型规模化扩展铺平了道路。

3.字节t2

接着，2024年OpenAI的Sora系统，首次向世界展示了DiT架构在视频生成领域的Scaling Law（规模法则）效应，通过将视频切成时空补丁（Spacetime Patch）进行处理，实现了分钟级别的长视频生成。

4.字节kb

这是扩散模型路线的演进另一条路线，自回归模型，也在悄然发展2023年的VideoPoet项目，探索了语言模型在视频生成中的应用潜力，但它受限于视频离散化的质量和生成效率2024年4月，VAR（视觉自回归建模）提出了一种全新的图像生成视角，称之为下一尺度预测。

5.字节范视频

它不再像传统自回归模型那样一个像素一个像素地预测，而是将预测单位从token级别提升到了特征图（Feature Map）的尺度级别，这极大地提升了生成质量同年12月，Infinity模型在VAR的基础上，引入了比特级建模，将模型的词汇表规模扩展到了惊人的2的64次方。

6.字节 1%

这让它在图像生成任务上，达到了与扩散模型旗鼓相当的性能，同时保持了超过8倍的推理速度优势两条路线都在高歌猛进，但各自的短板也异常清晰基础的扩散模型需要反复执行50到100次去噪步骤，生成一段720p的视频，耗时通常超过30分钟，并且它很难自然地支持视频的续写和外推。

7.字节ka

传统的自回归模型，比如Emu3，需要预测数以万计的token，一次生成延迟高达数分钟，视觉保真度也一直落后于扩散模型视觉质量、生成效率、任务通用性，三者似乎难以兼得InfinityStar打破了这个困境。

8.字节la

它在保证工业级应用所要求的视觉质量的前提下，实现高效的、像水流一样可持续的生成能力视频的本质是时空的分离InfinityStar的架构设计，源于一个对视频数据本质的第一性原理思考视频，并不是一个在时间和空间上均匀分布的数据结构。

9.字节rd

它实际上是一个复合体，由相对静态的外观信息和持续变化的动态运动信息共同构成目前的大多数方法，比如Sora，倾向于将视频视为一个统一的3D数据块进行处理这种方式虽然直观，但却让模型难以将这两种正交的特征——外观与运动——进行解耦学习。

10.字节兆

模型需要在一个统一的网络里，同时理解一只猫的毛发纹理和它奔跑的姿态，这增加了学习的难度InfinityStar提出了一种截然不同的思路：时空金字塔模型（Spacetime Pyramid Model）

32倍加速，58秒搞定720p视频！字节发布离散自回归框架，统一视觉生成和长视频生成插图1

它的核心思想，是显式地将空间尺度的增长与时间维度的扩展分离开来，从而实现一种更符合物理直觉的建模方式具体来说，系统会将一段输入的视频，分解成一连串连续的片段每个片段的长度是固定的，比如5秒钟，以16fps计算，就是80帧。

第一个片段的首帧，会被单独作为一个特殊的片段c₁来处理它的时间长度T=1，专门用来编码视频最核心的静态外观线索，比如场景的布局、物体的材质和颜色从第二个片段开始，所有后续片段都保持T

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

32倍加速，58秒搞定720p视频！字节发布离散自回归框架，统一视觉生成和长视频生成

目录：

1.字节 bt

2.字节=b

3.字节t2

4.字节kb

5.字节范视频

6.字节 1%

7.字节ka

8.字节la

9.字节rd

10.字节兆

1.字节 bt

2.字节=b

3.字节t2

4.字节kb

5.字节范视频

6.字节 1%

7.字节ka

8.字节la

9.字节rd

10.字节兆

评论(0)

提示：请文明发言取消回复

推荐资源

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

32倍加速，58秒搞定720p视频！字节发布离散自回归框架，统一视觉生成和长视频生成

目录：

1.字节 bt

2.字节=b

3.字节t2

4.字节kb

5.字节范 视频

6.字节 1%

7.字节ka

8.字节la

9.字节rd

10.字节 兆

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

5.字节范视频

10.字节兆

提示：请文明发言取消回复