1.字节 1%

啪!~~~一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图

2.字节kb

毕竟自打DiT问世以来,视频生成这块,算是被它给稳稳拿捏住了但站稳了脚跟,并不意味着没有问题,因为它的计算复杂度高,在资源消耗和速度上有着诸多挑战而这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图1

3.字节=b

像下面这些有趣的动画片片段,便是由InfinityStar亲手打造:

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图2

4.字节2.1

整体来看InfinityStar的亮点,我们可以总结为如下三点:是首个在VBench上超越扩散模型的离散自回归视频生成器;视频生成不用再“慢慢熬”:从百步去噪到自回归,告别延迟;任务通吃:文生图、文生视频、图生视频、交互式长视频生成等。

5.字节 bt

值得一提的是,InfinityStar目前的论文、代码、体验地址均已经发布(链接见文末),接下来我们就进一步实测一波~实测给DiT上了一课的AI视频生成首先我们来简单了解一下InfinityStar的体验方法。

6.字节 mentor

它的入口就在Discord社区里面,大家登录账号之后,点击下面这个链接即可跳转http://opensource.bytedance.com/discord/invite在左侧导航栏的下方面,便有InfinityStar文生视频、图生视频等各种功能的选项。

7.字节project v

像刚才展示的视频,便是在“i2v-generate-horizontal-1”中实现:

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图3

8.字节kite

接下来,我们来一个InfinityStar的文生图和图生视频的联动玩法首先来到“infinity-8b-generate”,输入下图中的提示词来生成几张图片:A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……。

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图4

9.字节 2.2

挑选一张比较满意的图像之后,我们再把图片“喂”到“i2v-generate-horizontal-1”中,配上下面的提示词来生成一段视频:The cat opened its mouth and made a sound, then licked its nose with its tongue.

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图5

10.字节/秒

通过类似的方法,你也可以快速生成各种风格、影视级的镜头:

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图6

包括各种运动场景中,人物的复杂动作也是能hold住:

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图7

另外,正如我们刚才提到的,作为原生自回归模型,InfinityStar还支持交互式长视频生成。

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图8

我们只需要先给一段5s的视频,然后InfinityStar能够接受新的提示词,根据参考视频和新的提示词继续往下生成:为什么能比DiT快这么多?InfinityStar的核心架构,是一个名叫时空金字塔建模的方法,这正是它能把图像、视频任务统一起来,并且比主流扩散模型快一个数量级的关键所在。

整体来看,InfinityStar借鉴了其前作(如VAR和Infinity)在空间维度上的下一尺度预测思想,并将其巧妙地扩展到时空维度;如此一来便弥补了传统方法往往难以在单一模型中同时处理静态图像和动态视频的问题。

其核心设计是将一个视频分解为两个部分1、首帧(外观信息):视频的第一帧被视为一个独立的图像,采用与Infinity模型一致的图像金字塔进行由粗到精的建模这一步专门负责捕捉视频的静态外观信息,如场景、物体和风格。

2、后续片段(动态信息):首帧之后的视频内容被切分为若干个连续的视频片段(Clips)这些片段金字塔在空间维度之外,额外引入了时间维度,专门负责捕捉视频的动态变化,如运动轨迹和镜头变换通过这种“首帧 视频片段”的分解策略,InfinityStar成功地将静态外观和动态信息解耦。

所有这些金字塔内部(尺度之间)和金字塔之间(片段之间)的依赖关系,都由一个强大的时空自回归Transformer进行建模最终,无论是生成图像、生成视频还是图生视频,所有任务都被统一为“预测下一个尺度/下一个片段”的自回归问题,实现了架构的高度统一。

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图9

除了整体框架之外,InfinityStar还有两个关键技术首先是高效的视觉分词器为了让Transformer能够处理视觉信息,首先需要将图像和视频翻译成离散的TokenInfinityStar为此训练了一个基于多尺度残差量化的视觉分词器,并提出了两项关键技术来克服训练难题:。

知识继承 (Knowledge Inheritance)训练一个离散的视觉分词器(Tokenizer)通常非常耗时研究人员发现,相比于从零开始训练,继承一个已预训练的连续视觉分词器(如Video VAE)的结构和权重,能显著加快离散分词器的收敛速度,使其更快达到高保真度的重建水平。

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS25 Oral(插图10

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。