视频模型原生支持动作一致，只是你不会用！揭开「首帧」的秘密-源码库

论文的核心洞察非常大胆：视频生成模型会自动把首帧中的角色、物体、纹理、布局等视觉实体，全部「记住」，并在后续帧中不断复用换句话说，不论你给多少参考物体，模型都会在第一帧悄悄把它们打包成一个「概念蓝图（blueprint）」。

研究者用Veo3、Sora2、Wan2.2等视频模型测试发现：若首帧出现多对象组合, 在很少的情况下，通过使用特殊的转场提示词，模型在后续帧里能自然融合它们, 甚至能支持跨场景转场、保持角色属性一致；

但是这个神奇的转场提示词对于每个模型，每个要生成的视频都是不一样的，而且模型在转场融合多物体后常常会产生物体，场景一致性损失，或者物体丢失的问题。

视频模型原生支持动作一致，只是你不会用！揭开「首帧」的秘密插图2

这说明：✔ 第一帧是模型「记忆」外来参考的地方

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

视频模型原生支持动作一致，只是你不会用！揭开「首帧」的秘密