1.跨模态 transformer

本文第一作者是中国人民大学高瓴人工智能学院 2021 级博士生王希华(导师宋睿华),他的主要研究兴趣方向是多模态生成本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。

2.跨模态数据

背景:从「噪声到声音」到「视频到声音」在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态早期的 V2A 方法采用自回归(Auto-Regressive)的方式将视频特征作为前缀来逐个生成音频 token,或者以掩码预测(Mask-Prediction)的方式并行地预测音频 token,逐步生成完整音频。

3.跨模态reid

这两种方法都依赖于音频的离散化表示,而离散化处理往往由于信息损失会限制音质上限最近主流方法大多采用扩散模型或流匹配架构,通过「从噪声生成音频」的方式来实现视频驱动的声音合成这种方式不依赖离散 token 表征,直接在连续的隐空间进行建模。

4.跨模态迁移

通过采样随机噪声,并将视频信息作为条件,模型从噪声中逐步去噪,最终生成音频但是这样的范式仍然存在两个天然瓶颈:同一视频条件下的多对一映射:在训练阶段,模型被训练从不同的采样噪声中预测同一个音频,多对一的映射关系增加了训练难度;推理阶段,由于不同噪声样本通过 ODE 求解得到的推理结果差异较大,生成的音频质量难以保持一致,甚至出现「抽奖」现象。

5.跨模态检索算法实现

不同视频条件下的一对多映射:在训练和推理阶段,模型被要求从相同的采样噪声出发只根据不同视频条件生成不同的音频,这要求模型具备极强的条件处理能力。

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」(插图

6.什么是跨模态检索

主流扩散模型或流匹配架构的挑战因此,模型需要从随机噪声中逐步「听懂」视频,这一过程依赖复杂的条件机制,导致路径复杂、训练低效且生成结果不稳定在这一背景下,中国人民大学宋睿华带领的 AIMind 团队与值得买科技 AI 团队提出了一个全新的框架 ——

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。