目录:
1.多模态算法模型
2.多模态的应用
3.多模态研究的意义
4.多模态分析是什么意思
5.多模态理论
6.多模态包括哪些模态
7.多模态的定义
8.多模态的理论基础
9.多模态的研究现状
10.多模态分析
1.多模态算法模型
本系列工作核心作者: 郭海洋(自动化所博士生)、 朱飞 (中科院香港院AI中心AP)、 曾繁虎 (自动化所硕士生)、 刘文卓 (自动化所博士生)、 赵宏博 (自动化所博士生)通讯作者为自动化所博士生导师张煦尧研究员和刘成林研究员。
2.多模态的应用
团队长期从事人工智能研究,成果发表于 CVPR、ICCV、NeurIPS、ICLR、ACL、TPAMI、IJCV 等国际顶级会议与期刊近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战。
3.多模态研究的意义
为了应对这一问题,中国科学院自动化研究所联合中国科学院香港院 AI 中心系统性地研究了生成式 AI 和多模态大模型的持续学习,提出了一系列综述、方法、Benchmark 和 Codebase,为相关领域的研究者和实践者提供了全面支持。
4.多模态分析是什么意思
生成式 AI 的持续学习综述论文:Continual Learning for Generative AI: From LLMs to MLLMs and Beyond

5.多模态理论
论文链接:https://arxiv.org/pdf/2506.13045项目主页:https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models
6.多模态包括哪些模态
研究动机:以大模型为代表的生成式 AI 模型的快速发展让现代智能系统具备了理解和生成复杂内容的能力,甚至在部分领域达到了接近人类的表现然而,这些模型依旧面临着“灾难性遗忘”问题,即在学习新任务时,往往会导致已学任务性能的显著下降。
7.多模态的定义
为解决这一挑战,大量的研究提出了多种方法以增强生成式 AI 在实际应用中的适应性和扩展性本文系统性地综述了生成式 AI 的持续学习方法,涵盖大语言模型(LLMs)、多模态大语言模型(MLLMs)、视觉语言动作模型(VLA)和扩散模型(Diffusion Models)。

8.多模态的理论基础
图 1:生成式 AI 中的持续学习示意图研究内容:本文围绕生成式 AI 的持续学习问题,系统性地综述了不同模型的训练目标、应用场景及技术方法研究涵盖大语言模型在理解与生成中的知识保留与任务适应、多模态大模型处理跨模态数据时的抗遗忘能力、视觉语言动作模型在机器人动态环境中的行为迁移与适应,以及扩散模型针对个性化生成需求的增量学习。
9.多模态的研究现状
这些模型的持续学习方法主要包括架构扩展、正则化和回放策略,旨在平衡新任务学习与旧任务性能的保持此外,研究还探讨了评估指标(整体性能、遗忘程度、泛化能力)和未来方向(高效机制、强化学习范式、多模态扩展等),为生成式 AI 的持续学习提供了全面参考。

10.多模态分析
图 2:持续学习方法分类图多模态大模型持续学习:Benchmark 与方法传统的持续学习任务多聚焦于单模态场景,如图像或文本分类,但随着应用需求的复杂化,多模态任务逐渐成为核心为此,我们提出了一系列新的 Benchmark 和方法,旨在推动多模态大模型持续学习的发展。
论文 1:[ACL 2025] HiDe-LLaVA: Hierarchical Decoupling for Continual Instruction Tuning of Multimodal Large Language Model

论文链接:https://arxiv.org/pdf/2503.12941代码链接:https://github.com/Ghy0501/HiDe-LLaVA数据链接:https://huggingface.co/datasets/HaiyangGuo/UCIT
研究动机:本文认为当前的多模态大模型的持续学习面临两大关键挑战:一是现有评测基准普遍存在与预训练数据重叠的问题,导致评估结果失真;二是传统方法难以平衡新任务学习与旧任务遗忘之间的矛盾为此,本研究提出构建全新的


评论(0)