目录:
1.transformer 多模态
2.多模态建模
3.多模态研究
4.多模态分析软件
5.多模态slam
6.什么是模型微调
7.多模态研究综述
8.多模态分析框架
9.多模态ai
10.多模态设计
1.transformer 多模态
在 AI 技术飞速发展的今天,如何高效地将多个专业模型的能力融合到一个通用模型中,是当前大模型应用面临的关键挑战全量微调领域已经有许多开创性的工作,但是在高效微调领域,尚未有对模型合并范式清晰的指引因此,中科院、中山大学、北京大学的研究团队针对高效微调模型合并,提出了「方向鲁棒性」的概念,首次揭示了参数高效微调(PEFT)模块合并失败的根本原因是「方向不鲁棒」,而非传统认为的「符号冲突」,并提供了一个简单高效、无需额外成本的解决方案(RobustMerge)。
2.多模态建模
对于正在构建能够快速适应多种任务、且节省计算资源的 AI 系统的开发者和研究者来说,这项研究无疑提供了一把关键钥匙,为多模态大模型的高效应用开辟了新的可能性目前,文章被 NeurIPS 2025 接收并评为 Spotlight(Top 3.1%),代码、数据集和模型已全面开源。

3.多模态研究
论文链接: https://arxiv.org/abs/2502.17159代码链接: https://github.com/AuroraZengfh/RobustMerge数据集链接: https://huggingface.co/datasets/AuroraZengfh/MM-MergeBench
4.多模态分析软件
Huggingface Paper: https://huggingface.co/papers/2502.17159问题定义在大模型时代,多模态大模型在提升任务性能的同时大大增加了计算量,由于过高的成本,动辄几十亿的参数使得并不是所有人都可以参与全量微调(Full Fine-Tuning, FFT)。
5.多模态slam
于是,为了节省资源,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT),特别是 LoRA,成了主流其可以通过只更新模型的一小部分参数,达到快速适应下游任务的目的而由于 LoRA 模块参数的有限性,其通常只能适应某一个特定的下游领域。
6.什么是模型微调
如果我们需要为每个任务训练一个专家模型,那么就会有一大堆针对不同任务微调出来的 LoRA 模块,个个都只能解答所在领域的问题这就像拥有一个装满专业工具的箱子,但每次只能使用一件工具,这显然不是所希望的更现实的场景是,怎么把这些模型组合成一个通用模型,处理多种任务,从解答科学问题到识别图像等所有微调的任务呢?传统的方法如多任务学习(Multi-task learning)通过混合所有任务的数据进行训练实现这一点,但这种范式存在两大问题:
7.多模态研究综述
1.训练成本:在所有数据上进行联合训练的过程耗时耗力,成本不可控;2.训练数据:出于安全性和隐私考虑,并不总是能够直接获取到所有的原始数据针对这种情况,模型合并 (Model Merging) 被提出,其通过某种加权融合的方式,可以使得多个在特定领域数据上微调好的专家模型合并成一个通用模型,整个过程既不需要重新训练,也不需使用原始数据,从而以最小的代价完成知识整合,已经被证明在大模型时代具有较好的通用性和泛化性。
8.多模态分析框架
然而,由于两种微调方法参数分布的显著差异,当在 FFT 时代被证明有效的模型合并方法(如 Ties-merging、DARE)被直接用于合并 PEFT 模块时,效果往往大打折扣,有时甚至不如未经微调的 Zero-Shot 模型。

9.多模态ai
图 1 左:FFT 参数和 PEFT 参数分布的显著差异 右:PEFT merge 方法在已见任务和未见任务上的性能比较核心贡献:RobustMerge 针对 PEFT merge 这一问题,探究 PEFT merge 方法少且现有方法性能不佳的原因,找到问题的核心 ——


评论(0)