SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破-源码库

SALMONN 家族在首个通用音频理解模型（ICLR 2024）和首个全要素音视频理解模型 video-SALMONN（ICML 2024）基础上再次迎来重磅扩容，霸榜各大音视频理解榜单！全新一代 video-SALMONN 2/2 、首个开源推理增强型音视频理解大模型 video-SALMONN-o1（ICML 2025）、首个高帧率视频理解大模型 F-16（ICML 2025），以及无文本泄漏基准测试 AVUT（EMNLP 2025）正式发布。

2.salmonpink

新阵容在视频理解能力与评测体系全线突破，全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图

3.salmon (まふゆ)

图像由 Nano-Banana 生成新旗舰登场video-SALMONN 2 video-SALMONN 2 是首个专注于高质量、完整视频描述的音视频大语言模型通过原子事件级的评估体系与 MrDPO 多轮强化学习优化，它大幅减少信息遗漏和幻觉。

4.salmonvgene

在字幕完整性和准确性指标上取得最好结果（SOTA）

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图1

5.salmon dictation

研究团队进一步发现：利用该模型大规模生成高质量描述，并将其反哺新模型训练，不仅能保持强描述能力，还能显著提升问答等音视频理解任务表现最终，video-SALMONN 2 在 Video-MME、 WorldSense、AVUT、Video-Holmes、DailyOmni 等音视频理解榜单，MLVU、LVBench 等静音视频理解榜单上全面领先。

6.salmon软件

72B 版本整体性能超越 GPT-4o、Google Gemini 1.5 Pro 等闭源巨头得益于对音频模态的同步利用，video-SALMONN 2 系列在 Video-MME 等榜单上，无字幕（端到端真实系统）与有字幕（外挂人工标注或商业语音识别系统生成的理想字幕）之间的性能差距小于 2%。

7.salmon fillets

这表明音视频联动能有效增强语义理解能力，并能在无人工字幕的视频与具身机器人等场景中具有明显优势

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图2

8.salmon patches

研究团队首先以 Qwen 2.5-VL 7B 为底座构建音视频模型，经上述音视频训练流程及 MrDPO 训练得到 video-SALMONN 2 7B随后，利用该模型对更大规模的音视频数据进行高质量描述标注，并以此为数据源，训练基于 Qwen 2.5-VL 3B/72B 的音视频大模型，最终获得 video-SALMONN 2 3B/72B。

9.salmon steak

实验显示，相比仅用原始标注数据训练的基线，新模型在视频理解能力上实现了全面提升

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图3

10.salmon arm

Video-MME 数据集上的消融实验结果结果验证了该的技术路径有效性：高描述能力模型可充当高质量训练数据的 “生成器”，为更强音视频理解模型提供可靠的数据基础，推动模型持续迭代与性能跃升推理增强，让模型真正看懂。

video-SALMONN-o1（ICML 2025）

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图4

问题：表演者为什么想成为黑山公民？选择：A. 因为黑山是个美丽的国家B. 因为他想住在一个名字匹配他肤色的国家C. 他想成为一座山D. 他觉得黑山的人都很有吸引力E. 他觉得这个国家的名字听起来很酷video-SALMONN-o1 推理：

喜剧演员说欧洲有一个国家叫做黑山然后他重复了一遍这个名字，强调它的独特性：“有一个满是白人的国家，叫做黑山”他表示自己很想成为其中一员，甚至开玩笑说要把国籍改成黑山他想成为黑山公民的理由是：那是一个美丽的地方，而且名字与他的肤色相符。

因此，答案是 B. 他想生活在一个与自己肤色相符的国家

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图6

问题：表演者谈到了直男在照片中的习惯为什么观众会笑呢？请从以下选项中选择：A. 表演者的衬衫很好笑B. 表演者让观众想起了他们的朋友C. 观众感到被冒犯了，于是尴尬地笑了D. 表演者是女性，觉得取笑直男很有趣。

E. 光是想象就觉得好笑，而表演者还把它演出来了video-SALMONN-o1 推理：表演者在开直男的玩笑，说他们拍照时喜欢抬着下巴摆姿势然后他亲自模仿了这种姿势，并加以夸张来制造喜剧效果观众之所以发笑，是因为他们能够产生共鸣，并觉得这种摆姿势的行为本身就很滑稽。

因此，答案是 E. 光是想象就觉得好笑，而表演者还把它演出来了。

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图8

问题：这个视频里有什么笑话以及为什么好笑？请逐步详细分析video-SALMONN-o1 推理：笑点在于：美国副总统乔・拜登写了一本自传说话者（很可能是个喜剧演员或观众）说他觉得这本书比实际好得多这很有趣，因为它利用了一个常见的观念 —— 政治人物往往会把自己描绘得比他们真正值得的更正面。

说话者暗示拜登的自传好得令人难以置信，这是一种对情境的幽默夸张在脱口秀等复杂视频中，深层理解不仅依赖于音频与视觉的联合感知，还需要在此基础上开展多步推理video-SALMONN-o1 是首个推理增强的开源音视频大语言模型：相较于同类开源系统直接输出答案，它可以同时接收音频与视频输入，执行基于证据的逐步推理并给出结论，实现结果与理由的一致性。

实验观察表明，针对数学 / 编程的文本推理优化，或以图文为主的推理范式，难以有效泛化至音视频理解；video-SALMONN-o1 以音视频原生的过程监督与推理优化，拓宽了推理的应用边界，使大模型能以推理为核心更全面地理解物理世界。

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破插图10

问题：双胞胎研究如何分离

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破

目录：

1.salmon.

2.salmonpink

3.salmon (まふゆ)

4.salmonvgene

5.salmon dictation

6.salmon软件

7.salmon fillets

8.salmon patches

9.salmon steak

10.salmon arm

1.salmon.

2.salmonpink

3.salmon (まふゆ)

4.salmonvgene

5.salmon dictation

6.salmon软件

7.salmon fillets

8.salmon patches

9.salmon steak

10.salmon arm

评论(0)

提示：请文明发言取消回复

推荐资源

蓝色大气化工滤料石材磨料生产厂家pbootcms模板

户外广告公司网站源码营销型户外岗亭网站PbootCms模板

小程序电商软件开发公司pbootcms模板[pc+wap]

注册记账财务会计公司注册类网站源码pbootcms模板

绿色生态农业企业网站pbootcms模板

大型农业机械设备类网站pbootcms模板

袜子生产定制针织袜业网站源码pbootcms模板

响应式文化传媒公司娱乐主播直播培训类网站源码pbootcms模板

SALMONN 系列音视频理解大模型霸榜回归！推理增强、高帧率、无文本泄漏全线突破

目录：

1.salmon.

2.salmonpink

3.salmon (まふゆ)

4.salmonvgene

5.salmon dictation

6.salmon软件

7.salmon fillets

8.salmon patches

9.salmon steak

10.salmon arm

评论(0)

提示：请文明发言 取消回复

相关文章

推荐资源

分类目录

提示：请文明发言取消回复