1.salmon.

SALMONN 家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型 video-SALMONN(ICML 2024)基础上再次迎来重磅扩容,霸榜各大音视频理解榜单!全新一代 video-SALMONN 2/2 、首个开源推理增强型音视频理解大模型 video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型 F-16(ICML 2025),以及无文本泄漏基准测试 AVUT(EMNLP 2025) 正式发布。

2.salmonpink

新阵容在视频理解能力与评测体系全线突破,全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图

3.salmon (まふゆ)

图像由 Nano-Banana 生成新旗舰登场video-SALMONN 2 video-SALMONN 2 是首个专注于高质量、完整视频描述的音视频大语言模型通过原子事件级的评估体系与 MrDPO 多轮强化学习优化,它大幅减少信息遗漏和幻觉。

4.salmonvgene

在字幕完整性和准确性指标上取得最好结果(SOTA)

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图1

5.salmon dictation

研究团队进一步发现:利用该模型大规模生成高质量描述,并将其反哺新模型训练,不仅能保持强描述能力,还能显著提升问答等音视频理解任务表现最终,video-SALMONN 2 在 Video-MME、 WorldSense、AVUT、Video-Holmes、DailyOmni 等音视频理解榜单,MLVU、LVBench 等静音视频理解榜单上全面领先。

6.salmon软件

72B 版本整体性能超越 GPT-4o、Google Gemini 1.5 Pro 等闭源巨头得益于对音频模态的同步利用,video-SALMONN 2 系列在 Video-MME 等榜单上,无字幕(端到端真实系统)与有字幕(外挂人工标注或商业语音识别系统生成的理想字幕)之间的性能差距小于 2%。

7.salmon fillets

这表明音视频联动能有效增强语义理解能力,并能在无人工字幕的视频与具身机器人等场景中具有明显优势

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图2

8.salmon patches

研究团队首先以 Qwen 2.5-VL 7B 为底座构建音视频模型,经上述音视频训练流程及 MrDPO 训练得到 video-SALMONN 2 7B随后,利用该模型对更大规模的音视频数据进行高质量描述标注,并以此为数据源,训练基于 Qwen 2.5-VL 3B/72B 的音视频大模型,最终获得 video-SALMONN 2 3B/72B。

9.salmon steak

实验显示,相比仅用原始标注数据训练的基线,新模型在视频理解能力上实现了全面提升

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图3

10.salmon arm

Video-MME 数据集上的消融实验结果结果验证了该的技术路径有效性:高描述能力模型可充当高质量训练数据的 “生成器”,为更强音视频理解模型提供可靠的数据基础,推动模型持续迭代与性能跃升推理增强,让模型真正看懂。

video-SALMONN-o1(ICML 2025)

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图4SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图5

问题: 表演者为什么想成为黑山公民?选择:A. 因为黑山是个美丽的国家B. 因为他想住在一个名字匹配他肤色的国家C. 他想成为一座山D. 他觉得黑山的人都很有吸引力E. 他觉得这个国家的名字听起来很酷video-SALMONN-o1 推理:

喜剧演员说欧洲有一个国家叫做黑山然后他重复了一遍这个名字,强调它的独特性:“有一个满是白人的国家,叫做黑山”他表示自己很想成为其中一员,甚至开玩笑说要把国籍改成黑山他想成为黑山公民的理由是:那是一个美丽的地方,而且名字与他的肤色相符。

因此,答案是 B. 他想生活在一个与自己肤色相符的国家

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图6SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图7

问题: 表演者谈到了直男在照片中的习惯为什么观众会笑呢?请从以下选项中选择:A. 表演者的衬衫很好笑B. 表演者让观众想起了他们的朋友C. 观众感到被冒犯了,于是尴尬地笑了D. 表演者是女性,觉得取笑直男很有趣。

E. 光是想象就觉得好笑,而表演者还把它演出来了video-SALMONN-o1 推理:表演者在开直男的玩笑,说他们拍照时喜欢抬着下巴摆姿势然后他亲自模仿了这种姿势,并加以夸张来制造喜剧效果观众之所以发笑,是因为他们能够产生共鸣,并觉得这种摆姿势的行为本身就很滑稽。

因此,答案是 E. 光是想象就觉得好笑,而表演者还把它演出来了。

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图8SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图9

问题: 这个视频里有什么笑话以及为什么好笑?请逐步详细分析video-SALMONN-o1 推理:笑点在于:美国副总统乔・拜登写了一本自传说话者(很可能是个喜剧演员或观众)说他觉得这本书比实际好得多这很有趣,因为它利用了一个常见的观念 —— 政治人物往往会把自己描绘得比他们真正值得的更正面。

说话者暗示拜登的自传好得令人难以置信,这是一种对情境的幽默夸张在脱口秀等复杂视频中,深层理解不仅依赖于音频与视觉的联合感知,还需要在此基础上开展多步推理video-SALMONN-o1 是首个推理增强的开源音视频大语言模型:相较于同类开源系统直接输出答案,它可以同时接收音频与视频输入,执行基于证据的逐步推理并给出结论,实现结果与理由的一致性。

实验观察表明,针对数学 / 编程的文本推理优化,或以图文为主的推理范式,难以有效泛化至音视频理解;video-SALMONN-o1 以音视频原生的过程监督与推理优化,拓宽了推理的应用边界,使大模型能以推理为核心更全面地理解物理世界。

SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图10SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破(插图11

问题: 双胞胎研究如何分离

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。