1.美团开源项目
美团LongCat团队发布了5600亿参数开源全模态模型LongCat-Flash-Omni。

2.美团开源框架
LongCat-Flash-Omni能实现毫秒级的实时音频-视觉交互不仅能理解复杂的模态组合,还能像人一样进行低延迟的实时对话这在AI通往具备全模态感知与交互能力的路上,又划上了一笔一个模型听懂看懂还能聊。
3.美团开源代码
LongCat-Flash-Omni的核心是一个端到端的全模态架构它可以像一个统一的大脑,接收文本、音频、图像、视频或是这些信息的任意组合作为输入,然后直接生成包含语义和情感的语音这个大脑由几个关键部分协同工作:一个敏锐的视觉编码器、一套完整的音频处理工具、一个强大的语言模型主干,以及一套为实时交互量身定制的流式处理机制。

4.美团源码
模型的眼睛是LongCat-ViT(视觉变换器),一个经过精心设计的视觉编码器它解决了传统视觉模型的一个痛点:固定分辨率传统模型在处理图片前,通常需要粗暴地将图片缩放或裁剪成一个固定尺寸,这无疑会损失信息。
5.美团开放平台
LongCat-ViT则原生支持各种分辨率和宽高比的输入,无论是高清大图还是手机竖屏视频,都能最大程度地保留原始信息这个视觉编码器在传统Vision Transformer(视觉变换器)结构之上,集成了一系列增强设计,比如能同时处理图像和视频的统一分块模块、更精准捕捉空间位置的二维旋转位置嵌入(2D-RoPE)、以及提升稳定性和效率的SwiGLU激活函数和RMSNorm层。
6.美团开放平台是什么意思
为了在实时交互中快速处理视频流,模型的视觉编码器采用了相对轻量级的配置,参数量为6.37亿LongCat-ViT的训练过程也颇具巧思,它采用渐进式方案模型先从固定低分辨率(如224×224)的图像学起,这是课程学习的思路,让模型先掌握基础视觉概念。
7.美团系统开发
然后,再逐步过渡到处理原生分辨率的图像和视频这种由易到难的学习方式,不仅节约了大量的计算资源,也让模型收敛得更快更稳定模型的听觉和说话能力,经历了一次重要的进化。

8.美团源码app
在训练的早期阶段,模型使用一个音频标记器(Tokenizer),将连续的音频波形转换成离散的编码,就像把语音翻译成一种特殊的文字这种做法的好处是,模型可以像处理文本一样,用统一的下一token预测方式来学习和生成语音,训练效率很高。
9.美团开放平台api
这个标记器是LongCat-Audio-Codec,它以16.67赫兹的频率将音频离散化为四个码本,一个码本负责语义,另外三个负责音色、音调等声学细节团队很快发现,这种离散化处理会损失声音中微妙的细节,比如语气中的犹豫、环境中的微弱背景音。
10.美团原理
为了让模型听得更真切,从训练的第五阶段开始,引入了一个音频编码器这个编码器不再将音频文字化,而是将其转换为连续的音频特征(即向量表示),直接输入给LLM主干有趣的是,在生成语音时,模型仍然输出离散的音频token。
这保证了生成过程与LLM固有的预测范式一致随后,一个高效的音频解码器将这些token实时转换回流畅的语音波形这个解码器同样来自LongCat-Audio-Codec,支持流式解码,延迟极低,仅需超前三帧数据即可工作。
这个音频编码器本身也是为低延迟而生的流式架构它将音频切分成每80毫秒一帧的片段,并通过一种名为FSMN(前馈序列记忆网络)的高效结构来处理为了在延迟和性能间找到最佳平衡,只有最后几层处理单元会稍微偷看一点未来的信息,而前面的层则严格按时间顺序处理,保证了极快的响应速度。
模型思考和决策的核心,是建立在LongCat-Flash之上的一个5600亿参数的MoE(混合专家)语言模型根据任务内容,它会智能地选择激活一小部分最相关的专家(约270亿参数)这种选择性思考的机制,使得LongCat-Flash-Omni在拥有巨大知识储备的同时,计算效率极高,为实时交互提供了可能。
要实现流畅的实时音视频对话,模型必须能同步处理来自摄像头和麦克风的连续数据流LongCat-Flash-Omni为此设计了一套精妙的视频策略和流式交互机制视频处理本身就是一个难题,时长、分辨率、帧率千差万别。
模型采用动态帧采样策略,默认每秒采样2帧(2 FPS),但会根据视频长短动态调整短视频会以更高帧率采样,确保信息密度;超长视频则会均匀采样,避免内存爆炸为了让模型理解视频的时间顺序,每个视频帧前面都会被加上一个文本时间戳。
这样,输入给LLM的序列就形成一个时空交错的序列在实时交互中,模型采用了一种稀疏-密集采样策略,堪称点睛之笔当用户正在说话或进行操作时,模型会以2 FPS的密集采样率,专注地看和听,尽可能捕捉所有信息当轮到模型回应时,它会切换到0.5 FPS的稀疏采样率,用余光关注着视频流,既保留了对环境的感知,又大大降低了计算开销,为自身的思考和生成腾出资源。
音频和视频的特征被切分成以1秒为单位的同步数据块,像拉链一样交错输入LLM这种时间同步、分块交错的机制,确保了模型能尽早接收到用户的视听信息,从而将响应延迟降到最低模型学会了十八般武艺训练一个能处理所有模态的模型,最大的挑战在于不同模态数据的性格迥异。
文本是高度浓缩的符号,语义密度极高语音虽然也是序列信号,但信息密度远低于文本,还夹杂着情感、口音等副语言信息视觉信息则是空间性的,视频更是在空间之上增加了时间维度,复杂度指数级增长面对这种异质性,直接将所有数据一锅炖效果很差。
LongCat-Flash-Omni的训练借鉴了人类的学习过程,采用了一种课程启发的渐进式策略,分阶段、由易到难地学习LongCat-Flash-Omni的训练被划分为五个核心阶段。

模型首先在一个高质量、多样化的纯文本语料库(约16万亿token)上进行训练这为模型打下了坚实的语言基础,使其成为一个知识渊博、逻辑清晰的文化人在语言能力稳固后,引入结构上最接近文本的语音数据模型学习将声音信号与语言模型的语义空间对齐,理解语音中的语义和副语言信息。
此时,语音被处理成离散的token模型开始学习看图大规模的图像-文本对和图文交错数据被引入,模型开始建立视觉表征与语言概念之间的连接,学会看图说话、理解图中的复杂关系引入最复杂的视频数据模型开始学习理解时空动态,进行事件推理。
同时,更高质量、更多样化的图像数据也被加入,进一步强化模型的视觉理解深度模型的记忆力从8000token扩展到128000token通过专门的长上下文多模态数据进行训练,模型学会了处理长视频、长文档,并能在漫长的对话中保持上下文一致性。
这是为了解决阶段1中离散语音token带来的信息损失问题模型在这一阶段学习直接处理连续的音频特征,这使其能够捕捉到更细微的声学细节,显著提升了下游语音任务的保真度和性能这个由简到繁、层层递进的训练策略,确保了模型在学习新模态能力的同时,不会遗忘或削弱已有的单模态能力,最终成长为一个真正的全能选手。
庞然大物也能身轻如燕一个强大的模型,从训练完成到能被用户流畅使用,还需要高效的工程技术作为支撑预训练之后,模型会经历监督微调(SFT)和强化学习(RL)两个阶段SFT阶段,模型通过学习海量高质量的指令数据,学会更好地理解和遵循人类的意图。
这些数据覆盖了多模态理解、推理、交互对话和专业领域知识特别是为了实时交互,团队专门策划了模拟真实场景的语音-视觉问答、实时视频分析等多模态交互数据强化学习阶段则更进一步,通过引入人类偏好数据,训练一个奖励模型,然后利用这个奖励模型来指导语言模型生成更符合人类喜好、更有用、更安全的回答。
训练一个5600亿参数的全模态模型,对计算基础设施是巨大的考验最大的挑战在于模型和数据的异质性LLM、视觉编码器、音频编码器各有各的计算和内存需求为了解决这个问题,团队提出了模态解耦并行(MDP)策略

这个策略的核心思想是因材施教,允许不同模odal组件采用最适合自己的并行策略比如,LLM部分采用张量并行和流水线并行,而视觉和音频编码器则采用数据并行为了协调这些以不同方式运行的组件,团队设计了一个名为ModalityBridge的通信框架,负责在它们之间高效地同步梯度和传输数据。
这种解耦设计,使得多模态训练的吞吐量能够维持在纯文本训练的90%以上,效率极高此外,团队还进行了一系列性能和内存优化通过梯度检查点技术,用计算换内存;通过混合精度训练,减少内存占用;通过使用FlashAttention等内存高效的算子,降低计算过程中的内存峰值。
这些策略共同保证了庞大的模型能够在现有的硬件资源上稳定高效地进行训练为了实现低延迟的实时交互,推理框架的设计至关重要团队设计了一个解耦的推理框架,将视觉处理、音频处理、LLM推理和音频合成等模块拆分为独立的服务。
这种设计允许它们并行工作,极大地降低了端到端的延迟更核心的是一个异步流式管道输入的音频和视频流被切分成小块,并被异步地送入各自的编码器编码后的特征再异步地送入LLM进行处理LLM生成的文本和音频token也是流式地输出。
正是这套精心设计的推理系统,让激活270亿参数的LongCat-Flash-Omni,也能实现250毫秒的惊人响应速度全能选手的成绩单令人瞩目LongCat-Flash-Omni在视觉、音频、文本以及跨模态的多个权威基准测试中,都展现了强大的性能。

在图像理解方面,模型在VQAv2、TextVQA、DocVQA等多个基准上都取得了顶尖成绩,尤其是在需要细粒度理解的文档问答(DocVQA)上表现突出。


在视频理解方面,模型在需要时空推理的TempCompass和MuirBench上表现出色,证明了其强大的动态场景理解能力在音频理解方面,无论是在语音识别基准LibriSpeech上,还是在更具挑战性的多语言语音识别基准FLEURS上,模型都超越了现有的主流模型。

在音频指令跟随任务,如音频问答和音频描述上,模型同样表现优异。

作为模型的基础,其文本能力也保持在顶尖水平。


在综合性的跨模态理解基准OmniBench上,模型展现了强大的多模态信息整合与推理能力。

LongCat-Flash-Omni通过统一的框架,将强大的离线理解能力和低延迟的实时交互能力无缝结合,并开源了模型和其背后的技术思路,为通往更自然、更高效人机交互的未来,铺下了一块坚实的基石。


评论(0)