1.打败的英文

一个完全开源多模态模型,全面超越 Qwen2.5-VL。

打败 Qwen2.5-VL,完全开源可复现 LLaVA-OneVision-1.5 的多模态模型(插图

2.打败你的不是天真下一句是什么

LLaVA(Large Language and Vision Assistant,大型语言与视觉助手)的故事,是开源社区用两年时间,真正复现出一个顶级的多模态模型的拼搏史2023年4月,一个名为 LLaVA 的开创性工作横空出世。

3.打败年上男的唯一办法小说

它直接用纯语言模型 GPT-4 来生成图文并茂的指令数据,然后用这些数据去微调一个连接了视觉编码器和大型语言模型的端到端模型这个叫“视觉指令微调”的方法,第一次让开源社区低成本地拥有了“看图-理解-对话”的能力,显著缩小了与顶级闭源模型的差距,成了一个重要的里程碑。

打败 Qwen2.5-VL,完全开源可复现 LLaVA-OneVision-1.5 的多模态模型(插图1

4.打败帝陨大团圆

几个月后的10月,LLaVA-1.5 问世它换上了更高分辨率的“眼睛”(CLIP-ViT-L-336px),用更干净、更面向学术任务的数据进行训练整个训练过程被压缩到在单个8卡A100节点上只需一天左右就能完成。

5.打败羽绒服,今冬最时髦的外套凭什么是它?

设计简洁,效果强劲,LLaVA-1.5 在11个基准测试上刷新了当时的纪录时间来到2024年,LLaVA 的进化开始加速1月的 LLaVA-NeXT 将输入图像分辨率又提升了4倍,在推理、文字识别(OCR)和世界知识方面大幅改进,甚至在好几个基准测试上超过了当时的 Gemini Pro。

6.打败你的不是对手而是你自己

4月,专攻视频的 LLaVA-NeXT-Video 出现,它巧妙地利用技术,让只在图片上训练过的模型,展现出了惊人的零样本视频理解能力6月,LLaVA-NeXT-Interleave 更进一步,提出了一个统一的框架,能同时处理单张图片、多张图片、视频(多帧)乃至3D(多视图)的输入。

7.打败牛肉和羊肉 它才是冬天最该吃的肉

各路分支最终在2024年8月的 LLaVA-OneVision 这里汇合。它整合了之前所有的进展,成为了一个能同时处理单图像、多图像和视频场景的单一模型,真正实现了统一接口。

打败 Qwen2.5-VL,完全开源可复现 LLaVA-OneVision-1.5 的多模态模型(插图2

8.打败美帝野心狼

这条进化路线清晰地展示了 LLaVA 系列如何从一个简单的图文对齐模型,一步步成长为一个功能全面、性能卓越的框架但一个更深层次的问题也浮现了出来开源不等于可以复现尽管像 LLaVA 这样的项目在不断前进,多模态模型的接口和架构也逐渐趋同,但开源社区里,“只开放模型权重”和“真正可复现的路径”之间,始终存在一条鸿沟。

9.打败心魔的最好办法

像 Qwen2.5-VL、InternVL3.5 这样的模型,在 OCR、文档理解和数理推理上都设定了很高的标杆但它们完整的训练数据清单、数据清洗和混合的比例、具体的采样策略和训练日程,往往都只是部分披露。

10.打败你的不是天真是无邪什么意思

Molmo

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。