1.谢飞简介

在构建超级智能前,需要什么?这是目前AI领域最前沿,最有哲学意味的问题这个问题的答案甚至决定了未来人类资源的投入走向最近,Yann LeCun、李飞飞和谢赛宁联手发了一篇论文——「Cambrian-S:迈向视频中的空间超感知」。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图

2.谢飞是谁

论文:https://arxiv.org/abs/2511.04670代码:https://github.com/cambrian-mllm/cambrian-s模型:https://huggingface.co/collections/nyu-visionx/cambrian-s-models

3.谢飞个人资料

数据:https://huggingface.co/datasets/nyu-visionx/VSI-590K基准:https://huggingface.co/collections/nyu-visionx/vsi-super

4.谢飞访谈

非常罕见,三位大佬共同署名,而且三人中两位(LeCun和李飞飞)都是明确的世界模型布道者,而LeCun更是一位LLM批评者他在更多场合还广泛批评目前的基于LLM的AI底层技术,这个技术无法实现AGI可想而知,这篇论文的含金量!。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图1

5.谢飞百科

真正意义上的超感官智能,不仅需要具备看见的能力,更要能通过构建内部世界模型,主动地预判、筛选并组织其所接收的感官信息

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图2

6.谢飞作品

谢赛宁说关于对这个问题的思考,甚至让他们重构了此前基础的研究去年,他们就构建了Cambrian-1,这是针对图像多模态模型的一次开放性探索扩展阅读:LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V。

7.谢飞是哪个小说

但之后团队并没有直接扩大规模去构建Cambrian-2或3,而是停下来反思:真正的多模态智能意味着什么?大语言模型范式对于感官建模而言,真的合理吗?以及,为什么人类的感知如此毫不费力、如此直观,却又如此强大?

8.谢非母亲李春逝世

一些根本性的东西缺失了简单说就是,这三位巨头认为LLM目前虽然能力很强,但依然无法像人类一样感知这个世界,既然无法感知,代表LLM是有缺陷的谢赛宁在博客中表示,在构建出「超感知」之前,不可能真正构建出「超级智能」。

9.播放谢飞

那么,什么是超感知 (supersensing)?

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图3

10.谢飞的简历

在团队看来,「超感知」并非指更高级的传感器或更好的摄像头它关乎一个数字生命如何真正地体验世界——吸收源源不断的输入流,并从中学习超感知是智能的一部分,正如眼睛是大脑触及外部世界的那一部分解决编程和数学问题时不需要感知能力。

但身处现实世界中的AI智能体,则需要感官建模!谢赛宁还引用了卡帕西所说,感官建模或许就是AI智能体所需要的一切。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图4

视频空间超感知如何让AI能够真正地感知人类的世界?

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图5

为了更具体地阐述,团队认为以下的分类法能够清晰地描绘出一条演进路径——从团队当前拥有的技术,到团队下一步真正需要构建的目标0. (纯语言理解)不具备感官能力;推理仅限于文本和符号当前的多模态大语言模型虽已超越此阶段,但仍残留着其偏见的痕迹。

1. 语义感知将像素解析为物体、属性和关系这对应于多模态大语言模型目前强大的「看图说话」能力2. 流式事件认知处理实时的、无限制的数据流,同时主动地解读并响应持续发生的事件这与当前将多模T态大语言模型打造为实时助手的努力方向一致。

3. 隐式3D空间认知将视频理解为三维世界的投影智能体必须知道「什么东西」在「哪里」,它们之间「如何关联」,以及空间布局「如何随时间变化」当今的多模态模型在这一方面的能力仍然极其有限4. 预测性世界建模。

大脑通过基于先验期望来预测潜在的世界状态,从而进行「无意识推断」当前的多模态系统缺乏一个能够预测未来状态、保持长期记忆或进行推理和规划的内部模型要研究这一切,视频是最佳的媒介——它是人类每天体验世界的方式,是人类生活经验的直接投影。

如何判断模型达到超感知能力首要问题(始终)是基准测试谢赛宁说他也很钟爱多模态大语言模型,但若缺乏开放和批判性的审视,团队可能会在错误的方向上进行优化许多视频基准测试甚至不需要真正的感知能力;正如团队所展示的,仅仅依靠单帧图像或字幕就能获得高分。

谢赛宁也提到了现在的玩法是:科技公司构建强大的语言模型 → 基准测试奖励的是模型的文本记忆能力 → 模型通过扩大LLM的规模获得更高分数 → 其他公司纷纷效仿这个循环不断持续,直到团队意识到,召唤出的「幽灵」在感知能力上,仍然落后于一只猫,或一只松鼠。

莫拉维克悖论再次应验:对人类而言毫不费力的感知能力,对模型来说却难如登天。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图6

这不仅仅是一个科学问题真正的价值来自于那些能够在现实世界中感知和行动的模型:从工厂到农场,再到医院……从机器人到那些人们期望能作为个人助理佩戴的AI眼镜仅靠大语言模型是无法实现这一切的超级智能,始于超感知。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图7

超感知的关键一环是视觉空间智能谢赛宁团队之前有一个VSI-Bench基准用于测试空间推理,但其中的视频太短,任务也过于简单所以,团队打造了一个看似更简单、实则更难的版本:VSI-Super其中有两个任务。

· 任务1:VS长时程空间记忆。团队使用扩散模型编辑视频,插入一些不合上下文但视觉上融合的物体(而不是随机的「大海捞针」式物体)。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图8

· 任务2:VSC持续计数。在变化的视角和场景下进行持续计数……模型只需数出它们所看到的东西。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图9

一个测试考察对物体顺序的记忆力,另一个则考察计数能力任务简单,可流式处理——还能有比这更容易的吗?然而,顶尖的大语言模型却纷纷败下阵来而且,这不仅仅是长上下文(long context)的问题为什么?谢赛宁解释道(其实还是验证了莫拉维克悖论):

视频可以任意长这对于对人类来说,这很简单人类的感官能处理「无限的Token」这虽然是一个有损的过程,但人们能记住几天甚至几周的经历模型却做不到它们(LLM)缺乏真正的空间认知和泛化能力人类可以一直数下去,而模型不行。

以顶尖的Gemini 2.5模型为例,它只能数到几十个。即使视频更长、物体更多,它也会停止计数。 这充分暴露了其训练数据的分布特点。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图10

当然,你可能会问——这难道不只是一个数据或规模化的问题吗?就像Scaling Law一样,继续增加数据量和增大训练量,不就可以解决吗?谢赛宁表示,部分是因为规模这个原因但这也是他们构建全新的Cambrian-S视频多模态大语言模型(MLLM)系列的原因。

团队想要挑战当前范式(LLM)的极限谢赛宁、李飞飞和LeCun,他们认为数据和规模化对于超感知至关重要(但仅有这些还不够)核心问题在于:目前缺乏真正用于训练空间认知的有效数据所以团队构建了一个名为VSI-590K的数据集。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图11

它包含59万个训练样本,来源包括:带有3D标注的室内环境第一人称探索视频、来自模拟器的视频,以及使用VGGT等视觉工具进行伪标注的YouTube视频团队探索了多种后训练方案、数据混合策略以及一系列工程细节,训练了从5亿到70亿参数不等的模型。

结果显示出强大的空间推理能力——性能比团队的基座MLLM提升高达 30%。即使是最小的模型也表现得相当出色。

谢赛宁×李飞飞×LeCun首次联手!寒武纪-S「空间超感知」AI震撼登场(插图12

已经将数据和模型全部开源相信它们将在许多任务中发挥作用但要明确一点——这仍然无法解决 VSI-Super 基准测试的挑战而且他们越来越坚信:沿用大语言模型的老路来构建多模态模型,并非通往超感知的终极之道。

(其实就是LeCun在多个场合下所说的LLM并不会通向AGI)全新原型,全新范式展望未来,团队正在开发一种全新原型——团队称之为「预测性感知」在这篇论文中引用了大量来自认知科学和发展心理学的研究成果越是深入研读,就越为人类和动物的感知能力而惊叹。

人类的视觉系统拥有极高的带宽,却又有着惊人的效率每只眼睛的600万个视锥细胞可以传输约1.6 Gbit/s的数据,然而大脑仅用约10 bits/s的信息来指导行为大部分感官数据都被过滤和压缩,整个过程都在自动运行——你甚至毫无察觉。

人类的大脑是如何做到这一点的?一个主流理论认为:你的大脑在后台运行一个「预测性世界模型」来进行感知,它不断地预测未来,并将其与实际发生的情况进行比对如果预测误差很小

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。