1.北航清华联合培养

想象一下这样的早晨:你还在被窝里,你的机器人管家已经在厨房里忙碌了起来:它熟练地导航到燕麦罐、可可球、牛奶,逐一抓取并添加到碗中,最后,它将一碗搭配好的营养早餐送到你的面前,整个过程行云流水,无需任何人工干预。

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通(插图让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通(插图1让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通(插图2

2.北航 清华航空系

BSC-Nav 在真实环境中执行「制作早餐」的移动操作任务这并非科幻片中的桥段,而是来自清华大学与北京航空航天大学团队的最新成果——BSC-Nav 的真实演示通过模仿生物大脑构建、维护空间记忆的原理,研究团队让智能体拥有了前所未有的「空间感」。

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通(插图3

3.清华北大航空双学位

论文标题:From reactive to cognitive: brain-inspired spatial intelligence for embodied agentsarxiv 地址:https://arxiv.org/abs/2508.17198

4.清华也是个好学校北航

项目地址:https://github.com/Heathcliff-saku/BSC-Nav这项工作发布后,立刻引起了业界的关注有同行评价道:「BSC-Nav 证明了它学习和适应不同环境的强大能力,这可能引领我们迈向更智能的导航机器人时代。

5.清华北大有航空航天专业吗

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通(插图4

6.教育部将清华大学、北京航空航天大学等9所高校

BSC-Nav(Brain-inspired Spatial Cognition for Navigation)是首个受生物大脑空间认知机制启发的统一框架它不仅赋予了智能体卓越的通用导航能力,还使其能够完成主动具身问答、复杂移动操作等更高阶的空间感知与交互任务。

7.清华大学航空航天学院与北航相比

当前,以多模态大模型(MLLMs)为代表的基座模型几乎无所不能,我们距离通用人工智能(AGI)还有多远?一个公认的瓶颈在于:如何让 AI 走出虚拟世界,在复杂的物理环境中理解、记忆并与世界高效交互——即实现真正的具身智能。

8.清华大学航空航天

然而,目前大多数由大模型驱动的具身智能体,更像一条「记忆只有七秒的鱼」它们主要依赖即时观察做出反应,缺乏对环境长期、结构化的记忆这导致它们在真实、动态的环境中泛化能力差为了攻克这一核心难题,BSC-Nav 团队从认知神经科学中汲取灵感,为具身智能体量身打造了一个结构化的空间记忆系统,并与最前沿的基座模型深度融合,让 AI 从此告别「路痴」,拥有了强大的空间认知能力。

9.北航与清华

具身智能体的记忆碎片化挑战现有的具身智能导航方法为何难以形成有效的空间记忆?主要存在两类困境:端到端策略的「记忆固化」:基于强化学习或模仿学习训练的导航策略,其模型参数在训练完成后便固定不变这使得它们高度依赖训练数据的分布,一旦进入未见的真实环境,便如同刻舟求剑,难以泛化到复杂和动态的环境,更无法在新的探索中积累和更新空间记忆。

10.清华航院超越北航

模块化策略的「记忆短视」:另一类主流的导航方法采用层次化策略,通常由多模态大模型进行上层规划(如规划导航子目标),再由启发式算法执行动作规划然而,这些方法的空间记忆要么是「即时性」的(仅依赖当前观测),要么是「浅表性」的(如静态的语义地图或抽象拓扑图),不仅表征能力有限,更缺乏有效的更新机制,无法应对真实世界的复杂场景和动态变化。

究其根本,这些挑战都指向同一个核心问题:如何为智能体植入一个能够持续构建、动态更新的强大空间记忆系统这正是 BSC-Nav 驱动多模态大模型在具身环境中,完成从「被动反应」到「主动认知」这一关键跃迁的基石。

解锁 BSC-Nav 的技术核心:三大「记忆组件」复刻人类空间认知我们之所以能在复杂的环境中穿梭自如,依靠的并非是超强的「大脑算力」,而在于我们与生俱来的一套高效且灵活的空间认知系统神经科学研究早已表明,生物大脑主要依赖三种相互关联的空间知识形成稳健的空间认知:。

地标知识(Landmarks):记住环境中显著的物体,比如「街角的花店」、「桌面上的星巴克咖啡杯」路线知识(Route knowledge):记住连接地标的移动轨迹,比如「从花店直走,到红绿灯右转」勘测知识(Survey knowledge)

:在大脑中形成一张类似地图的全局认知,使我们能够规划捷径或绕行。BSC-Nav 框架巧妙地将这一生物学原理进行了计算化实现,其核心是三个协同工作的模块:

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通(插图5

图:BSC-Nav 从生物空间认知汲取灵感(a),构建结构化空间记忆和检索机制(b),并与多模态大模型结合进行导航规划)地标记忆模块(Landmark Memory Module):该模块采用开放词汇检测器(YOLO-World)识别环境中的显著物体(如沙发、桌子),并记录物体的类别标签、置信度、投影后的空间位置,形成稀疏而高效的「地标」记忆。

同时,在每次记录后都会进行坐标重合检测与地标合并,确保每个记录的物体对应环境中的唯一实例认知地图模块(Cognitive Map Module):这个模块更进一步,通过 DINO-V2 实时编码观测图像的 patch 特征,并投影至统一的体素化网格空间中,每个网格都具有特征缓存池以容纳来自不同视角、不同时期观测的视觉特征。

它将智能体的路径观测(路线知识)转化为全局一致的「认知地图」(勘测知识)该模块采取了「意外驱动」(surprise-driven)的策略这意味着只有当观察到的新信息与现有记忆产生足够大的「意外」或偏差时,系统才会更新认知地图。

这种机制极大地提升了记忆效率,避免了对重复信息的冗余存储工作记忆模块(Working Memory Module):这一模块实现了人脑视觉-空间工作记忆的功能,用于检索、重构与具体任务相关的空间记忆当接到任务时(比如「去冰箱拿瓶牛奶」),工作记忆模块会根据指令的复杂程度,决定是从「地标记忆」中快速检索,还是在「认知地图」上进行更复杂的规划。

模块中设计了「联想增强」(association-enhanced)的检索策略对于模糊指令,比如「去那个放着蓝色古典茶壶的桌子」,即使从未精确记录过「蓝色古典茶壶」,系统也能通过多模态大模型丰富指令细节,并依赖图像生成「脑补」出目标的视觉特征,再将其与认知地图中的视觉信息进行匹配,从而实现精准定位。

这赋予了智能体前所未有的推理和与泛化能力

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通(插图6

图:工作记忆对不同模态、不同复杂度的目标进行空间位置进行精确定位碾压式性能提升:多项导航任务刷新纪录为了全面验证 BSC-Nav 的能力,研究团队在

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。