在人工通用智能(AGI)的探索征程中,具身智能 Agents 作为连接数字认知与物理世界的关键载体,其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环然而,当前主流大语言模型(LLMs)与多模态大语言模型(MLLMs)在具身任务场景中,普遍面临三大核心瓶颈:一是模型设计与智能体实际需求存在显著脱节,难以适配物理世界的动力学特性、传感器噪声与动态变化;二是实时延迟与任务性能间存在不可调和的权衡,轻量化模型虽能满足实时性需求,却在指令遵循、空间感知等关键能力上表现薄弱;三是现有评估依赖非真实的离线指标,无法全面反映模型在复杂真实场景中的鲁棒性与泛化能力。

为此,中兴星云大脑团队(ZTE NebulaBrain Team)重磅推出具身视觉 – 语言基础模型 EmbodiedBrain,以 7B 和 32B 两种参数规格构建了涵盖数据架构、训练策略、评估体系的全流程创新框架,为下一代通用具身智能体的发展提供了突破性解决方案。

突破具身智能任务规划边界,刷新具身大脑多榜单SOTA,中兴EmbodiedBrain模型让具身大脑学会「复杂规划」(插图

Arxiv: https://arxiv.org/abs/2510.20578WebPage: https://zterobot.github.io/EmbodiedBrain.github.io/Code: https://github.com/ZTERobot/EmbodiedBrain1.0/

Models:https://huggingface.co/ZTE-AIM/EmbodiedBrain-7Bhttps://huggingface.co/ZTE-AIM/EmbodiedBrain-32B

架构创新:模块化设计实现感知 – 推理 – 行动一体化闭环EmbodiedBrain 以 Qwen2.5-VL 为基础框架,创新性地采用模块化编码器 – 解码器架构,成功打通了「感知 – 推理 – 行动」的全链路,实现了三大核心能力的深度协同(图 1)。

突破具身智能任务规划边界,刷新具身大脑多榜单SOTA,中兴EmbodiedBrain模型让具身大脑学会「复杂规划」(插图1

图 1 EmbodiedBrain 的架构:该模型处理多种多模态输入,包括任意分辨率的图像、长视频序列以及复杂的语言指令视觉输入由视觉编码器和 MLP 投影器处理,文本输入则进行分词处理所有输入被送入核心大语言模型(LLM)解码器,该解码器执行深度推理并生成结构化输出。

最终输出包含三部分:自然语言响应()、分步规划()和可执行动作序列(),从而实现对具身环境的直接控制与交互该架构的三大核心组件各司其职且高效联动:1. 原生分辨率视觉 Transformer(ViT):作为视觉编码器,其采用窗口 注意力机制,能够在处理原生分辨率图像时兼顾效率与细节捕捉;同时引入二维旋转位置编码(2D Rotary Positional Embedding, ROPE),精准保留图像中的空间几何关系,为后续空间推理提供扎实的视觉基础。

2. 轻量级 MLP 视觉 – 语言融合器:承担视觉特征与语言嵌入空间的「桥梁」作用,通过压缩视觉特征维度、对齐模态语义分布,确保视觉信息与语言指令能够在统一的表示空间中高效交互,避免多模态信息割裂导致的理解偏差。

3. 基于 Qwen2.5 初始化的解码器:作为模型的「认知核心」,采用仅解码器结构,引入时间对齐的多模态 ROPE(Multimodal

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。