1.四足机器人是什么

过去两年,RT-2、OpenVLA、NaVILA等Vision-Language-Action(VLA)模型,让机器人「能听懂复杂自然语言指令」成为现实但一旦落地到四足机器人上,两大老问题依然突出:语义和控制断层

2.四足机器人关键技术

:模型在语言上「讲得通」,但落到连续控制上就开始「晃、抖、走不直」,甚至原地迷路;决策黑盒,难以纠错:大模型直接给出一个动作,失败了也不知道是理解错了,还是规划错了,更谈不上线上调试与安全监管简而言之,现在很多VLA更像是「一次性给答案的黑盒」,而不是真正能「边想边走」的机器人大脑。

3.四足机器人csdn

针对这些痛点,北京大学团队提出MobileVLA-R1,核心理念只有一句话:不再「看图直接给动作」,而是让机器人先生成一段可解释的链式推理(CoT),再据此输出动作。

四足机器人首次同时「思考 走路」,北大提出链式推理MobileVLA-R1(插图

4.四足机器人的优点和缺点

论文链接:https://arxiv.org/pdf/2511.17889项目代码:https://github.com/AIGeeksGroup/MobileVLA-R1项目主页:https://aigeeksgroup.github.io/MobileVLA-R1/

四足机器人首次同时「思考 走路」,北大提出链式推理MobileVLA-R1(插图1

5.四足机器人的行走原理图

MobileVLA-R1 总体架构模型从RGB、深度和点云等多模态输入中抽取3D场景表征,与自然语言指令对齐后,通过链式推理生成高层计划与低层意图,再由Action Decoder输出连续控制命令,驱动四足机器人完成复杂路径规划与动作执行。

6.四足机器人slam

在Vision端,MobileVLA-R1同时接入RGB图像、深度图和3D点云 / 地图等多源感知,由图像编码器、深度编码器和点云编码器提取表征,再通过统一的Projection Layer融合为时序场景表示;

7.四足机器人运动原理

在Language / Reasoning端,文本编码器读取自然语言指令,如「先右转走到走廊尽头,再到壁炉前趴下」,并与多模态场景特征对齐;在此基础上,模型利用我们构建的多粒度链式推理数据集MobileVLA-CoT

8.四足机器人百度百科

,把一条任务轨迹拆成「去哪、做什么」的高层目标;「从哪绕、先避什么」的中层规划;以及「当前是加速、转向还是减速等待」的低层意图在Action端,上层MobileVLA-R1模块输出结构化的CoT,再经由Action Decoder转换为连续速度与转向指令。

四足机器人首次同时「思考 走路」,北大提出链式推理MobileVLA-R1(插图2

9.四足机器人运动学算法

,驱动四足机器人沿着右侧示例中那样的路径完成任务。这样,MobileVLA-R1更像是一个有自说服能力的机器人管家:每一步该怎么走、为何这么走,都先在「内心独白」里解释清楚,再交给腿脚去执行。

四足机器人首次同时「思考 走路」,北大提出链式推理MobileVLA-R1(插图3

10.四足机器人用途

MobileVLA-R1在真实室内环境中的三段示例任务从左到右分别为:区分垃圾桶和水桶;绕开纸箱到达水桶;穿过椅子间隙到达桌子前上方展示第三人称轨迹叠加,下方为相应视频片段CoT 强化学习把「说得对」变成「走得好」。

为了让「推理」和「控制」真正对齐,MobileVLA-R1采用了类似R1的两阶段训练范式:先教会「会想」,再逼它「走好」第一步:监督阶段(SFT)先把「内心独白」造出来如下左图所示,研究人员构建了多粒度的

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。