1.北大效长
视觉–语言–动作(VLA)模型在机器人场景理解与操作上展现出较强的通用性,但在需要明确目标终态的长时序任务(如乐高搭建、物体重排)中,仍难以兼顾高层规划与精细操控针对这一问题,北京大学、香港中文大学与至简动力团队提出了全新的「生成–理解–动作」一体化模型 ManualVLA。

2.北大学长
论文题目:ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation论文链接
3.北大挍长的10句话
:https://arxiv.org/abs/2512.02013项目主页:https://sites.google.com/view/maunalvla

4.北大cs
不同于 π0 等端到端模型在处理复杂长程任务时仍面临的推理与执行割裂问题,ManualVLA 摒弃了将「高层次规划」与「动作生成」拆分的传统分层级联方案,构建了全新通用基础模型 Mixture-of-Transformers (MoT) 架构,在同一模型中统一多专家模块,实现多模态生成与动作执行的紧密协同。
5.北大charls项目开始时间
首先由「规划专家」生成由图像、空间位置提示和文字说明组成的多模态操作说明书,再通过显式与隐式相结合的「思维链」(ManualCoT)推理,将信息反馈给「动作专家」,为每一步操作提供清晰的显式控制条件的同时,通过潜在表征为动作生成提供持续的隐式引导,实现理解与生成的高度统一。
6.北大dv
实验结果表明,ManualVLA 在现实场景任务中表现出显著优势,其平均成功率相较于分层结构的最新基线方法提升约 32%,充分验证了「生成手册–指导动作」这一统一范式的有效性一、研究背景与挑战近年来,VLA 模型在机器人场景理解和泛化操作方面取得了显著进展,推动了通用具身智能体的发展。
7.北大vi
但当面临需要精确定义最终目标状态的长周期任务,例如复杂的乐高组装或物体重新排列时,现有模型仍然难以协调高级规划与精确操作这些任务主要面临两个核心难题:首先,VLA 模型必须执行精确操作以严格对齐预定义的最终场景或物体配置;其次,模型必须有效地将长周期规划与细粒度控制相集成,同时保持对多样化现实世界环境的泛化能力。
8.北大学长是什么意思
现有的分层方法通过依赖人工制作说明书或人类演示视频来模仿这种能力,然而,这些方法通常在泛化到未见过的最终目标状态方面存在局限性,在系统复杂度、部署成本和泛化性之间难以取得兼顾,难以形成一个统一、可端到端训练和部署的体系。
9.北大宣布
二、ManualVLA 方法陈述

10.北大cibr
为此,ManualVLA 让模型学会「自己生成说明书,再按说明书去执行动作」在推理阶段,系统首先接收自然语言指令、当前场景图像和最终目标图像,由规划专家生成包含关键步骤的多模态手册:由文字描述指出要操控哪些物体以及要完成的子目标,像素级坐标给出目标物体在图像中的精确位置,子目标图像则展示子目标完成后的「预期画面」。
动作专家在闭环控制中执行这一子目标,直到达到预期状态,再进入下一次手册生成与执行通过这种逐步推进的方式,原本困难的长时序任务被拆解为一系列可控、可解释的短阶段

▲ 图 1


评论(0)