1.北大的机器人

具身智能(Embodied AI)正处于爆发前夜从谷歌的 RT-X 到开源社区的 OpenVLA,通才机器人策略(Generalist Robot Policies)展现出了惊人的零样本泛化能力然而,当我们将目光从简单的「抓取-放置」转向需要数十个步骤的长程操作任务(Long-horizon Manipulation)时,现有的 VLA 模型却暴露出一个尴尬的致命弱点:。

2.北大机器人叫什么名字

它们学会了「作弊」在长序列任务中,VLA模型经常会出现一种被称为「阶段性幻觉」(Stage Hallucination)的现象简单来说,就是机器人「明明没做完,却以为自己做完了」例如,在搭建积木桥时,只要机械臂移动到了目标附近,即便方块滑落、没对齐或者根本没夹住,基于视觉语言模型(VLM)的评估系统往往会因为视觉上的相似性(”看起来像是在操作”),给出一个很高的预测分数。

3.北大智能机器人

这种「高分低能」的现象,导致机器人自信地跳过当前步骤进入下一阶段,最终导致整个任务的崩溃这就好比一个学生只写了「解:」字,就以为自己做完了整道大题针对这一痛点,来自北京大学的研究团队(第一作者:刘择霆,杨子达,指导老师:唐浩,张泽宇)提出了一种全新的自监督VLA框架EvoVLA。

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%(插图

4.北大读书的机器人

论文链接: https://arxiv.org/abs/2511.16166v1项目主页: https://aigeeksgroup.github.io/EvoVLA代码仓库: https://github.com/AIGeeksGroup/EvoVLA

5.北京大学机器人研究中心

EvoVLA不仅在仿真环境中表现出色,更通过Sim2Real成功部署在真实机器人上,平均成功率达到54.6%,超越 OpenVLA-OFT 11.0个百分点。

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%(插图1

6.北大机器人女学生图片

EvoVLA框架总览与核心任务展示(Block Bridge, Stack, Cup Stacking)该项目由北京大学唐浩课题组完成,第一作者为刘择霆,杨子达,张泽宇EvoVLA:AI教AI让模型在「自省」中进化。

7.北大真人机器人

为了治好机器人的「白日梦」,EvoVLA在OpenVLA-OFT的架构之上,引入了三个协同工作的核心模块,实现了一种自监督强化学习(SSRL)的闭环阶段对齐奖励(SAR):Gemini 老师的「错题集」。

8.北大学霸机器人

这是EvoVLA解决幻觉问题的杀手锏传统的奖励函数往往很稀疏(只有成功/失败),或者基于像素变化(容易被背景干扰)EvoVLA创造性地设计了一套数据引擎,利用强大的Gemini 2.5 Pro对演示视频进行语义理解和切分,生成了包含70 个阶段的详细描述。

9.北大智能机器人开放实验室

更绝的是,为了防止模型「走捷径」,团队引入了三元组对比学习,特别是构建了「硬负样本」(Hard Negative)正样本(Positive), 任务完成的准确描述(如「夹爪闭合且稳定抓取方块」)负样本(Negative), 明显的失败状态。

10.北大研究的机器人

硬负样本(Hard Negative): 这是关键! 描述那些「差一点就成功」的状态(如「夹爪在目标附近但未接触」,或「抓住了错误的物体」)。

北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%(插图2

EvoVLA数据引擎,展示Gemini如何生成Positive, Negative和Hard Negative文本描述通过这种方式,Gemini化身为「严厉的老师」,专门出这种易混淆的「陷阱题」给VLA模型做。

模型被迫去学习区分「真正完成」和「看起来像完成」,从而获得密集的、语义一致的内在奖励信号基于姿态的物体探索(POE):告别像素干扰机器人不仅要会判断对错,还要有探索未知的好奇心(Curiosity)传统的内在好奇心奖励通常基于像素预测误差——即「如果我看到的画面和预测的不一样,我就很兴奋」。

但在复杂的机器人场景中,影子的移动、光照的变化甚至背景的噪点都会带来巨大的预测误差,导致机器人像个好奇宝宝一样去探索无意义的视觉噪声EvoVLA提出了POE(Pose-Based Object Exploration),训练了一个轻量级的世界模型,不再预测图像像素,而是预测相对几何姿态(Gripper-Object Pose)。

这意味着机器人的好奇心被引导去探索「如何改变物体与夹爪的相对位置」(比如怎么旋转、怎么靠近),而非「图像像素变了多少」这使得探索过程极其高效,专注于操作任务本身的几何结构长程记忆机制(Long-Horizon Memory)。

面对几十步的操作,机器人很容易「捡了芝麻丢了西瓜」简单的平均或截断历史信息会导致灾难性遗忘EvoVLA并没有简单地压缩历史,而是采用了一种基于注意力的上下文选择(Context Selection)机制。

它从历史库中检索Top-K最相关的Token,并通过门控机制融合到当前状态和奖励中这就像人类在做复杂任务时,只回忆那些对当下决策有用的关键步骤(比如「刚才我已经拿到了A零件」),而不是事无巨细地回放整个人生录像。

Discoverse-L:长程操作的新基准为了验证长程能力,团队并没有满足于简单的已有任务,而是提出了Discoverse-L基准测试,包含三个难度递增的任务:1. Stack(堆叠): 18个阶段,不仅要叠高,还要精确对齐。

2. Jujube-Cup(红枣入杯): 19个阶段,涉及多物体交互3.

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。