目录:
1.视觉推理能力
2.视觉语言分析案例
3.图形视觉语言
4.视觉型与言语型
5.视觉语法理论框架
6.视觉语言化的系列过程
7.视觉语言的形式法则
8.视觉推理训练
9.视觉语言研究
10.视觉语言是什么
1.视觉推理能力
还记得 DeepSeek R1吗?它实现了大语言模型先思考再回答刚刚,中科院自动化所、清华和GigaAI联合发布视觉-语言-行动(Vision-Language-Action, VLA)模型的R1推理版本。
2.视觉语言分析案例
让机器人实现了先思考再行动

3.图形视觉语言
当前的机器人模型在执行任务时,像一个提线木偶,直接输出动作,而VLA-R1模型给机器人装上了一个会推理的大脑,让它在行动前先想清楚每一步视觉-语言-行动(Vision-Language-Action, VLA)模型是具身智能(embodied AI)领域的一项关键技术。
4.视觉型与言语型
它的目标是让一个智能体,比如机器人,能够像人一样,通过看(视觉)、听(语言)来理解指令,并作出相应的行动这就像你告诉一个朋友,请把桌上的红苹果递给我他会先用眼睛扫描桌子,找到所有的苹果,分辨出红色的那个,然后规划手臂的运动路径,最后伸手拿起并递给你。
5.视觉语法理论框架
这个过程融合了感知、理解、推理和行动早期的VLA模型已经能做到不错的程度它们通过学习海量的图片与文字,建立了对世界的基本认知比如,它知道什么是苹果,什么是桌子接着,通过学习大量的操作数据,它将这种认知与具体的机器人动作联系起来。
6.视觉语言化的系列过程
比如,它学会了如何控制机械臂去抓取一个物体这使得模型具备了宝贵的泛化能力即使它没见过某个特定品牌的杯子,但因为它理解‘杯子’这个概念,它也能举一反三,去抓取那个新杯子它还能理解组合性的新指令,比如‘把方块放到圆圈的左边’。
7.视觉语言的形式法则
然而,这些模型有一个共同的短板,它们像一个做事不过脑子的行动派你给它一个指令,它几乎是凭直觉,直接给出一个最终动作这个过程像个黑箱,中间没有清晰的思考步骤它不会明确地去推理物体的用途(可供性),比如杯子是用来装水的,锤子是用来敲的。
8.视觉推理训练
它也不会仔细分析物体之间的几何关系,比如哪个物体在前面,哪个在后面这种莽撞的模式,在简单的场景下或许还能应付一旦环境变得复杂,问题就暴露无遗想象一下桌上有两个颜色非常接近的红色方块,指令是‘拿起那个深红色的方块’。
9.视觉语言研究
模型很可能因为无法进行细致的推理而选错再比如,桌上有好几个碗,指令是‘把草莓放进碗里’模型应该选择哪个碗?是离得最近的,还是最大的,还是空的那个?缺乏推理能力,模型的选择就带有很大的随机性,任务成功率自然大打折扣。
10.视觉语言是什么
更关键的是,现有的模型训练方法也难以系统性地提升这种推理能力主流的方法是监督微调(supervised fine-tuning, SFT)就是给模型看大量的‘问题-标准答案’,让它去模仿这种方式很少能优化思考过程的质量,也缺乏对最终执行效果的有效奖励。
即便引入了强化学习(Reinforcement Learning, RL),奖励设计也通常很单一,比如只奖励最终任务是否成功这很难同时优化过程的合理性(比如视觉区域对齐是否准确)和动作的连贯性(比如轨迹是否平滑)。
这导致模型在面对新环境或真实世界时,性能会大幅下降机器人需要学会思考不是简单的反应,而是有条理、有逻辑的逐步推理VLA-R1学会了先思考再行动针对这些挑战,研究人员提出了VLA-R1,一个会推理的VLA模型。
它的核心思想很简单:把人的思考过程,也就是思维链(Chain-of-Thought, CoT),教给模型,并用一套可验证的奖励机制去强化这个思考过程和最终的行动这全面提升了机器人行动的准确性。

整个VLA-R1的训练和工作流程分为两个核心阶段第一阶段是学习如何思考这个阶段采用的是监督微调研究团队首先需要高质量的教材,也就是带有清晰思考过程的训练数据他们构建了一个名为VLA-CoT-13K的数据集。
他们使用强大的Qwen2.5-VL-72B模型,为13000个任务场景自动生成了中间的推理步骤

比如,对于‘把绿色的积木放到红色的碗里’这个任务,生成的思维链可能是这样的:识别任务目标:移动绿色积木定位绿色积木:在图像的左上角区域找到了一个绿色的方块识别目的地:红色的碗定位红色的碗:在图像的右侧中间位置找到了一个红色的碗。
规划行动轨迹:从绿色积木的位置,规划一条避开障碍物的路径,移动到红色碗的上方,然后放下这些带有思维链的数据,就像一本本详细的解题步骤分析模型在学习时,不仅仅是看到最终答案(机器人动作),更重要的是学习了从问题到答案的整个逻辑推理过程。
这种‘先推理,后行动’的策略,让模型学会了分解任务,将视觉感知和最终的动作目标更紧密地联系起来,也大大提高了学习效率在模型架构上,VLA-R1使用Qwen2.5-VL-3B作为基础它的视觉部分是一个经过重新设计的视觉Transformer,可以高效处理高分辨率图像和视频。
语言部分则使用了成熟的Qwen2.5解码器图像和文字信息在这里融合,共同推理,最终生成包含推理过程和动作预测的结构化输出这个输出随后被转换成机器人可以执行的连续7D动作指令(包括三维空间位移,三维旋转和夹爪的开合)。

第二阶段是强化思考与行动的质量这个阶段采用的是强化学习经过第一阶段的学习,模型已经初步具备了推理能力但这种推理可能还不够精确,不够鲁棒就像一个学生学会了解题步骤,但计算过程可能还会有小错误为了解决这个问题,研究团队引入了一套基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)策略。
他们采用了一种名为群体相对策略优化(Group Relative Policy Optimization, GRPO)的算法这个算法的好处是,可以让模型从结构化的、可验证的奖励中学习,同时保持训练过程的稳定。
研究团队设计了三种具体的、可量化的奖励,像三位严格的考官,从不同维度评判模型的输出第一位考官负责评判轨迹它使用的评分标准叫作角度长度增强Fréchet距离(Angle-Length Augmented Fréchet distance,


评论(0)