1.第一人称权威

如何让 AI 像人类一样从对世界的观察和互动中自然地学会理解世界?在今年的国际计算机视觉大会(ICCV 2025)上,来自浙江大学、香港中文大学、上海交通大学和上海人工智能实验室的研究人员联合提出了第一人称联合预测智能体 EgoAgent。

2.第一人称大师

受人类认知学习机制和 “共同编码理论(Common Coding Theory)” 启发,EgoAgent 首次成功地让模型在统一的潜空间中同时学习视觉表征(Visual representation)、人体行动(Human action)和世界预测 (World state prediction)三大核心任务,打破了传统 AI 中 “感知”、“控制” 和 “预测” 分离的壁垒。

3.第一人称的全知视角

这种联合学习方式能让模型在三项任务间自然形成协同效应,并成功迁移到具身操作等任务之中

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体(插图

4.第一人称知乎

论文题目:EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds接收会议:ICCV 2025项目主页:https://egoagent.github.io

5.第一人称大作

论文链接:https://arxiv.org/abs/2502.05857代码地址:https://github.com/zju3dv/EgoAgent

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体(插图1

6.第一人称概念

灵感来源:模拟人类的具身认知过程与感知 – 动作的统一表征想象你是怎么打篮球的?你需要从第一人称视角去感知球的位置,同时迅速准备好起跳或拦截的动作,并不断预判不同动作对球场局势的影响而每做出一个动作又会反过来改变环境,触发新一轮的感知 – 行动 – 预测循环。

这一循环在人类的成长早期就开始了,婴儿通过在真实世界中不断地观察与交互,形成一个高度耦合的视觉 – 动作系统这一系统比语言系统更早 “上线”—— 人类在会说话之前,就已经能通过感知和行动来理解和改变周围环境。

然而,在 AI 领域,对这一系统的学习却落后于语言模型的发展在认知科学中,这一系统的形成机制被称为具身认知(Embodied Cognition)与共同编码理论(Common Coding Theory):感知与行动不是相互独立的过程,而是在共享的表征空间中协同工作、相互强化。

EgoAgent 正是受到这一机制的启发它旨在模拟这种人类大脑、身体和环境之间持续的互动,使得 AI 能够像人类一样学习 —— 不是仅仅通过观看图片,而是通过亲身经历世界,去预测未来、采取行动,并理解行动如何改变环境。

ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体(插图2ICCV 2025 | 浙大、港中文等提出EgoAgent:第一人称感知-行动-预测一体化智能体(插图3

技术揭秘:EgoAgent 如何实现 “1 1 1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。