目录:
1.东京大学语言
2.东京大学语言学教授
3.东京大学航空航天
4.东京大学言语文化学科
5.东京大学 arwu
6.东京大学授课语言
7.东京大学航空航天专业
8.东京大学语言学校
9.东京大学航空
10.北京语言大学东京
1.东京大学语言
在当今的视频理解和具身智能领域,教 AI 理解 “做菜” 或 “修理电器” 等程序性活动具有重要意义然而,当这一需求遭遇现有的图文对齐范式时,一个难以忽视的「语义鸿沟」(Semantic Gap)横亘在研究者面前。
2.东京大学语言学教授
现有的程序性视频学习方法面临数据困境:要么依赖极其昂贵的时间密集型标注,难以扩展;要么利用 WikiHow 等外部知识库进行弱监督学习,将视频帧与 “任务(Task)” 或 “步骤(Step)” 的文本描述强行对齐。
3.东京大学航空航天
但弱监督的方式仍然存在优化空间:抽象的语言描述与具体的视觉像素之间存在断层当文本指令是 “切橙子”(Cut oranges)时,视频中呈现的是橙子从完整状态到果肉外露的连续视觉形态变化,而非明确的动作过程。
4.东京大学言语文化学科
二者之间的不匹配导致模型难以准确识别和理解视频所表达的实际过程为了解决这一问题,北京航空航天大学陆峰教授团队,联合东京大学黄逸飞博士推出了 TSS(Task-Step-State)框架其核心洞见在于重构了过程性知识的层级结构:引入「状态」(State)这一视觉接地层,并提出了一种渐进式 “层级展开”(Hierarchy Unfolding)的渐进式预训练策略。

5.东京大学 arwu
标题:Learning Procedural-aware Video Representations through State-Grounded Hierarchy Unfolding
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)