1.看世界的维度

近年来,Text-to-Video(T2V)模型取得显著进展——从静态帧质量到连贯的视频叙事,模型能力大幅提升,尤其是最近Sora2的爆火,让人们开始想象,T2V Model是否已经是一个真正的“世界模型”?。

2.看世界的维度是什么意思

然而,传统基准主要考察图像质量与语义一致性,并不能系统衡量模型对事件因果、物理规律与常识的理解,而这些正是“世界模型”的核心能力为此,中山大学、香港理工大学、清华大学与OPPO Research Institute合作,在港理工Chair Professor张磊教授的指导下提出了一种新的评测框架——。

3.维度世界是什么

VideoVerse。

「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了(插图

4.多维角度看世界

设计目标与核心内容VideoVerse致力于评估T2V模型在事件级时间因果与世界知识(物理、材料、常识)上的表现团队从两大视角定义了十个评测维度:1、动态(Dynamic):Event Following(事件顺序与因果)、Mechanics(力学)、Interaction(交互)、Material Properties(材料特性)、Camera Control(镜头控制)。

5.讲维度的视频

2、静态(Static):Natural Constraints(自然/物理约束)、Common Sense(常识)、Attribution Correctness(属性正确性)、2D Layout(二维布局)、3D Depth(三维深度)。

6.纬度视界

每条prompt对应若干二元(Yes/No)评测问题;Event Following采用事件序列匹配(LCS)度量序列一致性。最终通过QA LCS的混合评分,得到模型在各维度上的综合表现。

「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了(插图1

7.三维角度看世界

Prompt构建流程为确保prompt的真实性、多样性与可评测性,团队采用多阶段构建流程:域内原始语料采样团队从三大域获取源数据:Daily Life(如 ActivityNet Caption)、Scientific Experiment(高中/教科书级实验步骤)、Science Fiction(VidProM 等社区收集)。

8.多个维度看世界

目的是覆盖真实世界场景、受控科学实验与超现实/想象场景,以测试模型的现实/推理/泛化能力事件与因果结构抽取团队使用GPT-4o等强LLM自动抽取视频或文本中的事件序列与潜在因果链,把自然语言描述转换为事件级结构(event1 ⇒ event2 ⇒ event3…)。

9.世界维度图

这么做是为了保证prompt天然具备事件因果的性质,为prompt中的“事件跟随”评测打下基础人工标注与评测维度独立人类注释者对自动抽取的raw-prompt进行语义增补(例如加入材料、镜头动作、隐藏语义)、并为每条prompt选择适用的评测维度。

10.维度观什么意思

注释者均具备本科及以上学历,定期交叉校验以减少偏差这样,可以将自动抽取与人工知识结合,保障prompt的多维挑战性与标注质量维度二元检测问题生成基于每条prompt的选定维度,自动/人工生成与之对应的二元QA(例如:“视频中是否出现蓝色海绵?”、“事件顺序是否为A

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。