1.高维时间序列分析

时间序列预测来到真正意义上的“高维赛场”!从原来几百维的小数据集到万维系统,时序预测模型面对真实世界,终于不用再“一碰就脆”。

高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA(插图

2.高维模式识别

这是来自全华人团队最新研究——业界首个专为高维时间序列预测设计的大规模基准Time-HD该基准涵盖神经科学、云计算、气象、金融等十个领域的16个数据集,变量数量最高可达两万团队还围绕该基准发布了首个高维时序开源框架。

3.高维算法

Time-HD-Lib,提供了标准化预处理、统一评估策略、自动化超参数搜索以及分布式训练,系统地填补了高维时序预测评测的空白同时提出预测模型U-Cast,不仅可以在多个数据集中将误差降低15%,训练速度还能提升近一倍。

4.高维数据

下面是有关该基准的更多细节内容时序预测领域向高维迈进从金融市场的上千支股票,到智慧城市交通网络的上万个传感器,毫无疑问我们正全面进入一个由高维时间序列数据驱动的时代然而,当前主流的时间序列预测(TSF)模型,大多仍停留在仅包含几个或几百个变量的低维环境(如ETT、Traffic)。

高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA(插图1

5.高维数据处理

在面对成千上万个变量构成的高维复杂系统时(Time-HD),则往往表现出明显的效率和性能的局限性另外也只有高维环境才能真正释放通道依赖型模型的价值在现有的低维数据集上,通道依赖型(Channel-Dependent, CD)模型相较通道独立型(Channel-Independent,CI)模型并未表现出稳定且显著的优势。

6.高维图像

而大规模数据集已被证明是多个研究领域取得突破的关键支撑,例如,CV中的ImageNet、MS COCO,NLP中的GLUE、SQuAD,以及Graph中的OGB,都在推动相应领域的发展中发挥了决定性作用。

7.高维数据 知乎

但在时序预测领域,始终缺乏同类的大规模基准,现有的大多数基准并不包含高维数据集,其中Time-MoE和TFB仅各包含一个高维数据集(分别为1K和2K维),而且用于训练基础模型的数据集通常存在数据点未对齐的问题,无法直接用于评测。

高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA(插图2

这些现象均表明,尽管社区中已有尝试向高维时序任务拓展,但其覆盖范围仍然有限,从而削弱了现有基准作为全面评测工具的有效性为时序预测设立全新高维基准为了进一步推动时序社区发展,研究团队构建了Time-HD——首个专为高维时间序列预测设计的大规模基准,具有以下特性:

高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA(插图3

1、高维特性(High Dimensionality):Time-HD包含16个高维时间序列预测数据集,这些数据集的变量数(维度)范围从1161到20000,显著高于常用基准(如ETT、Weather、ECL、Solar和Traffic,它们通常仅包含7–862个通道)。

高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA(插图4

2、数据来源多样性(Diverse Sources):Time-HD同时包含模拟数据集和真实世界数据集Neurolib和SIRS是基于领域知识的微分方程进行模拟生成的,适用于科学建模与假设检验,其余数据集则来源于真实观测数据,能够用于评估预测模型在实际场景中的泛化能力。

3、数据规模多层次(Varied Scales):Time-HD提供了不同规模的数据集,其规模由变量数量和时间序列长度共同决定,并可通过磁盘占用反映这种差异如表所示,其中包含4个大规模(GB级)、8个中等规模(数百MB级)和4个小规模(数十MB级)数据集。

中小规模数据集可以在单个GPU的内存中运行,适合用于评估计算资源密集型模型;而大规模数据集则支持基于小批量和分布式训练的可扩展方法研究4、采样频率多样性(Different Sampling Frequencies):。

Time-HD覆盖了多种采样频率,包括毫秒、分钟、小时和天,这种多样性反映了不同应用领域的真实场景,使得模型能够在不同时间分辨率下进行评估此外,Time-HD采用与采样频率对应的预测长度,而非以往基准中常见的固定预测步长,从而更贴近实际预测需求。

5、领域覆盖广泛(Broad Domain Coverage):Time-HD包含来自10个不同领域的数据集,包括神经科学、能源、云计算、气象、交通、流行病学、金融和社会行为等这样的多领域覆盖支持通用型预测模型的开发,并便于与特定领域方法进行对比研究。

高维时序预测的ImageNet时刻!首个高维时序预测基准发布,模型领跑多数据集SOTA(插图5

具体来说,研究团队提出了U-Cast架构,主要针对变量飙升带来的两大挑战:复杂的层级结构:在大规模系统中,变量之间往往呈现出隐含的层级关系(例如,金融市场中从板块到行业再到具体公司的层次),而现有模型大多无法有效捕捉这种多尺度关联 。

效率与扩展性瓶颈:传统的依赖通道间交互的模型,在面对上千个变量时,其计算成本和内存消耗会呈指数级增长,变得不切实际其核心设计包括:1、层级式潜查询网络(Hierarchical Latent Query Network):。

U-Cast不再依赖在所有变量间进行全局注意力计算的传统方式,而是引入一小组可学习的“潜查询”

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。