论文地址:https://arxiv.org/pdf/2310.10688
代码地址:https://github.com/google-research/timesfm/
为了更好地理解时间序列模型的理论与实现,推荐参考UP “ThePPP时间序列” 的教学视频。该系列内容系统介绍了时间序列相关知识,并提供配套的论文资料与代码示例,有助于理论与实践相结合。
https://space.bilibili.com/613453963
受自然语言处理(NLP)领域大型语言模型最新进展的启发,本研究设计了一个用于时间序列预测的基础模型,该模型在各种公共数据集上的开箱即用零样本性能,接近于在每个单独数据集上最先进的监督预测模型的准确性。本研究的模型基于预训练一个带有输入补丁的解码器风格注意力模型,使用包含真实世界和合成数据集的大型时间序列语料库。在一组先前未见过的预测数据集上进行的实验表明,该模型可以在不同的领域、预测范围和时间粒度上产生准确的零样本预测。
本研究致力于时间序列预测领域,旨在构建一个通用的时间序列基础模型,该模型无需针对特定数据集进行训练,即可在各种公开数据集上实现接近最先进水平的预测精度。
时间序列数据在零售、金融、制造、医疗和自然科学等领域广泛存在。其中,时间序列预测在零售供应链优化、能源和交通预测、天气预报等科学和工业应用中至关重要。近年来,深度学习模型在处理复杂、多变量的时间序列数据方面表现出色,超越了传统的统计方法,如ARIMA或GARCH。在诸如M5竞赛和IARAI Traffic4cast竞赛等多个预测竞赛中,基于深度网络的解决方案表现优异。
与此同时,自然语言处理(NLP)领域的大型基础模型在下游NLP任务中取得了显著进展。大型语言模型(LLMs)因其能够生成文本、翻译语言、创作各种创意内容以及提供信息性问答而日益普及。LLMs通过在海量数据上进行训练,学习人类语言的模式,从而成为强大的工具,可在零样本学习模式下应用于各种下游任务。
然而,时间序列预测与自然语言处理存在显著差异。在时间序列领域,缺乏明确定义的词汇或语法。此外,模型需要支持不同历史长度(上下文)、预测长度(范围)和时间粒度的预测。与用于预训练语言模型的庞大公共文本数据不同,大量时间序列数据不易获取。
尽管存在这些挑战,本研究旨在设计一个时间序列基础模型,该模型能够学习可用于先前未见过数据集的时间序列预测的时间模式,从而在无需额外训练的情况下,为下游预测用户带来显著效益,并大幅降低计算需求。本研究通过构建TimesFM模型,验证了这一设想的可行性。TimesFM是一个单一的时间序列预测基础模型,应用于不同领域的各种先前未见过的数据集时,可获得接近最先进水平的零样本精度。该模型可以在推理时处理不同的预测历史长度、预测长度和时间粒度。
本研究提出了一种名为TimesFM的时间序列预测基础模型,其创新点主要体现在以下几个方面:
基于大规模时间序列语料库的预训练:
解码器式注意力机制架构与输入分块:
长输出片段预测:
掩码策略以支持变长上下文:
在zero-shot场景下优异的性能: