论文地址:https://arxiv.org/pdf/2408.10006
代码地址: https://github.com/Eleanorkong/P-sLSTM
关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
传统的循环神经网络结构,如长短期记忆神经网络 (LSTM),在时间序列预测 (TSF) 任务中一直扮演着重要的角色。虽然最近为自然语言处理 (NLP) 引入的 sLSTM 引入了指数门控和记忆混合,这有利于长期序列学习,但其潜在的短时记忆问题是直接在 TSF 中应用 sLSTM 的一个障碍。为了解决这个问题,本研究提出了一种简单而有效的算法,名为 P-sLSTM,它建立在 sLSTM 的基础上,结合了分块和通道独立性。这些修改显著提高了 sLSTM 在 TSF 中的性能,达到了最先进的结果。此外,本研究为所提出的设计提供了理论上的论证,并进行了广泛的比较和分析实验,以充分验证模型的效率和卓越性能。
时间序列预测(TSF)是统计学和机器学习中的一个重要研究领域,在金融预测、交通和人类轨迹预测等领域具有广泛的应用。传统上,循环神经网络(RNNs)是建模序列数据的基石,因为它们具有捕捉时间依赖性的内在能力。在不同的RNN架构中,**长短期记忆网络(LSTM)**由于其解决了传统RNN的梯度消失和爆炸问题,并在长序列上表现出更好的性能,因此是最受欢迎和成功的网络之一。许多研究人员已经采用LSTM网络来预测各种时间序列数据,证明了它们在各个领域的有效性。
然而,LSTM在TSF中存在一些局限性。首先,尽管LSTM旨在捕捉比传统RNN更长的序列相关性,但它在统计和实验上都未能记住长序列信息。此外,LSTM缺乏利用其历史遗忘门动态修改存储决策的能力,这限制了它们适应数据变化的能力。因此,传统的RNN逐渐失去了其在时间序列任务中的主导地位,TSF的排行榜现在主要由Transformer和**多层感知机(MLPs)**等替代架构占据。
尽管存在这些限制,LSTM以及更广泛的RNN由于其优势,仍然是强大的工具和有希望的研究方向。首先,与大多数基于Transformer的模型相比,RNN具有更低的时间复杂度和内存复杂度,这使得它们在某些应用中更有效率。其次,RNN具有清晰的时间流,这使得它们更容易解释其决策,并理解信息如何在序列中流动,而Transformer和MLP结构则难以做到这一点。同时,**状态空间模型(SSMs)**在TSF和更广泛的深度学习研究领域受到了广泛关注。与其他黑盒深度学习模型相比,SSM可以从统计和物理角度进行解释,从而可能提供更好的可解释性。研究人员已经表明,LSTM/RNN可以被视为SSM的一种特殊情况,其中循环过程说明了信息的流动。因此,从这些发现的角度来看,LSTM/RNN也是一个合理的研究方向。
最近,LSTM的一个高级版本,名为sLSTM,被引入,它表明不仅可以修改记忆存储决策,还可以提高其记忆容量,从而在各种自然语言处理(NLP)任务中实现非常有竞争力的性能。鉴于高级LSTM在NLP中的成功,本研究旨在探索LSTM在时间序列预测中的潜力。本研究通过重新提出用于多元TSF的sLSTM,从而开发了一种名为P-sLSTM的新方法,从而对这个问题给出了肯定的答案。
本研究针对长时程时间序列预测(TSF)任务中传统LSTM的局限性,提出了P-sLSTM模型,其创新点主要体现在以下几个方面:
理论层面,阐释了sLSTM的优势:
⚠️ 指出sLSTM的局限性: ⚠️
引入Patching技术:
应用通道独立性(Channel Independence):
实验验证: