

在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Transformer具有提高预测能力的潜力。
然而,Transformer存在一些严重的问题,如:
-
二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。
为了解决这些问题,我们设计了一个有效的基于变换器的LSTF模型Informer,它具有三个显著的特点:
-
ProbSparse Self-Attention,在时间复杂度和内存使用率上达到了O(LlogL),在序列的依赖对齐上具有相当的性能。
-
self-attention 提取通过将级联层输入减半来突出控制注意,并有效地处理超长的输入序列。
-
产生式decoder虽然概念上简单,但在一个正向操作中预测长时间序列,而不是一步一步地进行,这大大提高了长序列预测的推理速度。
在四个大规模数据集上的大量实验表明,Informer的性能明显优于现有的方法,为LSTF问题提供了一种新的解决方案。








1. 实验效果

从上表中,我们发现:
-
所提出的模型Informer极大地提高了所有数据集的推理效果(最后一列的获胜计数),并且在不断增长的预测范围内,它们的预测误差平稳而缓慢地上升。
-
query sparsity假设在很多数据集上是成立的;
-
Informer在很多数据集上远好于LSTM和ERNN
2. 参数敏感性

从上图中,我们发现:
-
Input Length:当预测短序列(如48)时,最初增加编码器/解码器的输入长度会降低性能,但进一步增加会导致MSE下降,因为它会带来重复的短期模式。然而,在预测中,输入时间越长,平均误差越低:信息者的参数敏感性。长序列(如168)。因为较长的编码器输入可能包含更多的依赖项;
-
Sampling Factor:我们验证了冗余点积的查询稀疏性假设;实践中,我们把sample factor设置为5即可,即c=5;
-
Number of Layer Stacking:Longer stack对输入更敏感,部分原因是接收到的长期信息较多
3. 解耦实验

从上表中我们发现,
-
ProbSparse self-attention机制的效果:ProbSparse self-attention的效果更好,而且可以节省很多内存消耗;
-
self-attention distilling:是值得使用的,尤其是对长序列进行预测的时候;
-
generative stype decoderL:它证明了decoder能够捕获任意输出之间的长依赖关系,避免了误差的积累;
4. 计算高效性

本文研究了长序列时间序列预测问题,提出了长序列预测的Informer方法。具体地:
-
在训练阶段,在基于Transformer的方法中,Informer获得了最佳的训练效率。
-
-
设计了ProbSparse self-attention和提取操作来处理vanilla Transformer中二次时间复杂度和二次内存使用的挑战。
-
generative decoder缓解了传统编解码结构的局限性。
-
通过对真实数据的实验,验证了Informer对提高预测能力的有效性在测试阶段,我们的方法比其他生成式decoder方法要快得多。