收录于话题
本文提出了一种名为并行门控网络(Parallel Gated Network,PGN)的新型通用范式,作为循环神经网络(Recurrent Neural Network,RNN)的继任者,并基于PGN设计了一种新型时间建模框架——时间并行门控网络(Temporal Parallel Gated Network,TPGN),用于长程时间序列预测任务。
一、引言
长程时间序列预测在多个领域具有重要应用价值,例如能源、气候和交通等。与短程预测相比,长程预测能够提供更全面的信息,帮助个人和组织更准确地评估未来变化并做出明智决策。
近年来,基于深度学习的方法在时间序列预测领域取得了显著进展,主要分为以下四类范式:
-
Transformer: 基于自注意力机制,能够捕捉长距离依赖关系,但存在计算复杂度高、难以捕捉语义信息等问题。 -
卷积神经网络(CNN): 具有高效的并行计算能力,但受限于感受野,难以有效捕捉长程依赖关系。 -
多层感知器(MLP): 结构简单,计算效率高,但在提取深层语义信息方面存在局限。 -
RNN: 能够捕捉序列中的时间依赖关系,但存在以下主要问题: -
循环结构导致信息传播路径过长,难以有效捕捉长程依赖关系。 -
存在梯度爆炸/消失问题,训练难度大。 -
顺序计算方式导致计算效率低下,即使理论复杂度与序列长度L线性相关,但实际运行速度甚至可能比Transformer更慢。
针对RNN的局限性,本文提出了一种新的通用范式——PGN。
二、相关工作
2.1 时间维度建模
现有方法主要分为以下四类:
-
RNN: -
传统RNN存在信息传播路径过长、难以捕捉长程依赖关系等问题。 -
DilatedRNN 通过引入多尺度扩张机制缩短信息传播路径,但路径长度仍与序列长度L线性相关。 -
SlicedRNN 通过将序列分割为多个切片进行并行计算提高效率,但信息传播路径长度不变。 -
WITRAN 将序列重塑为二维,同时在两个方向进行信息传播,将信息传播路径缩短到O(VL),但仍相对较长。 -
CNN: -
具有高效的并行计算能力,但受限于感受野,需要堆叠多层模块才能捕捉全局信息,导致信息传播路径长度为O(G),G与序列长度L超线性相关。 -
TimesNet 通过二维建模方法将输入长度在两个方向上都设为O(VL),信息传播路径长度为O(VG)。 -
MICN 和 ModernTCN 通过扩大卷积核的感受野有效缩短信息传播路径,但由于采用一维建模方法,在捕捉周期性特征方面可能不如 TimesNet。 -
MLP: -
DLinear 和 NLinear 通过序列分解和重新归一化方法优化原始线性模型,实现基于历史输入的直接未来预测,但提取深层语义信息的能力有限。 -
TimeMixer 采用两个专用模块从多个尺度分析预测时间序列数据,能够有效捕捉周期性,但计算成本和训练难度较高。 -
FITS 将时间序列预测视为插值,将时间序列转换为频域进行处理,但可能忽略序列中存在的显式局部变化。 -
Transformer: -
基于逐点注意力机制的方法,如 Vanilla-Transformer、Informer 和 FEDformer,信息传播路径长度为O(1),但难以捕捉时间步长的语义信息。 -
Autoformer 通过序列分解在一定程度上捕捉时间序列的周期性,但不如 TimesNet 直接,且复杂度仍然较高,为O(L log L)。 -
Pyraformer 通过金字塔结构的特殊设计有效捕捉序列的周期性,但受限于卷积核初始化金字塔结构节点,复杂度为O(L)。 -
PatchTST 通过补丁捕捉局部语义信息,将复杂度降低到O((L/S)2),但仍无法直接捕捉序列的周期性。 -
iTransformer 主要关注变量之间的关系,包括时间序列变量与外部时间特征之间的关系,在时间维度上采用直接基于补丁的方法,难以有效提取周期性模式和其他局部特征。 -
PDF 也将原始一维序列转换为二维表示进行建模,利用CNN处理短期信息,难以充分捕捉序列中存在的所有周期性特征。
2.2 变量维度建模
现有方法主要分为以下四类:
-
变量融合处理: 由于多变量的异质性,会引入过多噪声,导致性能不如变量独立处理。 -
变量独立处理: 无法捕捉变量之间的关系。 -
基于Transformer的建模: 例如 Crossformer 和 iTransformer,利用注意力机制和图神经网络(GNN)在变量维度上建模,成功捕捉变量之间的相关性和差异性。 -
基于GNN的建模: 例如 CrossGNN 和 FourierGNN。
三、方法
3.1 并行门控网络(PGN)
PGN旨在解决RNN信息传播路径过长的问题。
结构与原理:
-
历史信息提取(HIE)层: 采用线性层并行聚合整个历史信息,每个时间步的计算独立于其他时间步,支持并行处理。 -
门控机制: 继承RNN信息选择和融合的优势,使用单个门控同时控制序列中所有时间步的信息选择和融合,减少计算开销。
计算过程:
给定长度为L的输入信号 ,PGN的计算过程如下:
其中:
-
将处理后的信号沿长度维度填充零向量。 -
为线性层,聚合所有历史信息。 -
和 为权重矩阵和偏置向量。 -
和 为中间变量, 为元素积, 和 为激活函数。 -
为PGN的输出。
优势:
-
将信息传播路径缩短到O(1),更好地捕捉长程依赖关系。 -
并行计算能力,显著提高实际运行速度。
3.2 时间并行门控网络(TPGN)
TPGN旨在解决PGN在时间序列预测任务中无法有效提取周期性语义信息的问题。
输入准备模块:
-
将一维序列重塑为二维表示,其中行表示短期变化,列表示长期周期性模式。 -
引入归一化层,减少数据波动对模型训练的影响。
TPGN:
-
长期信息提取分支: -
利用PGN沿着R维度进行建模,保留每个时间步的长期重复历史信息。 -
通过线性层聚合所有行的信息,得到输出 。 -
短期信息提取分支: -
利用线性层将短期信息聚合到补丁中。 -
再利用另一个线性层将补丁融合为序列的全局信息 。 -
将 重复P次,得到与长期信息提取分支输出维度相同的表示 。
预测模块:
-
将两个分支的输出连接起来,包含局部长期周期性特征和全局短期信息。 -
通过线性层预测未来不同位置的值。
复杂度分析:
-
PGN: 复杂度为O(L),与RNN相同,但实际效率更高。 -
TPGN: 复杂度为O(VL),其中V表示变量数量。
四、实验
4.1 实验结果
数据集: ECL、Traffic、ETTh1、ETTh2 和 Weather。
基线方法: WITRAN、ModernTCN、TimesNet、MICN、FITS、TimeMixer、DLinear、iTransformer、PDF、Basisformer、PatchTST 和 FiLM。
实验结果:
-
TPGN在所有任务中均取得了最先进的性能,平均MSE提高了12.35%,MAE提高了7.25%。 -
TPGN在 ECL 数据集上的MSE平均降低了17.31%,Traffic 数据集降低了9.38%,ETTh1 数据集降低了3.79%,ETTh2 数据集降低了12.26%,Weather 数据集降低了19.09%。 -
TPGN在预测不同长度的任务时,性能下降趋势较慢,表现出更强的长程预测能力。
4.2 消融研究
-
TPGN的两个分支分别捕捉长期和短期信息,并保留各自的特征。 -
长期信息提取分支对模型性能的影响更大,尤其是在周期性较强的数据上。 -
与具有多个门控的 GRU 和 LSTM 相比,PGN 仅使用一个门控,但性能更优,证明了 PGN 作为 RNN 继任者的能力。 -
TPGN框架具有很强的通用性和性能,即使将 PGN 替换为 GRU、LSTM 或 MLP,在某些任务中也能超过之前的 SOTA 方法。
4.3 执行效率
为了全面评估所提出方法的效率,本文进行了两组比较实验:
第一组实验: 固定输入长度为168,输出长度分别为168/336/720/1440,研究预测长度对模型实际运行效率的影响。
第二组实验: 固定输出长度为1440,输入长度分别为168/336/720/1440,研究历史输入序列长度对模型实际运行时间的影响。
效率分析考虑了时间和内存两个方面。实验选择了每种范式中具有代表性的方法作为比较方法,固定批量大小为32,模型维度大小为128,并使用单层模型进行测试。
实验结果表明:
-
虽然 TPGN 的时间和内存开销不是最低的,但在时间和空间效率方面均表现出较高的效率。 -
需要注意的是,TPGN 是一个单层模型,而其他大多数模型需要引入更深层,这不可避免地会导致更高的开销。 -
这进一步证明了本文方法不仅取得了最先进的性能,而且在效率方面也令人满意。
五、结论
本文提出了一种新的通用范式——并行门控网络(PGN)。PGN 具有 O(1) 信息传播路径和并行计算能力,在保持与 RNN 相同的理论复杂度 (O(L)) 的同时,实现了更快的运行速度。
为了增强 PGN 在长程时间序列预测任务中的应用,本文引入了一种新的时间建模框架——时间并行门控网络(TPGN),其复杂度为 O(VL)。TPGN 通过两个分支分别建模长期和短期信息,有效地捕捉周期性信息和局部-全局语义信息,同时保留各自的特征。
在五个基准数据集上的实验结果表明,基于 PGN 的框架 TPGN 取得了最先进的性能和高效率。这些发现进一步证实了 PGN 作为 RNN 在长程时间序列预测任务中的继任者的有效性。
(论文及代码已整理至星球)