NIPS 24 | PGN:RNN 的新继任者

收录于话题

#论文

NIPS 24 | PGN:RNN 的新继任者

本文提出了一种名为并行门控网络(Parallel Gated Network,PGN)的新型通用范式,作为循环神经网络(Recurrent Neural Network,RNN)的继任者,并基于PGN设计了一种新型时间建模框架——时间并行门控网络(Temporal Parallel Gated Network,TPGN),用于长程时间序列预测任务。

一、引言

长程时间序列预测在多个领域具有重要应用价值,例如能源、气候和交通等。与短程预测相比,长程预测能够提供更全面的信息,帮助个人和组织更准确地评估未来变化并做出明智决策。

NIPS 24 | PGN:RNN 的新继任者

近年来,基于深度学习的方法在时间序列预测领域取得了显著进展,主要分为以下四类范式:

  1. Transformer:  基于自注意力机制,能够捕捉长距离依赖关系,但存在计算复杂度高、难以捕捉语义信息等问题。
  2. 卷积神经网络(CNN):  具有高效的并行计算能力,但受限于感受野,难以有效捕捉长程依赖关系。
  3. 多层感知器(MLP):  结构简单,计算效率高,但在提取深层语义信息方面存在局限。
  4. RNN:  能够捕捉序列中的时间依赖关系,但存在以下主要问题:
    • 循环结构导致信息传播路径过长,难以有效捕捉长程依赖关系。
    • 存在梯度爆炸/消失问题,训练难度大。
    • 顺序计算方式导致计算效率低下,即使理论复杂度与序列长度L线性相关,但实际运行速度甚至可能比Transformer更慢。

针对RNN的局限性,本文提出了一种新的通用范式——PGN。

二、相关工作

2.1 时间维度建模

现有方法主要分为以下四类:

  1. RNN:
    • 传统RNN存在信息传播路径过长、难以捕捉长程依赖关系等问题。
    • DilatedRNN 通过引入多尺度扩张机制缩短信息传播路径,但路径长度仍与序列长度L线性相关。
    • SlicedRNN 通过将序列分割为多个切片进行并行计算提高效率,但信息传播路径长度不变。
    • WITRAN  将序列重塑为二维,同时在两个方向进行信息传播,将信息传播路径缩短到O(VL),但仍相对较长。
  2. CNN:
    • 具有高效的并行计算能力,但受限于感受野,需要堆叠多层模块才能捕捉全局信息,导致信息传播路径长度为O(G),G与序列长度L超线性相关。
    • TimesNet  通过二维建模方法将输入长度在两个方向上都设为O(VL),信息传播路径长度为O(VG)。
    • MICN 和 ModernTCN 通过扩大卷积核的感受野有效缩短信息传播路径,但由于采用一维建模方法,在捕捉周期性特征方面可能不如 TimesNet。
  3. MLP:
    • DLinear 和 NLinear 通过序列分解和重新归一化方法优化原始线性模型,实现基于历史输入的直接未来预测,但提取深层语义信息的能力有限。
    • TimeMixer  采用两个专用模块从多个尺度分析预测时间序列数据,能够有效捕捉周期性,但计算成本和训练难度较高。
    • FITS  将时间序列预测视为插值,将时间序列转换为频域进行处理,但可能忽略序列中存在的显式局部变化。
  4. Transformer:
    • 基于逐点注意力机制的方法,如 Vanilla-Transformer、Informer 和 FEDformer,信息传播路径长度为O(1),但难以捕捉时间步长的语义信息。
    • Autoformer  通过序列分解在一定程度上捕捉时间序列的周期性,但不如 TimesNet 直接,且复杂度仍然较高,为O(L log L)。
    • Pyraformer  通过金字塔结构的特殊设计有效捕捉序列的周期性,但受限于卷积核初始化金字塔结构节点,复杂度为O(L)。
    • PatchTST  通过补丁捕捉局部语义信息,将复杂度降低到O((L/S)2),但仍无法直接捕捉序列的周期性。
    • iTransformer  主要关注变量之间的关系,包括时间序列变量与外部时间特征之间的关系,在时间维度上采用直接基于补丁的方法,难以有效提取周期性模式和其他局部特征。
    • PDF  也将原始一维序列转换为二维表示进行建模,利用CNN处理短期信息,难以充分捕捉序列中存在的所有周期性特征。

2.2 变量维度建模

现有方法主要分为以下四类:

  1. 变量融合处理: 由于多变量的异质性,会引入过多噪声,导致性能不如变量独立处理。
  2. 变量独立处理: 无法捕捉变量之间的关系。
  3. 基于Transformer的建模: 例如 Crossformer 和 iTransformer,利用注意力机制和图神经网络(GNN)在变量维度上建模,成功捕捉变量之间的相关性和差异性。
  4. 基于GNN的建模: 例如 CrossGNN 和 FourierGNN。

三、方法

3.1 并行门控网络(PGN)

PGN旨在解决RNN信息传播路径过长的问题。

NIPS 24 | PGN:RNN 的新继任者

结构与原理:

  • 历史信息提取(HIE)层:  采用线性层并行聚合整个历史信息,每个时间步的计算独立于其他时间步,支持并行处理。
  • 门控机制:  继承RNN信息选择和融合的优势,使用单个门控同时控制序列中所有时间步的信息选择和融合,减少计算开销。

计算过程:

给定长度为L的输入信号  ,PGN的计算过程如下:

其中:

  •  将处理后的信号沿长度维度填充零向量。
  •  为线性层,聚合所有历史信息。
  •  和  为权重矩阵和偏置向量。
  •  和  为中间变量,  为元素积,  和  为激活函数。
  •  为PGN的输出。

优势:

  • 将信息传播路径缩短到O(1),更好地捕捉长程依赖关系。
  • 并行计算能力,显著提高实际运行速度。

3.2 时间并行门控网络(TPGN)

TPGN旨在解决PGN在时间序列预测任务中无法有效提取周期性语义信息的问题。

输入准备模块:

  • 将一维序列重塑为二维表示,其中行表示短期变化,列表示长期周期性模式。
  • 引入归一化层,减少数据波动对模型训练的影响。

TPGN:

  • 长期信息提取分支:
    • 利用PGN沿着R维度进行建模,保留每个时间步的长期重复历史信息。
    • 通过线性层聚合所有行的信息,得到输出  
  • 短期信息提取分支:
    • 利用线性层将短期信息聚合到补丁中。
    • 再利用另一个线性层将补丁融合为序列的全局信息  
    • 将    重复P次,得到与长期信息提取分支输出维度相同的表示  

预测模块:

  • 将两个分支的输出连接起来,包含局部长期周期性特征和全局短期信息。
  • 通过线性层预测未来不同位置的值。

复杂度分析:

  • PGN:  复杂度为O(L),与RNN相同,但实际效率更高。
  • TPGN:  复杂度为O(VL),其中V表示变量数量。

四、实验

4.1 实验结果

数据集:  ECL、Traffic、ETTh1、ETTh2 和 Weather。

基线方法:  WITRAN、ModernTCN、TimesNet、MICN、FITS、TimeMixer、DLinear、iTransformer、PDF、Basisformer、PatchTST 和 FiLM。

实验结果:

  • TPGN在所有任务中均取得了最先进的性能,平均MSE提高了12.35%,MAE提高了7.25%。
  • TPGN在 ECL 数据集上的MSE平均降低了17.31%,Traffic 数据集降低了9.38%,ETTh1 数据集降低了3.79%,ETTh2 数据集降低了12.26%,Weather 数据集降低了19.09%。
  • TPGN在预测不同长度的任务时,性能下降趋势较慢,表现出更强的长程预测能力。

NIPS 24 | PGN:RNN 的新继任者

NIPS 24 | PGN:RNN 的新继任者

4.2 消融研究

  • TPGN的两个分支分别捕捉长期和短期信息,并保留各自的特征。
  • 长期信息提取分支对模型性能的影响更大,尤其是在周期性较强的数据上。
  • 与具有多个门控的 GRU 和 LSTM 相比,PGN 仅使用一个门控,但性能更优,证明了 PGN 作为 RNN 继任者的能力。
  • TPGN框架具有很强的通用性和性能,即使将 PGN 替换为 GRU、LSTM 或 MLP,在某些任务中也能超过之前的 SOTA 方法。

NIPS 24 | PGN:RNN 的新继任者

4.3 执行效率

为了全面评估所提出方法的效率,本文进行了两组比较实验:

第一组实验: 固定输入长度为168,输出长度分别为168/336/720/1440,研究预测长度对模型实际运行效率的影响。

第二组实验: 固定输出长度为1440,输入长度分别为168/336/720/1440,研究历史输入序列长度对模型实际运行时间的影响。

效率分析考虑了时间和内存两个方面。实验选择了每种范式中具有代表性的方法作为比较方法,固定批量大小为32,模型维度大小为128,并使用单层模型进行测试。

NIPS 24 | PGN:RNN 的新继任者

实验结果表明:

  • 虽然 TPGN 的时间和内存开销不是最低的,但在时间和空间效率方面均表现出较高的效率。
  • 需要注意的是,TPGN 是一个单层模型,而其他大多数模型需要引入更深层,这不可避免地会导致更高的开销。
  • 这进一步证明了本文方法不仅取得了最先进的性能,而且在效率方面也令人满意。

五、结论

本文提出了一种新的通用范式——并行门控网络(PGN)。PGN 具有 O(1) 信息传播路径和并行计算能力,在保持与 RNN 相同的理论复杂度 (O(L)) 的同时,实现了更快的运行速度。

为了增强 PGN 在长程时间序列预测任务中的应用,本文引入了一种新的时间建模框架——时间并行门控网络(TPGN),其复杂度为 O(VL)。TPGN 通过两个分支分别建模长期和短期信息,有效地捕捉周期性信息和局部-全局语义信息,同时保留各自的特征。

在五个基准数据集上的实验结果表明,基于 PGN 的框架 TPGN 取得了最先进的性能和高效率。这些发现进一步证实了 PGN 作为 RNN 在长程时间序列预测任务中的继任者的有效性。

(论文及代码已整理至星球)

NIPS 24 | PGN:RNN 的新继任者


  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注