NIPS 24 | PGN：RNN 的新继任者-百合树AI写作-专业学术论文写作助手

收录于话题

NIPS 24 | PGN：RNN 的新继任者

本文提出了一种名为并行门控网络（Parallel Gated Network，PGN）的新型通用范式，作为循环神经网络（Recurrent Neural Network，RNN）的继任者，并基于PGN设计了一种新型时间建模框架——时间并行门控网络（Temporal Parallel Gated Network，TPGN），用于长程时间序列预测任务。

一、引言

长程时间序列预测在多个领域具有重要应用价值，例如能源、气候和交通等。与短程预测相比，长程预测能够提供更全面的信息，帮助个人和组织更准确地评估未来变化并做出明智决策。

NIPS 24 | PGN：RNN 的新继任者

近年来，基于深度学习的方法在时间序列预测领域取得了显著进展，主要分为以下四类范式：

Transformer: 基于自注意力机制，能够捕捉长距离依赖关系，但存在计算复杂度高、难以捕捉语义信息等问题。
卷积神经网络（CNN）: 具有高效的并行计算能力，但受限于感受野，难以有效捕捉长程依赖关系。
多层感知器（MLP）: 结构简单，计算效率高，但在提取深层语义信息方面存在局限。
RNN: 能够捕捉序列中的时间依赖关系，但存在以下主要问题：

循环结构导致信息传播路径过长，难以有效捕捉长程依赖关系。
存在梯度爆炸/消失问题，训练难度大。
顺序计算方式导致计算效率低下，即使理论复杂度与序列长度L线性相关，但实际运行速度甚至可能比Transformer更慢。

针对RNN的局限性，本文提出了一种新的通用范式——PGN。

二、相关工作

2.1 时间维度建模

现有方法主要分为以下四类：

RNN:

传统RNN存在信息传播路径过长、难以捕捉长程依赖关系等问题。
DilatedRNN 通过引入多尺度扩张机制缩短信息传播路径，但路径长度仍与序列长度L线性相关。
SlicedRNN 通过将序列分割为多个切片进行并行计算提高效率，但信息传播路径长度不变。
WITRAN 将序列重塑为二维，同时在两个方向进行信息传播，将信息传播路径缩短到O(VL)，但仍相对较长。

CNN:

具有高效的并行计算能力，但受限于感受野，需要堆叠多层模块才能捕捉全局信息，导致信息传播路径长度为O(G)，G与序列长度L超线性相关。
TimesNet 通过二维建模方法将输入长度在两个方向上都设为O(VL)，信息传播路径长度为O(VG)。
MICN 和 ModernTCN 通过扩大卷积核的感受野有效缩短信息传播路径，但由于采用一维建模方法，在捕捉周期性特征方面可能不如 TimesNet。

MLP:

DLinear 和 NLinear 通过序列分解和重新归一化方法优化原始线性模型，实现基于历史输入的直接未来预测，但提取深层语义信息的能力有限。
TimeMixer 采用两个专用模块从多个尺度分析预测时间序列数据，能够有效捕捉周期性，但计算成本和训练难度较高。
FITS 将时间序列预测视为插值，将时间序列转换为频域进行处理，但可能忽略序列中存在的显式局部变化。

Transformer:

基于逐点注意力机制的方法，如 Vanilla-Transformer、Informer 和 FEDformer，信息传播路径长度为O(1)，但难以捕捉时间步长的语义信息。
Autoformer 通过序列分解在一定程度上捕捉时间序列的周期性，但不如 TimesNet 直接，且复杂度仍然较高，为O(L log L)。
Pyraformer 通过金字塔结构的特殊设计有效捕捉序列的周期性，但受限于卷积核初始化金字塔结构节点，复杂度为O(L)。
PatchTST 通过补丁捕捉局部语义信息，将复杂度降低到O((L/S)2)，但仍无法直接捕捉序列的周期性。
iTransformer 主要关注变量之间的关系，包括时间序列变量与外部时间特征之间的关系，在时间维度上采用直接基于补丁的方法，难以有效提取周期性模式和其他局部特征。
PDF 也将原始一维序列转换为二维表示进行建模，利用CNN处理短期信息，难以充分捕捉序列中存在的所有周期性特征。

2.2 变量维度建模

现有方法主要分为以下四类：

变量融合处理：由于多变量的异质性，会引入过多噪声，导致性能不如变量独立处理。
变量独立处理：无法捕捉变量之间的关系。
基于Transformer的建模：例如 Crossformer 和 iTransformer，利用注意力机制和图神经网络（GNN）在变量维度上建模，成功捕捉变量之间的相关性和差异性。
基于GNN的建模：例如 CrossGNN 和 FourierGNN。

三、方法

3.1 并行门控网络（PGN）

PGN旨在解决RNN信息传播路径过长的问题。

NIPS 24 | PGN：RNN 的新继任者

结构与原理:

历史信息提取（HIE）层: 采用线性层并行聚合整个历史信息，每个时间步的计算独立于其他时间步，支持并行处理。
门控机制: 继承RNN信息选择和融合的优势，使用单个门控同时控制序列中所有时间步的信息选择和融合，减少计算开销。

计算过程:

给定长度为L的输入信号，PGN的计算过程如下：

其中:

将处理后的信号沿长度维度填充零向量。
为线性层，聚合所有历史信息。
和为权重矩阵和偏置向量。
和为中间变量，为元素积，和为激活函数。
为PGN的输出。

优势:

将信息传播路径缩短到O(1)，更好地捕捉长程依赖关系。
并行计算能力，显著提高实际运行速度。

3.2 时间并行门控网络（TPGN）

TPGN旨在解决PGN在时间序列预测任务中无法有效提取周期性语义信息的问题。

输入准备模块:

将一维序列重塑为二维表示，其中行表示短期变化，列表示长期周期性模式。
引入归一化层，减少数据波动对模型训练的影响。

TPGN:

长期信息提取分支:

利用PGN沿着R维度进行建模，保留每个时间步的长期重复历史信息。
通过线性层聚合所有行的信息，得到输出。

短期信息提取分支:

利用线性层将短期信息聚合到补丁中。
再利用另一个线性层将补丁融合为序列的全局信息。
将重复P次，得到与长期信息提取分支输出维度相同的表示。

预测模块:

将两个分支的输出连接起来，包含局部长期周期性特征和全局短期信息。
通过线性层预测未来不同位置的值。

复杂度分析:

PGN: 复杂度为O(L)，与RNN相同，但实际效率更高。
TPGN: 复杂度为O(VL)，其中V表示变量数量。

四、实验

4.1 实验结果

数据集: ECL、Traffic、ETTh1、ETTh2 和 Weather。

基线方法: WITRAN、ModernTCN、TimesNet、MICN、FITS、TimeMixer、DLinear、iTransformer、PDF、Basisformer、PatchTST 和 FiLM。

实验结果:

TPGN在所有任务中均取得了最先进的性能，平均MSE提高了12.35%，MAE提高了7.25%。
TPGN在 ECL 数据集上的MSE平均降低了17.31%，Traffic 数据集降低了9.38%，ETTh1 数据集降低了3.79%，ETTh2 数据集降低了12.26%，Weather 数据集降低了19.09%。
TPGN在预测不同长度的任务时，性能下降趋势较慢，表现出更强的长程预测能力。

NIPS 24 | PGN：RNN 的新继任者

4.2 消融研究

TPGN的两个分支分别捕捉长期和短期信息，并保留各自的特征。
长期信息提取分支对模型性能的影响更大，尤其是在周期性较强的数据上。
与具有多个门控的 GRU 和 LSTM 相比，PGN 仅使用一个门控，但性能更优，证明了 PGN 作为 RNN 继任者的能力。
TPGN框架具有很强的通用性和性能，即使将 PGN 替换为 GRU、LSTM 或 MLP，在某些任务中也能超过之前的 SOTA 方法。

NIPS 24 | PGN：RNN 的新继任者

4.3 执行效率

为了全面评估所提出方法的效率，本文进行了两组比较实验：

第一组实验: 固定输入长度为168，输出长度分别为168/336/720/1440，研究预测长度对模型实际运行效率的影响。

第二组实验: 固定输出长度为1440，输入长度分别为168/336/720/1440，研究历史输入序列长度对模型实际运行时间的影响。

效率分析考虑了时间和内存两个方面。实验选择了每种范式中具有代表性的方法作为比较方法，固定批量大小为32，模型维度大小为128，并使用单层模型进行测试。

NIPS 24 | PGN：RNN 的新继任者

实验结果表明：

虽然 TPGN 的时间和内存开销不是最低的，但在时间和空间效率方面均表现出较高的效率。
需要注意的是，TPGN 是一个单层模型，而其他大多数模型需要引入更深层，这不可避免地会导致更高的开销。
这进一步证明了本文方法不仅取得了最先进的性能，而且在效率方面也令人满意。

五、结论

本文提出了一种新的通用范式——并行门控网络（PGN）。PGN 具有 O(1) 信息传播路径和并行计算能力，在保持与 RNN 相同的理论复杂度 (O(L)) 的同时，实现了更快的运行速度。

为了增强 PGN 在长程时间序列预测任务中的应用，本文引入了一种新的时间建模框架——时间并行门控网络（TPGN），其复杂度为 O(VL)。TPGN 通过两个分支分别建模长期和短期信息，有效地捕捉周期性信息和局部-全局语义信息，同时保留各自的特征。

在五个基准数据集上的实验结果表明，基于 PGN 的框架 TPGN 取得了最先进的性能和高效率。这些发现进一步证实了 PGN 作为 RNN 在长程时间序列预测任务中的继任者的有效性。

(论文及代码已整理至星球)

NIPS 24 | PGN：RNN 的新继任者

NIPS 24 | PGN：RNN 的新继任者

一、引言

二、相关工作

2.1 时间维度建模

2.2 变量维度建模

三、方法

3.1 并行门控网络（PGN）

3.2 时间并行门控网络（TPGN）

四、实验

4.1 实验结果

4.2 消融研究

4.3 执行效率

五、结论

相关推荐

发表回复 取消回复

发表回复取消回复