StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%-百合树AI写作-专业学术论文写作助手

收录于话题

#预测模型合集 #金融论文合集

“StockMixer: A Simple Yet Strong MLP-Based Architecture for Stock Price Forecasting”

股票价格预测是量化投资中的基本任务，涉及多元时间序列预测，因市场波动性大，预测准确性仍是挑战。现有深度学习方法通过专门的神经模块建模不同相关性，模型复杂性影响泛化能力，存在过拟合风险。

StockMixer是一个基于MLP的轻量级的混合架构，通过轻量级的指标、时间和股票混合块组合，避免使用不同的子网络。实验表明，StockMixer在三个指标上平均性能提升7.6%、10.8%和10.9%，优于现有基准。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

论文地址：https://ojs.aaai.org/index.php/AAAI/article/view/28681

Github地址：https://github.com/SJTU-Quant/StockMixer

摘要

股票价格预测是量化投资中的重要且具有挑战性的任务。研究者们使用多种神经网络模型（如RNN、GNN、Transformer）来捕捉复杂的指标、时间和股票相关性。复杂架构难以优化，且受限于股票数据，性能常常受损。

本文提出了一种简单的基于MLP的架构StockMixer，易于优化且具有强预测性能。StockMixer通过指标混合、时间混合和股票混合进行预测。时间混合用于交换多尺度时间信息，股票混合则明确利用股票与市场之间的影响。实验表明，StockMixer在真实股票基准上显著超越多种先进预测方法，同时降低内存使用和运行成本。

简介

股票价格预测是量化投资中的基本任务，涉及多元时间序列预测，因市场波动性大，预测准确性仍是挑战。早期使用基本机器学习方法（如决策树、支持向量机、KNN）挖掘股票数据中的复杂模式。深度学习的兴起促使研究者开发灵活的神经网络架构，以利用对股市的直观理解。研究的三种相关性：

指标相关性：建模股票每日金融指标之间的依赖关系，提取高层次特征。
时间相关性：股票价格受供需平衡影响，前几天的趋势可预测未来走势。
股票相关性：同一市场内的股票相互关联，行业内股票可能因行业事件共同上涨。

现有深度学习方法通过专门的神经模块建模不同相关性，使用RNN、GNN和Transformer等架构，但混合模型复杂性可能影响泛化能力。股票价格数据有限，存在过拟合风险；混合模型优化困难，可能导致性能下降；某些组件可能学习到不准确的归纳偏差。MLP架构在计算机视觉任务中表现优于传统卷积和注意力机制，具有简单性和线性计算效率，适合股票价格预测。MLP混合方法在实验中表现不佳，主要面临两个技术挑战：时间相关性复杂，简单的时间混合不足；股票间的直接混合可能影响模型性能。需要寻找有效的时间混合和股票混合方案，以克服上述挑战。

本文提出了一种名为StockMixer的轻量级MLP架构用于股票价格预测，包含指标混合、时间混合和股票混合模块，以捕捉复杂的股票数据相关性。识别标准MLP混合的不足，引入基于补丁的多尺度时间混合和市场感知的股票混合，利用股票模式特征。在NASDAQ、NYSE和S&P500三个真实股票基准上进行广泛实验，结果表明StockMixer在多项评估指标上优于现有最先进方法。

相关工作

股票价格预测

最初基于历史数据的数值特征，采用传统数学算法。基于深度学习的方法使用递归神经网络和卷积神经网络进行短期趋势预测。为了增强信号处理探索自注意力机制、对抗训练和门控因果卷积。为了考虑股票间关系RSR模型使用时间图卷积，LSTM-RGCN处理股票间的正负相关，STHAN-R基于Wiki数据增强相关性。ESTIMATE利用超图捕捉非成对相关性，结合时间生成滤波器。

基于MLP的架构

MLP在计算机视觉领域重新受到关注，MLPMixer通过操作图像块，提升了简单MLP的归纳偏置，性能与CNN和Transformer相当。一系列研究利用MLP-Mixer增强简单MLP结构的学习能力，提升时间序列预测性能。然而，由于股票数据缺乏周期性且动态变化，MLP方法在股票数据集上的表现不如基本模型。

方法

问题建模

输入标准化的历史股票数据和多个指标（如开盘价、收盘价、5日平均收盘价），输出次日收盘价以计算1日收益率。股票市场数据由N只股票组成，记为X={X1,X2,…,XN}，每只股票Xi包含长度为T的历史数据，指标维度为F。目标是预测交易日t的收盘价 StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10% ，并计算1日收益率：

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

模型参数为θ，过程表示为：

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

普通的基于MLP的架构

MLPMixer是一种轻量级图像分类方法，主要依赖线性层、残差连接和数据变换。其优势在于不同维度间的信息交换，增强模型的表达能力，特别适用于股票市场数据。残差连接在输入与混合特征间保持平衡，层归一化减少数据偏移影响。新嵌入计算公式为：

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

非线性激活函数对预测性能影响显著，实验表明ReLU和HardSwish在时间数据上表现优于GeLU。

StockMixer

StockMixer包括指标与时间混合、股票混合两部分，前者提取各股票的表示，后者捕捉市场中股票间的复杂关联，最终结合这两种表示预测收盘价。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

指标混合。历史股价是未来趋势的重要指标，需在每个时间步交换指标信息。采用MLP结构进行指标混合，公式为：

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

时间混合。强调时间顺序，早期时间步的信息影响后期，采用上三角矩阵结构避免信息泄露，公式为：

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

现有研究在长时间序列预测中使用MLP，但主要依赖于稳定的周期性数据（如电力和交通），不适用于股市的短期波动。为了提高对短序列的模式挖掘能力，提出将原始时间序列分割为子序列级别的补丁，并在不同尺度上混合特征。通过平均池化或一维卷积将每个补丁的表示映射为整体表示，形成压缩序列x(k)。经过指示混合和时间混合后，得到混合嵌入h(k)，并通过全连接层聚合最终的时间表示h。该方法通过结合不同尺度的信息，提升模型在有限序列上的多层次特征表示和泛化能力。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

股票混合。通过MLP-Mixer捕捉股票间关系，无需外部知识。设定隐藏维度为N，模拟完全连接图的消息传递，但可能导致过拟合。为提高模型性能，采用超图思想，将信息交换分为股票到市场和市场到股票。使用超参数m替代标准混合的隐藏维度，形成自学习超图。公式表示为：

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

其中M1和M2分别进行信息压缩和恢复。最终通过连接股票自身表示和市场影响表示，送入全连接层进行维度缩减以获得预测结果。

损失函数

使用1日回报率作为股票的真实值，区别于以往的标准化价格。结合点对点回归和成对排名损失，最小化预测回报率与实际回报率之间的均方误差（MSE）。目标是保持高预期回报股票的相对排名。损失函数L的形式为：

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

实验

实验设置

数据集。使用美国股市的三个真实数据集（NASDAQ、NYSE、S&P500），包含完整的行业关系，时间范围为2013年1月2日至2017年12月8日，去除异常模式和便士股。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

实现细节。模型使用PyTorch实现，采用16天的回溯窗口，k值设为1、2、4，市场超参数通过网格搜索确定，分别为20、25、8。损失因子α为0.1，学习率为1e-3。在配备Intel Xeon Silver 4110 CPU、128GB内存和Nvidia GeForce RTX 2080 Ti GPU的服务器上进行，每个实验重复3次，报告平均性能。

评估指标。采用四种常用且稳定的评估指标，便于比较不同方法的性能。

信息系数（IC）：通过平均皮尔逊相关系数评估预测与实际结果的接近程度。
排名信息系数（RIC）：基于股票短期利润潜力的排名，使用平均斯皮尔曼系数计算。
Precision@N：评估前N个预测的准确率，例如N=10时，若4个为正，则Precision@10为40%。
夏普比率（SR）：考虑收益与风险，计算单位波动下的平均收益，公式为SR = (R_t – R_f) / θ。

基线。比较了多种先进基线模型的性能：

LSTM：应用于时间价格数据的传统LSTM。
ALSTM：结合对抗训练和随机性模拟的增强LSTM。
RGCN：使用关系图卷积网络建模多关系。
GAT：利用图注意力网络聚合股票嵌入。
RSR：结合时间图卷积与LSTM，选择RSR-I作为基线。
STHAN-SR：使用超图注意力与时间Hawkes注意LSTM建模关系。
ESTIMATE：在LSTM上实现记忆机制，捕捉非成对相关性。
Linear：仅使用简单的全连接层进行价格预测。

整体表现

单变量方法（LSTM和ALSTM）表现不如混合架构，强调市场关系的重要性；RNN在小规模股票（如S&P500）中速度快且表现好。超图架构更有效地建模复杂的股票间依赖关系，超边聚合行业信息反映市场属性。简单线性模型缺乏足够的归纳偏置，导致表现不佳；MLP方法在未考虑股票数据特征时效果更差，短期回溯窗口导致严重过拟合。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

StockMixer在大多数指标上表现最佳，平均相对性能提升7.6%、10.8%和10.9%；参数量仅次于RNN，计算时间远少于图消息传递；在NYSE大规模股票上表现略有下降，可能因归纳偏置不足。

消融分析

三个混合模块的去除实验表明，各部分共同影响模型性能，其中时间维度的混合最为重要。StockMixer采用时间优先的框架，强调指标特征的混合对股票运动的重要性。模型影响顺序为时间 > 股票 > 指标，替换指标混合为LSTM的变体与STHAN-SR表现相当。MLP编码器优于RNN，因其能更好地捕捉跨指标相关性。激活函数对模型性能影响显著，ReLU和HardSwish优于GELU、Sigmoid和tanh。层归一化实验未显示显著差异。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

超参数敏感性

回顾窗口长度T。适中窗口长度表现最佳，过短缺乏信息，过长导致学习成本增加。

市场维度m。不同数据集在不同 m 下表现最佳，S&P500 在 m > 10 时显著下降，NYSE 在 m ≈ 30 时表现良好。

多尺度因子k。StockMixer 在 k = 3 时获得最佳结果，整体表现良好。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

总结

本文提出了StockMixer，一种增强的MLP架构用于股票价格预测。StockMixer通过轻量级的指标、时间和股票混合块组合，避免使用不同的子网络。时间混合考虑多种尺度，构建更优的时间编码器，提升时间数据处理。股票混合分解标准混合块，实现股票与市场之间的信息交换，更稳健地建模股票相关性。实验表明，StockMixer在三个指标上平均性能提升7.6%、10.8%和10.9%，优于现有基准。未来计划优化超参数选择，并将StockMixer适应更多股票市场。

▌关于我们

我们致力于提供优质的AI服务，涵盖人工智能、数据分析、深度学习、机器学习、计算机视觉、自然语言处理、语音处理等领域。如有相关需求，请私信与我们联系。

▌商务合作

请加微信“LingDuTech163”，或公众号后台私信“联系方式”。

关注【灵度智能】公众号，获取更多AI资讯。

文章内容来自于网络，由百合树AI整理，如有侵权，联系删除。如需开始AI写作请返回主页。

StockMixer：一个简单而强大的股票价格预测架构，性能提升超过10%

相关推荐

发表回复 取消回复

发表回复取消回复