收录于话题
本文研究了基于金融分析师覆盖网络的动量交易信号的效力。该信号基于金融卖方分析师在现代股票市场中扮演的关键信息中介角色。每个分析师覆盖的股票篮子可以用来构建公司之间的网络,其边权重代表共同覆盖两家公司的分析师数量。尽管文献中已经研究了金融分析师覆盖与公司股票价格共同运动之间的联系,但很少有人系统地学习分析师共同覆盖公司信号的组合,以利用任何溢出效应。为了填补这一空白,本文构建了一种交易策略,该策略利用图注意力网络利用分析师覆盖网络。具体来说,该模型学习在节点级预测任务中聚合来自单个公司特征和邻近公司信号的信息。基于这些预测构建的投资组合显示出29.44%的年化回报率和4.06的夏普比率,大幅超越市场基准和现有的基于图机器学习的框架。通过广泛的实证分析,进一步研究了这种策略的表现和稳健性。本文是首次尝试使用图机器学习从分析师覆盖网络提取可操作知识用于实际金融应用的尝试之一。
1. 引言
金融分析师在现代金融市场中扮演着重要的信息处理角色。他们提供有关公司健康状况的信号,他们对未来的公司结果的预测传统上被视为股票挑选者轻松掌握市场“脉搏”的捷径。然而,一个或多个分析师同时覆盖两家公司也被证明可以解释这些公司回报之间更高水平的回报相关性。这表明,除了提供信息外,卖方分析师覆盖还会影响投资者注意力,本文提出利用这种注意力来构建交易策略。
2. 相关工作
分析师覆盖网络及其解释股票市场中各种动量溢出效应的潜力在最近的文献中引起了广泛关注。几项研究调查了公司之间的经济和基本联系,以更好地理解和利用投资策略中的领先-滞后效应。这种效应在同行业的公司之间很明显,提供类似产品的公司,通过供应商-客户链连接的公司,共享共同技术创新的公司,位于同一地理区域的公司,拥有重叠机构所有权的公司,以及那些拥有相同战略联盟的公司。
除了上述关系外,Ali和Hirshleifer引入了共享分析师覆盖作为确定公司相关性的另一种全面方法。他们特别强调了其解释各种先前建立的跨资产动量效应的潜力,例如行业动量、地理动量或客户动量。他们认为,分析师联系特别擅长揭示公司之间的基本关系,比其他识别公司联系的方法(如行业网络和相关性)更为有效。忽视分析师覆盖网络的投资者可能低估了公司之间冲击传播的基本渠道,从而解释了分析师覆盖网络上的强连接邻居之间的动量溢出效应。Ali和Hirshleifer还认为,共享分析师覆盖可以比简单的二元变量或部门分组更准确地量化公司关系的强度,并解决其他方法面临的挑战,例如难以获取给定公司的完整供应商信息。
关于共享分析师覆盖的最新论文进一步探讨了其统一动量溢出效应和预测回报的潜力。关键研究包括Gomes等人,他们调查了分析师覆盖网络在公司财务政策中的作用。Yi和Guo提供了来自中国的证据,说明共同分析师联系如何预测回报,而Jiang等人则探讨了中国公司之间的连接公司动量溢出。Oyeniyi等人讨论了从卖方分析师的覆盖网络中获利,Israelsen建议投资者做出相关的错误信息处理错误,可以使用分析师覆盖网络进行跟踪,并帮助解释其与过度共同运动之间的联系,Martens和Sextroh检查了由于重叠分析师覆盖而产生的公司间信息溢出。
尽管现有文献在理解分析师覆盖网络在解释动量溢出效应中的作用方面取得了重大进展,但仍然存在一些差距,我们的研究旨在解决这些问题。以前的研究主要集中在使用简单的聚合方法,例如公司直接邻居动量的加权平均值,来创建领先-滞后投资组合。然而,这些方法可能无法完全捕捉分析师覆盖网络中公司之间的复杂和非线性关系,限制了其准确预测未来股票回报的能力。此外,现有方法缺乏根据投资组合中公司的更高频率信息调整聚合系数强度的灵活性,阻碍了策略应对快速变化的市场条件和公司特定事件的能力。
我们的研究旨在通过利用图机器学习技术的力量,特别是图注意力网络(GAT),来解决这些差距,以开发一种更复杂和自适应的方法来建模分析师覆盖网络并预测股票回报。GAT的基于注意力的架构允许我们的模型为分析师覆盖网络中的每个公司的邻居分配不同的重要性权重,从而使其对公司在公司之间相互作用的表示比在构建原始分析师覆盖网络投资组合的无模型方法中使用的静态权重更加灵活。
3. 方法
3.1 数据
3.1.1 数据源
我们研究了一个从WRDS托管的CRSPR/COMPUSTAT数据源提取的股票价格数据集,涵盖了2006-2022年期间。该数据集由495家SNP500公司组成,涵盖多个行业。我们将这个数据集与2006年至2022年的机构经纪人估计系统(IBES)分析师估计信息结合起来。这些估计值是2006-2022年期间我们样本中每家公司的分析师记录的。这些前瞻性预测是在年度、季度或月度范围内进行的。
3.1.2 股票价格的动量指标
我们计算了公司i在A时间段的log回报,我们选择5个A来表示几个回报范围A ∈ [1, 21, 63, 126, 252],分别对应过去1, 21, 63, 126和252天的回报。
我们根据[2]中的公式2定义3个额外的公司级指标,基于不同的短期(S)和长期(L)时间尺度,属于(S, L) ∈ (8, 24), (16, 48), (32, 96)。
我们选择月度目标作为对分析师矩阵的统计查询,因为我们假设月度频率是分析师覆盖对投资者影响显现的合理时间框架。
我们将每个目标变量yi,t+21堆叠到一个目标向量Yt+21中。我们的目标是定义一个函数,该函数产生最佳的t+21,即对超常和欠常表现的样本外预测。这个预测的形式是预测属于1类或0类的概率。
我们通过购买对应于t+21中预测超常表现概率最高的25%的股票,将t+21转换为投资策略。类似地,我们卖出对应于Yt+21中预测欠常表现概率最高的25%的股票。
3.3 提出的方法
对于我们样本中的给定交易日t,我们有一个特征矩阵Xt,一个邻接矩阵At和一个目标向量Yt+21。我们使用这些来构建图G = At, Xt,并训练一个GAT,该GAT学习网络信息与目标之间的映射,形式为GAT (At, Xt) = Yt+21。这个三元组At, Xt和Yt+21定义了一个样本,3.4节描述了我们如何将这些样本组合起来形成我们的训练-验证-测试集。
GAT层将节点特征矩阵Xt = [xit, X2,t, … , XNt]作为输入,其中N是节点数,xit是维度为D的向量,其中D是每个输入节点中的特征数。在我们的设置中,如3.1.2节所述,维度数为8。我们描述了将每个节点特征向量xit转换为应用每个GAT层后的更新值xit的机制。它使用公式4中描述的注意力函数,该函数使用共享的注意力机制a计算两个向量之间的注意力得分:RD x RD -> R。
GAT还使用softmax函数对注意力得分进行归一化,以便在层之间进行比较。
获得注意力得分a后,GAT层使用权重矩阵W和ReLU函数的非线性变换进行参数化,以获得更新的特征表示xit,如公式6所述。
我们提出的模型设置为使用任意数量的GAT层,然后是一个线性层,带有可学习的权重矩阵Wlinear。
3.4 训练策略
我们将17年的数据集分成204个1个月的交易周期,在每个周期结束时,我们重新训练和验证我们的模型。为了获得训练、验证和测试集,我们将多个三元组At, Xt和Yt+21组合在一起。我们将每个交易周期的前10个样本(从t=0到t=9)组合起来形成我们的训练集,我们将接下来的10个样本(从t=10到t=20)组合起来形成我们的验证集,最后,我们在第21个样本上测试我们的模型,对应于t=21。
对于验证,我们使用网格搜索进行超参数调整,设置如下:学习率 ∈ {1e-2,1e-3,1e-4},层大小 ∈ {64,128},层数 ∈ {1,2},权重衰减正则化 ∈ {1e-4,1e-5,1e-6},以及注意力头 ∈ {2,8}。
3.5 比较基准模型
我们还考虑了与我们的模型性能进行比较的几种候选方法。这些方法都利用了特征矩阵Xt或网络信息At,并作为文献中构建交易信号的替代方案。这些在表1中总结如下:
(1) 市场多头:购买市场上所有股票,权重相等
(2) MACD动量:平均公式2中定义的动量指标,用作交易指标。
(3) 分析师矩阵:平均分析师覆盖矩阵上1跳邻居的动量。
(4) 神经网络(NN):使用2层前馈神经网络来预测t+21
3.6 消融研究
我们还对不同设置下基于图注意力的模型的性能进行了一系列消融研究,以了解是什么驱动了它的性能,并更好地理解哪些特征增加了价值。为此,我们采用3.3节中描述的基本设置,并替换基本GAT模型的不同组件:
GCN:一种图卷积网络学习模型,不使用注意力来传播信息。
GAT1_layer:只有1层的GAT模型,而不是我们初始设置的2层。
GATcorr:一个GAT模型,它使用相关性矩阵作为邻域信息,我们通过消除相关性低于第90百分位的边将其转换为邻接矩阵。
GATindustries:一个GAT模型,它使用GICS工业分类作为邻域信息,只有当公司属于同一行业时,它们才会连接。
GAT del edge:一个GAT模型,它使用原始分析师网络,其中60%被随机删除。
3.7 评估指标
我们通过计算其相应投资组合的回报显示的多个特征来评估这些策略。这些是:
回报:策略的年化平均总回报率
波动率:它们在时间段内的年化平均标准差百分比回报率,表示为Vol。
夏普比率:平均年化回报率减去无风险利率除以标准差,是投资组合的风险调整回报率的衡量标准。
最大回撤(MD):投资组合达到的最大峰值到谷值跨度
最大回撤持续时间(MDD):投资组合处于回撤状态的最大连续时间段数,表示为整个记录时间段数的百分比。
此外,我们还通过将每个交易期的对数回报相加来计算每个策略的累积对数回报。这为我们提供了一个最终衡量标准,说明策略在总回报方面的表现如何。
4. 结果
4.1 预测性能比较
表2显示了不同策略与用于评估性能的金融测试的结果。市场多头仅显示0.411的夏普比率和6.89%的回报率,表现相对较差。它还显示了最长的最大回撤,损失了-39.4%的价值。分析师矩阵策略在回报率(1.83%)和风险调整回报率(年化夏普比率0.069)方面都是表现最差的策略。它在最大回撤持续时间方面也表现最差,有51%的交易回测期(对应103个月)。MACD策略的表现优于分析师矩阵和市场多头策略,夏普比率为0.672,并显示出-35%的最大回撤和39个交易期的最大回撤持续时间(21%)。神经网络的表现优于之前介绍的所有策略,夏普比率为1.753(是下一个最好的MACD的两倍多),最大回撤率要低得多,为-6.42%。神经网络策略的MDD比MACD短,4.0%对19%。最后,我们介绍的GATanalysts方法显示出更高的对数回报(年化回报率29.44%)和4.069的夏普比率,是之前最好的神经网络策略夏普比率的两倍多。GATanalysts还具有比其他任何竞争策略更低的回撤(-6%)和更短的MDD,只有1%的交易期对应于2个月的交易时间处于连续回撤中。此外,GATanalysts投资组合显示出比其他任何策略更低的波动性,波动率为7%,而神经网络策略的波动率为8.32%,是下一个波动性最低的策略。
图3展示了累积回报,突出了GATanalysts模型与其竞争对手相比的优越性。GATanalysts策略在所有提出的方法中表现最佳,在18年期间累积对数回报为5。神经网络在整个评估期间是第二好的策略。它在周期开始时落后于市场,并迅速超越市场和所有其他方法。这种回报的时间演变也突出了2008年金融危机后GATanalysts的相对优越性,表明它能够在普遍存在的金融扰动中识别出有希望的领先-滞后集群。此外,它还表明,GATanalysts中结合的节点和网络信息大大优于基于分析师矩阵的简单网络聚合策略,这证实了我们的初步假设,即分析师覆盖网络拓扑和公司动量特征可以共同学习以提取阿尔法。
4.2 消融研究
表3展示了基本GAT框架在不同网络信息源下的性能,而不是分析师矩阵。我们可以看到,GATanalysts在所有公司间关系的替代表示中表现最佳,夏普比率为4.069,而GATcorr的夏普比率为3.757,低于行业和边删除版本的2.25和2.26。GATanalysts的回报略低于GATcorr(29.44%对33.81%),然而基本方法也显示出比任何其他消融方法更低的波动性。仅使用分析师矩阵的GATanalysts模型还显示出更低的最大回撤持续时间(MDD),只有1.0%的交易期处于回撤状态,这比GAT1_layer的下一个最长持续时间1.5%少50%。然而,我们可以看到GATcorr的峰值到谷值最大回撤(-4.1%)低于GATanalysts的最大回撤(-6.0%)。上表表明,替代网络公式(如相关性、行业和边删除)的信息内容不允许GAT生成更好的风险调整预测。GATcorr的回报略高于GAT_analysts,然而相关性带来的更高波动性表明,分析师矩阵有助于GATanalysts模型选择回报波动性略低的股票,从而产生更好的风险调整回报。
表4总结了我们在3.6节中提出的模型中,通过不同的消息传递、邻接信息和层数获得的累积回报的改进程度。累积回报可以解释为模型从节点和网络信息中提取交易信号的能力。我们可以看到,通过引入注意力而不是图卷积进行消息传递,实现了最大的改进。这种显著的改进对应于交易期间累积回报的近两倍(GATanalysts和GCN之间增加了96%)。除此之外,我们观察到,从单层模型(GAT1_layer)到双层模型(GATanalysts)的转变导致回报增加了25%。
同时,拥有完整的分析师矩阵而不是随机扰动的矩阵导致回报增加了63%。用分析师矩阵替换公司的工业-GICS网络导致累积对数回报提高了25%。最后,用分析师矩阵替换基于相关性的邻接矩阵导致累积回报相对较小但仍然有意义的增加了9%。这些结果支持了最初的假设,即分析师矩阵包含了对构建投资组合有用的信息。这种改进可以归因于邻接中存在的结构信息,因为从分析师矩阵中移除边并用其他公司间网络替换矩阵会导致结果严重退化。另一个有用的观察可以从单跳与多跳设置中得出,这表明不仅仅是单跳邻域聚合带来了价值。相反,正确利用分析师矩阵中存在的复杂和信息丰富的联系需要更复杂的模型,能够从更广泛的邻域中聚合信息。结合2跳邻居的信息将允许GAT模型更新公司表示以包括。这可能是由于分析师矩阵有助于揭示潜在的难以检测的关系,例如被覆盖公司之间经济和精算实践的一致性,以及分析师更有可能跟随使用类似技术工具的公司。
表5展示了消融研究中考虑的三种网络拓扑之间的比较。Jaccard相似性(共同边的百分比)、直径(两个节点之间的最长路径)和传递性(图中最可能三角形的分数)在每个时间t对每个图进行计算。然后对它们进行平均,以产生每个图类型和度量的一个度量。传递性比较表明,相关性和分析师网络比行业网络更少聚集。这是预期的,因为行业网络是一组完全连接的分量。此外,分析师和相关网络都显示出类似的传递性水平,分别为0.67和0.66,这意味着超过60%的开放三角形是连接的。高传递性表明分析师和相关网络都强烈聚集。
直径列中的网络直径描述了图中两个节点之间的最大距离。分析师和相关性矩阵的平均直径都更高(分析师网络的平均直径为11,相关性网络的平均直径为6),而行业网络的平均直径更低。直径更高的网络有助于减少GAT模型中过度平滑的可能性,这可能解释了GATanalysts的更好表现。此外,更大的直径表明分析师覆盖沿着“更长”的链条连接公司。这些更长的链条紧密地代表了公司之间基本现实生活中的联系,而这些联系往往被相关性矩阵所忽略。这有助于解释分析师网络的价值:它捕捉了不同的基本关系[7]。不同网络在Jaccard列中呈现的Jaccard指数表明,与相关性矩阵相比,分析师矩阵始终保持自相似性(超过90%)。行业网络的结构属性不会随着行业分类结构的变化而变化,这解释了1.0的高Jaccard相似性(意味着行业网络平均保持恒定)。同时,相关性网络显示出更低的Jaccard指数34%,这意味着它比分析师矩阵的周期变化更快。周期更稳定的网络有助于训练图机器学习模型,并有助于GATanalysts策略的更好表现。现有的文献对基于行业和相关的模型进行了定量比较,因为这些模型更常用于构建基于图的交易策略。然而,很少有人将这些网络与分析师矩阵进行比较,因为它作为交易策略的构建块使用得较少。我们表明,这些差异是深远的,可以用来解释图机器学习工具在每个公司间网络上的不同表现。
4.3 回报相关性分析
图4a显示了不同评估交易策略之间回报的相关性。红色的高相关系数表明两个模型的回报遵循相似的运动。投资者通常寻求低相关性,因为这允许多样化。在其他条件相同的情况下,投资者可以通过投资于相关性最低的信号来限制其投资组合的集中度并提高回报。GAT模型与市场的相关性最低,相关系数为-0.21。不同模型的回报似乎彼此不相关,除了GATanalysts和神经网络的回报相关性略高,为0.32。这些图表表明,GATanalysts的回报遵循了一种模式,与其他竞争模型相比,它对不同的市场信号做出反应。这支持了分析师网络是一个有用且信息丰富的先验的假设,通过它可以多样化交易策略,因为它产生的信号与其他现有信号不同。图4b表示了基于GATanalysts和所有正在研究的不同消融方法的策略的回报相关性。这些方法与市场的相关性也呈现出来。原始GAT分析师与市场的相关性最低,为-0.21,其次是GATindustries,为-0.11。此外,原始GAT的回报和信号与GATcorr的回报和信号相关性最强,分别为0.65和0.28,而GAT del edge的回报和信号相关性分别为0.52和0.28。这表明GATanalysts的信号与其他设置有合理的不同。注意力机制的加入对信号有显著影响,这从GCN与所有其他使用分析师矩阵的模型之间的相对较低的相关性信号中可以看出,尤其是GATanalysts。这可以解释为网络信息包含在每个不同网络中的不同效果对最终交易信号的影响:分析师网络帮助GATanalysts学习公司之间的联系,这些联系类似于滞后相关性,在较小程度上类似于行业联系,但与两者都不同。
4.4 换手率和成本分析
图5a调查了策略在面临交易成本时的表现。该图描述了不同策略在交易成本从0个基点增加到1, 2和5个基点时的年化夏普比率。这对投资组合内容换手率较大的策略进行了惩罚,如图5b所示。我们观察到,所有正在考虑的模型的回报在交易成本增加时都会大幅下降。当面临5个基点的交易成本时,所有策略都会产生负的夏普比率。GATanalysts和GATcorr显示出与其他具有可比夏普比率的策略(如GAT1层)相似的换手率。只有GATanalysts, GATcorr和GAT1层在面临2个基点的交易成本时保持正夏普比率:其他所有策略都显示出零或负的夏普比率。这表明,基于分析师和相关的策略对交易摩擦更具鲁棒性,尽管性能下降,但正是最初强大的风险调整性能确保它们在这些摩擦下表现良好。GAT del_edge, GATindustries和GCN显示出相当的换手率。分析师矩阵的夏普比率从0.069迅速下降到-2,然而由于其换手率相对较低,它在最高成本制度下优于某些更复杂的策略,如GCN或GATindustries。最后,我们注意到,MACD策略的夏普比率在面临最高水平的交易成本时表现最好,它经历的下降最小,从0.66下降到-1.27。然而,我们还注意到,GATanalysts方法在2个基点成本下仍然显示出比0交易成本MACD投资组合更好的夏普比率,并且在5个基点交易场景下仍然优于它。这表明,尽管无模型方法在换手率限制方面很有趣,但在大多数成本情景下,可以用本文提出的解决方案替代。基于模型的方法,如神经网络, GATanalysts和消融的GAT模型,平均换手率(77美元)略高于无模型方法(40美元),如MACD和分析师矩阵,证实了文献中的发现。因此,这解释了为什么这些无模型策略受交易成本增加的影响较小。
4.5 注意力分析
图6表示了分析师矩阵的子集,其中边在2016年12月的一个交易期内,在GATanalysts模型中具有最强的注意力系数。GATanalysts模型学习在确定如何最好地预测未来价值时,对这些公司之间的关系给予高权重。公司节点按行业着色。该图强化了注意力函数有助于模型学习公司之间信息丰富且可解释的联系的观点。例如,中间的KO(可口可乐)- STT(道富银行)链接对应于一家投资公司(STT)与可口可乐的高额股份之间的联系。类似地,右下角的WMB集群对应于一家能源供应商(WMB)与几家需要能源供应的公司之间的联系,从农工业公司GIS到像HSIC这样的医疗保健公司。这些联系支持了GAT模型识别公司之间联系的观点,这些联系对应于基本的经济联系,可能导致投资者反应不足的动量溢出效应。此外,该图显示,最强的注意力权重在行业间分布相当广泛,即行业间的连接频率高于行业内的连接频率,这表明该模型能够比仅仅关注行业矩阵的方式更丰富地学习行业间和行业内的模式。最后,需要注意的是,这些注意力最高的条目中没有一个出现在相关性矩阵中,因为这些相关性的强度低于用于定义相关性矩阵的相关性的第90百分位。这意味着应用于分析师矩阵的注意力机制足够灵活,允许模型揭示公司之间的有意义的“经济关系”。这些联系超出了简单的基于相关性的措施,文献中批评这些措施无法捕捉非线性关系。
5. 结论
在本文中,我们探讨了图注意力网络从公司间动量溢出指标中系统地学习一种新的交易信号的能力:分析师覆盖网络。我们已经证明,分析师网络中的信息可以被图注意力网络有效地提取出来,以产生积极且持续的样本外交易回报。我们的方法在平均回报和回撤方面优于现有基准。此外,我们通过消融研究和换手率分析展示了策略的稳健性。此外,我们通过比较在分析师网络和基于行业和相关的网络上训练的模型的性能,展示了分析师网络中所包含的拓扑信息与我们的策略性能之间的关系。这项工作是将分析师覆盖网络纳入金融图机器学习的第一步。我们证明了策略的盈利能力以及可以从这种设置中利用的丰富见解。我们概述了几条未来工作的途径。首先是将提出的模型扩展到包含更丰富的时间信息,例如,通过将边信息转换为时间序列,其特征可以由专门的时间学习块显式建模。此外,考虑到分析师估计误差与波动性之间的关系,GAT模型可以用来模拟分析师网络边缘公司之间的波动性溢出效应。
QuantML星球内有各类丰富的量化资源,包括上百篇论文代码,QuantML-Qlib框架,研报复现项目等,星球群内有许多大佬,包括量化私募创始人,公募jjjl,顶会论文作者,github千星项目作者等,星球人数已经500+,欢迎加入交流
我们的愿景是搭建最全面的量化知识库,无论你希望查找任何量化资料,都能够高效的查找到相关的论文代码以及复现结果,期待您的加入。