选择与交易:基于分层强化学习的统一配对交易

配对交易是一种有效的统计套利策略,通过对冲选定的资产对来实现中性利润。现有方法通常将任务分解为两个独立的步骤:配对选择和交易。然而,这种解耦可能导致信息传播受阻,从而限制整体性能。本文提出了一种将配对选择和交易作为统一任务的范式,设计了一个分层强化学习框架来联合学习和优化这两个子任务。实验结果表明,该方法在配对交易中的有效性优于现有的配对选择和交易方法。

1. 引言

配对交易自1987年以来被广泛实践和研究,是金融市场的组成部分,有助于提高市场效率。它通过在两个相关资产的价格异常波动时执行交易,并在价格恢复到正常水平时平仓来获取利润。现有方法通常将配对交易分为配对选择和交易两个阶段。配对选择阶段使用预定义的统计测试或基本面距离测量来选择资产对,交易阶段则使用固定阈值策略生成回报。近年来,强化学习在金融交易中的成功应用促使研究人员引入强化学习来训练灵活的交易代理,取得了显著改进。

然而,现有方法存在一些缺点。配对选择阶段忽略了交易性能,可能导致选择错误的资产对;交易阶段由于仅观察预选的资产对,容易过拟合,且忽略其他资产和市场信息。本文提出了一种新的配对交易范式,将配对选择和交易作为统一任务,设计了一个分层强化学习框架来联合优化这两个步骤。实验结果表明,该方法在配对交易中的有效性优于现有的配对选择和交易方法。

2. 相关工作

2.1 传统的配对选择

配对选择的目标是找到在形成期内价格历史走势一致的资产对,并假设其未来价差会回归历史均值。现有方法通常采用统计或基本面相似性测量来选择资产对。距离方法是最早引入的方法之一,通过价格时间序列的欧氏距离来建模资产对之间的联系。然而,这些方法无法捕捉资产对未来的盈利能力。

2.2 强化学习在配对交易中的应用

在配对选择后,现有方法生成交易信号,触发两个资产上的相反交易动作。基于假设选定的资产对价差仍会回归其历史均值,通常采用简单的阈值规则进行交易。然而,这需要专家知识来识别市场中的最佳交易阈值。近年来,强化学习在金融交易中的成功应用促使研究人员引入强化学习来训练灵活的交易代理,取得了显著改进。

2.3 分层强化学习

分层强化学习(HRL)通过在不同层次上进行时间抽象,实现更长时间尺度的信用分配。HRL中的子任务通常更容易学习,并且学习的子任务可以导致更结构化的探索。现有方法通常使用手工制作的子目标、发现选项或内在奖励来学习低级策略,而高级策略则使用环境的外在奖励进行学习。

3. 分层配对交易框架

本文提出了一个分层配对交易框架,如图1所示。该框架包括一个高级控制器(经理)和一个低级控制器(工人)。经理负责从所有可能的资产对中选择最优的资产对,工人则根据选定的资产对执行一系列交易动作。

选择与交易:基于分层强化学习的统一配对交易

3.1 形式化

配对交易包括配对选择和交易两个步骤。配对选择阶段从所有可能的资产对中选择两个相关资产形成交易对,交易阶段则在后续交易期内执行一系列交易动作以获取市场中性利润。本文将配对交易过程形式化为分层强化学习框架。

具体而言,配对交易过程包括一个形成期和一个交易期。形成期包含个时间点,交易期包含个时间点。选择个资产,每个资产在形成期和交易期分别有价格序列

选择与交易:基于分层强化学习的统一配对交易

3.2 配对选择与高级控制器

配对选择的目标是从所有可能的资产对中选择最优的资产对。这可以视为一个上下文强盗问题,其中状态空间为资产的历史价格特征,选项空间为所有可能的资产对组合,奖励为选定资产对在交易期内的总体表现。

3.2.1 观察

高级控制器的观察仅限于市场状态的历史价格特征,包括开盘价、收盘价和成交量。具体而言,观察包含所有资产在形成期内的开盘价、收盘价和成交量

3.2.2 选项

选项是从所有可能的资产对组合中选择的一个资产对。具体而言,选项是从所有可能的资产对中选择的一个对。

3.2.3 状态

状态表示为资产历史价格特征的双向GRU(Bi-GRU)编码,结合时间注意力机制来动态选择历史时间步中的显著信息。具体而言,状态通过以下公式计算:

其中,是前向隐藏状态和后向隐藏状态的拼接,是所有资产在时间点的价格特征。

为了解决Bi-GRU的长距离遗忘问题,引入时间注意力机制:

其中,是缩放点积注意力得分。最终输出作为高级控制器的状态

3.2.4 策略

配对选择的策略是一个概率分布,通过softmax函数生成:

其中,是提取并返回给定矩阵的上三角部分的扁平化结果。

3.2.5 奖励

高级控制器的奖励是选定资产对在交易期内的总体表现,通过低级控制器在交易期内的表现来计算。具体而言,奖励是交易期内累积利润:

其中,是低级策略的回报。

3.3 交易与低级控制器

当高级控制器选择了一个交易对作为选项后,低级控制器将根据选定的交易对执行一系列交易动作。

3.3.1 观察

低级控制器的观察包括账户特征和价格特征,账户特征包括历史动作、当前现金和当前净价值,价格特征包括选定资产对的开盘价、收盘价和成交量。具体而言,观察包含账户特征和价格特征

3.3.2 动作

动作空间包括三个离散动作:多头(买入资产X,卖出资产Y)、空头(卖出资产X,买入资产Y)和清仓(平仓)。具体而言,动作空间

3.3.3 状态

状态表示为历史观察和动作的双向GRU编码,结合时间注意力机制来动态选择历史时间步中的显著信息。具体而言,状态通过以下公式计算:

其中,是前向隐藏状态和后向隐藏状态的拼接,是选定资产对在时间点的价格特征。

引入时间注意力机制:

其中,是缩放点积注意力得分。最终输出作为低级控制器的状态

3.3.4 策略

交易的策略是一个概率分布,通过softmax函数生成:

3.3.5 奖励

低级控制器的奖励是选定资产对在形成期内的累积利润,通过最大化累积利润来指导学习。具体而言,奖励是形成期内的累积利润:

其中,是代理的回报:

3.4 分层策略学习

高级策略和低级策略分别使用优势演员-评论家方法(A2C)进行更新。高级策略的更新基于低级策略在交易期内的表现,低级策略的更新基于形成期内的内在奖励。

具体而言,高级策略的更新公式为:

其中,是高级控制器的优势函数估计,从选项分布中采样。

低级策略的更新公式为:

其中,是低级控制器的优势函数估计,从动作分布中采样。

选择与交易:基于分层强化学习的统一配对交易

4. 实验

4.1 数据集

本文构建了一个基于S&P 500指数的美国股票数据集和一个基于CSI 300指数的中国股票数据集。每个数据集包含21年的交易数据,分别有150只和300只股票。数据集的统计信息如表1所示。

选择与交易:基于分层强化学习的统一配对交易

4.2 基线方法

本文比较了以下基线方法:

  • 配对选择方法:GGR、协整(Cointegration)和相关性(Correlation)。
  • 交易方法:Wang等人的方法,采用强化学习训练灵活的交易代理。

4.3 评价指标

本文使用以下指标评估方法的性能:

  • 夏普比率(SR):利润与风险之比。
  • 年化收益率(AR):代理在一年内的预期利润。
  • 最大回撤(MDD):交易期内从峰值到谷底的最大潜在损失。
  • 年化波动率(AV):一年内回报的波动率。

4.4 主要结果

如表2所示,本文提出的TRIALS方法在所有指标和大多数股票子集上均表现最佳。具体而言,TRIALS在S&P 500和CSI 300数据集上的平均SR和AR最高,表明训练的交易代理能够在控制风险的情况下获得显著利润。TRIALS在S&P 500上的平均MDD最低,在CSI 300上的MDD也相对较低,表明该方法能够有效控制风险。

选择与交易:基于分层强化学习的统一配对交易

相比之下,现有的配对选择方法如GGR、协整和相关性表现较差,平均SR和AR均为负值,表明这些方法无法选择具有盈利能力的资产对。交易方法如Wang等人的方法虽然表现优于配对选择方法,但由于依赖于协整测试选择的资产对,性能仍低于TRIALS方法。

4.5 消融研究

为了评估配对选择和交易两个任务的贡献,本文提出了一个消融实验,即TRIALS w/o TR,该方法在配对选择后采用固定阈值交易代理。结果表明,TRIALS方法在联合优化两个任务时表现最佳,而TRIALS w/o TR由于固定阈值交易代理的误导,性能较差。

选择与交易:基于分层强化学习的统一配对交易

4.6 案例研究

为了进一步验证TRIALS方法的盈利能力,本文展示了TRIALS、TRIALS w/o TR、GGR和Wang等人在Set 2中的详细交易动作、持仓和利润。结果表明,TRIALS方法能够选择具有盈利能力的资产对,并精确捕捉交易机会,从而获得显著利润。

选择与交易:基于分层强化学习的统一配对交易

5. 结论

本文提出了一种新的自动配对交易范式,将配对选择和交易作为统一任务。基于该范式,设计了一个分层强化学习方法,包括一个高级经理用于配对选择和一个低级工人用于交易。实验结果表明,配对交易中的两个步骤密切相关且互补,本文方法能够充分利用并联合优化这两个步骤,从而显著优于现有的配对选择和交易方法。


论文及代码下载见星球,QuantML星球内有各类丰富的量化资源,包括数百篇论文代码,QuantML-Qlib框架,研报复现,研报分享项目等,星球群内有许多大佬,包括量化私募创始人,公募jjjl,券商研究员,顶会论文作者,github千星项目作者等,星球人数已经500+欢迎加入交流


我们的愿景是搭建最全面的量化知识库,无论你希望查找任何量化资料,都能够高效的查找到相关的论文代码以及复现结果,期待您的加入。


QuantML知识星球双十一优惠活动正式开启,名额有限,欢迎加入

选择与交易:基于分层强化学习的统一配对交易

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注