深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

本文介绍了一种利用机器学习(ML)和自然语言处理(NLP)技术进行加密货币价格预测的新方法,重点关注比特币(BTC)和以太坊(ETH)。通过分析来自Twitter和Reddit的新闻和社交媒体内容,评估了公众情绪对加密货币市场的影响。本文方法的一个显著特点是应用了BART MNLI零样本分类模型来检测牛市和熊市趋势,显著超越了传统的基于词典的情感分析。此外,本文系统地比较了一系列预训练和微调的深度学习NLP模型与传统的基于词典的情感分析方法。本文的另一个关键贡献是采用局部极值以及每日价格变动作为预测目标,从而减少交易频率和投资组合波动性。研究结果表明,将文本数据整合到加密货币价格预测中,不仅提高了预测准确性,而且在各种验证场景中一致地提高了盈利能力和夏普比率,特别是在应用深度学习NLP技术时。

1. 引言

加密货币市场在过去十年中作为一种数字经济出现,吸引了研究人员和从业者的广泛关注。这个独特的去中心化市场以其高波动性和丰富的数据可用性为特征,使其成为应用人工智能(AI)和机器学习(ML)技术的有吸引力领域。特别是,来自社交网络的大量公众情绪数据为将自然语言处理(NLP)整合到加密货币价格预测中开辟了新的途径。

本文研究了来自各种加密货币相关渠道的新闻以及Twitter和Reddit上的社交媒体帖子对比特币(BTC)和以太坊(ETH)估值的影响,这两种加密货币的市值最大。传统上,加密货币领域的研究倾向于使用基于词典的方法来分析新闻和社交媒体的影响。然而,随着语言AI模型的进步,探索情感分析新途径的机会出现了。本文的研究超越了传统技术,通过整合深度学习NLP方法来衡量市场情绪。虽然深度学习在情感分析中的应用已经确立,但本文的工作通过采用零样本分类语言模型来区分“牛市”和“熊市”市场观点,从而在市场动态方面提供了更细致的洞察,超越了传统的基于情感分类的方法。

本文还在价格预测方法上超越了现有的实践。在加密货币分析中,通常是回归到价格变化或对每日价格变动(向上或向下)进行二元分类。局部极值作为目标变量尚未被探索,尽管它们固有的较低噪声水平在高波动性的加密货币市场中具有显著优势。本文推测,通过分类局部最小值和最大值,我们的ML模型在分类指标和盈利能力方面都获得了增强的预测性能。因此,除了预测每日价格变动外,本文还旨在确定文本数据是否可以帮助预测具有不同观察时间框架的各种局部极值。

2. 文献综述

自2015年以来,利用社交媒体信息预测加密货币价格的兴趣持续增长。这一不断增长的研究领域甚至导致了关于该主题的综述文章的发表。为了全面概述文献,我们总结了这些综述中的关键发现,并对重要的个别研究进行了分析。在后文中,我们将对预测方法、NLP方法、目标变量选择以及考虑的各种解释变量进行深入分析,旨在全面了解该领域的发展,并确定当前趋势和进一步探索的途径。

2.1. 预测技术的演变

预测方法被分为线性、非线性和序列模型。线性模型,如指数平滑、自回归移动平均线、普通最小二乘法(OLS)和支持向量机,因其简单性和可解释性而受到重视。然而,金融分析的领域逐渐转向更复杂的方法。非线性机器学习方法能够捕捉变量之间更复杂的相互作用,但由于其复杂的内部结构,它们的可解释性较差。许多研究系统地评估了各种非线性模型类型,如随机森林、AdaBoost、梯度提升和多层感知器(MLP)在加密货币预测中的应用。这些研究经常强调梯度提升和MLP神经网络的优越性能。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

序列模型,如循环神经网络(RNN)和Transformer,擅长处理金融环境中常见的有序时间序列数据。然而,只有14%的加密货币预测论文使用神经网络,序列模型仅占4%。即使标准RNN的使用也不如标准RNN普遍,Transformer的应用更少。

2.2. NLP方法的应用

NLP方法对于理解市场情绪至关重要,而市场情绪是加密货币价格波动的一个重要驱动因素。Fang等人(2022)确定了利用文本数据的两种主要方法:1)使用无监督方法(如情感词典或预训练的Transformer)为未标记的文本数据分配情感分数;2)标记文本数据(手动或使用价格变动,假设价格上涨意味着积极的市场情绪),然后采用监督学习方法训练机器学习模型,如RNN。然而,也有一些中间方法不完全符合这两种类别,例如使用预训练的(无监督的)嵌入并将结果输入监督数值模型,或微调预训练的Transformer。

2.3. 目标和特征选择

文献主要将价格预测视为回归问题,预测下一个时期的的价格或其相对变化。分类方法预测价格上涨或下跌,虽然在分类指标和交易利润方面表现出色,但较少见。然而,对局部极值的预测在加密货币中仍未得到探索。认识到离散目标的潜力,本文的研究超越了价格回归,纳入了分类,并且独特地预测了局部极值。

3. 方法论

在对先前文献的全面回顾的基础上,本节深入探讨了本研究的方法论框架。我们首先从神经网络的角度探索时间序列建模,阐明其各自的效用以及它们在建模金融时间序列数据方面带来的进步。随后,我们全面概述了基于神经网络的NLP方法,从嵌入开始,到更复杂的技术,如RNN和Transformer模型。在此背景下,我们介绍了三种处于文本分析前沿的深度学习模型:(i)Twitter-RoBERTa,一种专门在社交媒体数据上训练的情感分析模型;(ii)BART MNLI,一种用于衡量金融叙事中“牛市”的零样本分类模型;(iii)一个在我们的目标上微调的vanilla RoBERTa模型。最后,我们的讨论转向目标变量选择和交易策略的理由。在这里,我们详细介绍了目标选择,创建局部极值点目标的过程,以及塑造我们市场进入和退出原则的原则。

3.1. 神经网络时间序列建模

传统的统计方法,如自回归积分滑动平均(ARIMA)和指数平滑,几十年来一直是时间序列建模的首选技术。然而,随着深度学习的出现,神经网络已成为一种强大的替代方法,能够捕捉时间序列数据中更复杂的模式和关系。这导致金融分析领域的研究越来越多地转向深度学习方法进行价格预测。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

3.2. 深度学习NLP方法

深度学习方法彻底改变了NLP领域,提供了上下文理解、处理语言歧义、减少手动特征工程的需求,并提高了泛化能力。在深度学习中,单词被表示为高维向量,称为嵌入,能够捕捉语义和句法相似性。这些词嵌入随后被输入到RNN、CNN或基于注意力的神经网络(如Transformer)中。这些模型旨在通过建模单词之间的长期依赖关系来捕捉上下文。这种方法解决了语言歧义问题,即同一个词可以有多种含义。最终,这使得深度学习模型能够以上下文感知的方式编码句子甚至整段文本的含义。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

深度学习模型减少了对广泛特征工程的需求(如词性标注或命名实体识别),这是传统NLP中的常见要求。此外,它们可以从原始文本中学习有用的特征,从而消除了对手工标记词典的需求,使其更具可扩展性。这允许端到端学习,其中单个模型处理原始文本并直接输出最终任务结果,例如分类或翻译,消除了传统NLP中常见的复杂多步骤管道。

此外,深度学习模型在NLP领域的迁移学习应用中也显示出显著的有效性。大型语言模型(LLM)如BERT或GPT在庞大的语料库上进行预训练,可以在相对较小的数据集上进行微调,利用从大规模文本集合中学习的知识。这些模型首先在非结构化和未标记的文本数据语料库上进行训练,例如尝试预测序列中的下一个单词。这允许早期层提取通用语言特征,如句法规则或语义关系,并充当基本的语言理解。在微调过程中,这个预训练模型被调整为执行特定任务,如情感分析。早期层已经擅长通用语言理解,基本保持不变,而后期层(例如分类头)适应于将通用语言特征映射到特定任务。

3.3. 目标变量选择和交易策略

在探索加密货币价格预测时,我们利用CryptoCompare午夜的价格作为目标创建。这一选择是基于其CCCAGG方法的稳健性,该方法平均了来自301家加密货币交易所的价格。该平均值的权重受24小时交易量和自上次交易以来经过的时间的影响,确保了市场全面及时的表示。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

我们的第一个预测目标是下一个日的对数价格变化,将其视为一个连续变量。相应的交易策略很简单:如果预测的价格变化为正,则买入资产;如果为负,则卖出。这种方法的优点是简单,但也取决于连续预测的准确性。

随后,我们考虑了下一个日价格变化的二元表示作为我们的第二个目标。这里,价格上涨被编码为1,而没有变化或价格下降被表示为0。相应的交易策略是,如果预测超过某个阈值,则买入;如果低于,则卖出。

对于局部极值分析,我们深入研究了一种以局部极值为中心的方法,涵盖+/- 7天、+/- 14天或+/- 21天的观测间隔。我们构建了两个二元变量,指示给定时间点是否在设定的时间间隔内是局部最小值或最大值。这些变量成为两个不同二元分类模型的目标。这两个模型的预测随后被用来构建一个交易策略,该策略旨在以谷底买入资产,并在峰顶卖出。在所有三种情况下,我们的交易模拟都是从在第一个时间步购买资产开始,并以在最后一个时间步清算所有持有的资产结束。

4. 实验设计

4.1. 数据收集和预处理

我们使用了多种数据来源,数据集的时间范围从2011年8月(BTC)和2015年8月(ETH)到2023年3月。我们从社交媒体平台和新闻来源收集文本数据,重点关注英语内容。从Google News中,我们提取了大约55,000个新闻标题,涵盖了CoinDesk、Cointelegraph和Decrypt中提到“比特币”或“BTC”(以及“以太坊”或“ETH”)的所有文章。在Reddit上,我们收集了r/Bitcoin和r/ethereum子版块的所有帖子,总共约338,000个帖子。最后,Twitter对我们的数据集贡献最大,贡献了近190万个帖子。我们考虑了所有带有超过五个点赞和两个转发的推文,这些推文带有#bitcoin或#btc(以及相应地,#ethereum或#eth)的标签。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

4.2. 模型开发和优化

作为微调RoBERTa-Base的目标,我们选择将每日价格变动表示为二元变量。我们战略性地利用可用的文本数据:每天一半的数据分配给训练过程,而另一半用于计算最终分数。我们针对每个文本来源和每种加密货币单独微调RoBERTa模型的超参数,因为文本长度和风格特征存在显著差异。为此,我们采用贝叶斯优化框架Optuna。超参数搜索涉及240次迭代,以曲线下面积(AUC ROC)作为目标函数。超参数调整的搜索范围概述在附录B中的表B.1中。

对于时间序列分析,我们采用了一系列序列和非序列预测模型。我们首先使用基于OLS的模型进行基准测试,具体来说,岭回归用于回归问题,带有L2正则化的逻辑回归用于二元分类问题。我们的研究结果表明,在这种情况下,L2正则化优于L1,提供了更稳健的模型拟合。

鉴于它们能够建模复杂的非线性关系,我们还应用了XGBoost框架中实现的梯度提升和vanilla MLP。XGBoost的目标函数是回归问题的均方误差(MSE)和二元分类问题的二元交叉熵(BCE)。正则化措施包括对叶权重的L1和L2正则化组合、添加新叶到树的阈值(也称为“gamma”),以及子采样。

我们构建了具有最多四层的MLP,并应用L2范数参数罚分来减轻过拟合。与现有文献中的大多数方法不同,我们单独调整每个FNN层中的神经元数量,而不是在所有层中设置统一的计数。这种方法为模型提供了额外的灵活性,优化了其对不同数据模式的适应性。除了神经元数量外,我们还将激活函数、批量大小、学习率、优化器和缩放类型作为超参数进行调整。

接下来,我们构建了一个最多包含三层LSTM层和一个可选的具有最多三层的密集层的LSTM架构。超参数调整与MLP非常相似。不仅LSTM层的大小被单独调整,而且支撑它们的前馈层的神经元数量也被调整。调整方法的主要区别在于使用“dropout”,即在训练过程中随机停用神经元,而不是L2正则化。

最后,我们探索了TFT,这是一种特别具有挑战性的模型,因为它需要大量的训练时间。这是因为它将所有变量输入到模型中,并使用GRN进行变量选择,这是一种比我们采用的其他模型的Granger因果关系方法效率低得多的方法。由于这些时间限制,我们选择在所有TFT层中使用统一的神经元数量。除此之外,我们采用dropout作为正则化技术,并将注意力头的数量设置得相对较高,预计我们的输入时间序列具有复杂的季节性模式。这一假设得到了验证,因为具有16个注意力头的模型始终表现出最佳性能。

为了保证可重复性,我们不使用早停法来训练MLP、LSTM和TFT模型。相反,我们将训练周期数视为可调超参数。对于回归任务,我们配置我们的基于神经网络的模型在输出层使用线性激活,并使用MSE进行反向传播。对于分类任务,我们在输出层使用sigmoid激活,并使用BCE损失进行反向传播。鉴于分类局部极值的固有不平衡性质,我们对所有极值模型应用了重加权,以对少数类进行加权。

4.3. 性能指标和模型评估

我们采用了几种评估指标来评估我们的加密货币预测模型的性能。首先,我们使用AUC ROC来衡量模型将正例排在负例之上的能力。此外,我们测量模型的准确性,该指标量化了正确预测相对于总预测次数的比例。除了这些传统指标外,我们还引入了一种基于交易策略中模型的盈利能力的实际评估。为此,我们将我们模型驱动的交易决策产生的利润与买入并持有的基准进行比较。该基准代表了一种被动投资策略,其中投资者购买资产并在整个时间段内持有该资产。为了计算夏普比率,我们假设无风险利率为0%,并应用Sharpe(1994)描述的年化,以便于解释。由于加密货币也在周末交易,因此使用365天进行年化。

年化夏普比率 = (1365 / 365) * (Σrt – 0) / √(Σ(rt – 0)^2),其中t = 1到n

rt = 第t天的资产回报率

n = 给定时间窗口内的总天数

对于利润计算,我们假设投资组合价值为一欧元。当我们的模型预测价格将上涨或识别出下一个日的局部最小值时,我们将所有可用资本投资于购买资产。相反,如果模型预测价格将下跌或下一个日的局部最大值,我们将清算所有持有的资产。交易策略不涉及卖空或在出售加密货币后投资于其他资产。为了进一步确保我们分析的简单性和可解释性,我们不考虑交易成本。这种省略是合理的,因为出现了链下系统(如闪电网络和雷电网络),这些系统使交易加密货币的成本大大降低。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

所有指标都是通过7折滚动窗口交叉验证计算得出的平均值,训练窗口大小逐渐增加(见图8)。选择增加窗口大小而不是恒定窗口的原因有两个。首先,增加窗口方法本质上更稳定,导致计算出的指标的可变性更低。其次,当在全部过去数据上训练模型时,模型始终表现出优于仅限于最近数据点的性能,这表明底层关系在时间上没有发生显著变化。因此,增加窗口方法为以下比较分析提供了更准确的模型性能表示。

5. 结果和分析

5.1. 预测性能比较

在本节中,我们将深入探讨BTC和ETH价格预测性能。我们应用了一系列ML模型,这些模型在第4.2节中有详细描述,用于五个不同的目标变量,这些变量在第3.3节中有解释。模型使用金融、区块链、GitHub、Google Trends和数值社交媒体数据进行训练,然后再次训练,同时额外整合了各种NLP特征。随后的分析不仅阐明了不同交易策略的潜在盈利能力,还评估了NLP模型在金融预测中的预测能力。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

在构建我们随后对交易利润的分析时,我们首先考虑了一些参考点。表3概述了实施买入并持有交易策略和给定目标变量完美知识时产生的利润。所有值都是我们时间序列交叉验证方法的算术平均值,每个折叠跨越大约1.5年的时间段,并且在两种加密货币上进行了汇总。

买入并持有基准代表了一种被动投资策略,其中资产在相应交叉验证分割的整个持续时间内被购买并持有。另一方面,当给定目标变量的完美知识时,交易员将在每次价格飙升前购买资产,并在任何下跌前清算资产。这种策略代表了目标变量潜在利润的上限。

一个引人注目的观察结果是,与每日价格变动相关的巨大利润潜力,这一特征植根于加密货币价格的固有波动性。由于这些每日波动的很大一部分可以归因于随机噪声,因此评估我们的时间序列模型如何提取这些变量中包含的信息变得至关重要。有趣的是,评估每日价格变动是否在实践中成为最有利可图的,或者尽管其利润上限受限,但极值是否更有洞察力。

通过将NLP输出作为特征整合到我们的时间序列模型中,我们观察到预测性能的明显提高。这种整合不仅显著提高了盈利能力,还提高了AUC ROC和准确性。

图9提供了对MLP模型在不同NLP特征集上的利润、夏普比率和AUC ROC的比较分析,汇总了两种加密货币的数据。在此背景下,“全预训练NLP”表示整合了两个预训练LLM的得分:Twitter-RoBERTa和BART MNLI。报告的利润是相对于买入并持有策略产生的利润的百分点数。有关NLP数据在各种交叉验证分割中的重要性的更详细分析,请参见第5.3节。深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

比较生动地说明了深度学习NLP模型超越了情感词典VADER,突出了这些模型的先进能力。尽管简单,但VADER仍然对预测利润做出了积极贡献。然而,与使用无NLP模型相比,夏普比率显著降低,表明VADER得分中的噪声水平很高。深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

一个值得注意的观察结果是NLP模型之间的相互作用。虽然Twitter-RoBERTa情感模型和BART MNLI牛市分类器单独表现相当,但整合这两种模型在所有指标上都产生了最高的性能。这证实了我们的NLP模型确实提取了不同的信号,并表明以前的研究没有充分利用文本数据进行预测。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

另一个值得注意的观察结果涉及预训练模型和微调模型之间的性能比较。尽管预训练NLP模型没有针对我们的数据集进行定制,但它们带来的好处比微调LLM更大。特别是,较低的夏普比率和AUC ROC表明微调的RoBERTa模型引入的信息与噪声一样多。这表明社交媒体数据和价格波动之间的关系是多么复杂,并强调了迁移学习在金融预测领域的潜力。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

5.2. 特征重要性分析

为了理解各个变量的重要性,我们使用了一个在所有可用特征上训练的XGBoost模型。作为预测目标,我们使用了编码为二元变量的每日价格变动。这种方法是合理的,因为该模型配置在BTC和ETH上都取得了最高的AUC ROC,并且在盈利能力方面分别排名第二和第三。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

我们报告了平均收益和总收益,因为它们量化了特征对模型预测能力的贡献。平均收益表示在进行特定特征的分割时,平均而言有多有益。另一方面,总收益汇总了所有树中的这些收益,代表了特征对模型性能的累积贡献。为了清晰和可解释性,我们将这些指标的标准化值表示为总收益的分数。将它们表示为总收益的一部分,使它们可以解释为整体重要性的百分比。

在评估BTC特征重要性时,很明显技术指标占据了主导地位。交易和账户余额数据的重要性排名第二,突出了从个人钱包持有量的透明度中得出的宝贵见解。此外,Reddit和Twitter的NLP得分和帖子数量值得注意,强调了文本数据在金融预测中的重要性。特别是,我们训练在推文语料库上的微调RoBERTa模型脱颖而出,占据了首位(如附录A中的表A.11所示)。

在评估ETH特征集时,技术指标仍然占据主导地位。此外,NLP模型的重要性,特别是Twitter-RoBERTa和我们微调的RoBERTa模型,更加突出,这重申了社交媒体对以太坊价格动态的总体影响。其他值得注意的变量包括Reddit上的活跃用户数量、来自各个交易所的交易数据,以及有趣的是,来自GitHub的几个指标,特别是创建和解决的问题数量以及提交次数。作为即将到来的技术变化的指标,开发活动可能在考虑其从工作量证明到权益证明共识机制的转变时,对ETH尤为重要。其他感兴趣的变量包括交易和账户余额数据以及数值社交媒体数据,例如ETH Twitter账户或子版块的订阅者数量。

两种加密货币中技术指标的重要性可以归因于几个因素。首先,虽然我们为模型提供了高达14个价格和交易量的滞后值,但一些指标可以访问更长的回溯期,从而包含更多的长期信息。其次,这些指标将复杂的关系简化为更易消化的信号,使模型更容易辨别可能在原始数据中被掩盖的模式和趋势,尤其是考虑到我们数据集相对较小的规模(几千个观察值)。第三,虽然模型只能访问Granger因果关系分析选定的相关滞后值,但像移动平均线这样的指标可以将几个连续滞后值的信息组合在一起,这些信息可能在特征集中缺失。另一个值得考虑的维度是人类交易员对这些指标的历史依赖。如果相当一部分市场参与者依赖这些工具来做出决策,那么价格走势将自然反映这些指标的信号。最后,所使用的一些指标中固有的平滑作用可以对抗原始数据中的噪声,充当一种隐式正则化。

虽然我们的特征重要性分析强调了技术指标的重要性,但我们的NLP模型的输出,特别是那些代表Twitter和Reddit内容的模型,表现为BTC和ETH最有力的解释变量之一。这重申了我们之前的结论,即社交媒体在影响加密货币价格动态方面发挥着关键作用。此外,来自区块链、交易所交易量和代表GitHub上开发活动的指标也变得相关。

5.3. 随时间推移的市场效率

市场效率是指金融市场价格在任何给定时间都反映了所有可用信息的观点(Fama,1970)。在一个高效的市场环境中,特别是半强式或强式,持续跑赢市场变得具有挑战性。这种快速的信息融合为交易员利用信息获得优势提供了最小的机会(有关市场效率的理论和实证背景的详细回顾,请参见Shleifer,2009)。

深度学习与NLP在加密货币预测中的应用:整合金融、区块链和社交媒体数据

如果交易员持续获得高于市场的利润,这可能表明几种情况之一:(i)市场效率不高,(ii)交易员拥有市场尚未采用的独特技能或系统,或(iii)交易员承担了更高的风险以获得这些回报。鉴于我们的交易组合的利润可能受后两种因素的影响,我们将注意力转向利润随时间推移的轨迹,从而避开了关于加密货币市场是否有效的问题。

时间序列模型通过在7折递增窗口时间序列交叉验证上计算指标来进行评估。通过评估这些七个交叉验证分割期间的模型利润,我们提供了关于市场效率随时间推移的发展的见解。

我们的评估将阐明利润的一致性,从而提供关于模型交易组合相对于底层加密货币的风险状况的见解。此外,通过观察利润是否随时间推移表现出趋势,我们可以判断市场是否越来越多地将NLP整合到他们的交易策略中,这可能会缩小未来从文本分析中获得的潜在收益。

图12显示了10个最赚钱的MLP模型在交叉验证分割期间的交易利润的核密度估计。选择关注MLP模型是因为它是ML模型中最赚钱的。

我们观察到,我们的模型始终产生超过买入并持有基准的交易利润。然而,重要的是要强调,虽然利润在每个交叉验证分割中都大大高于基准,但利润的幅度在时间分割中确实经历了显著的波动。很明显,在底层加密货币波动性加剧的阶段,我们的模型显示出对买入并持有方法的明显超越。

我们无法观察到利润的明确上升或下降趋势,无论是NLP效应还是总体超额利润。这表明,在所研究的时期内,市场的效率或缺乏效率似乎基本上保持不变。这些发现表明,在研究期间,通过我们的方法分析的文本数据可能没有显著影响市场效率。

然而,小提琴图揭示了NLP数据对我们的模型预测性能的影响的重要性。对于BTC,将NLP数据引入我们的模型在大多数分割中略微将利润分布向上推,表明从文本数据中派生的数值表示始终为预测价格变动提供了有用的信息。第二个方面是潜在的波动性降低,最明显的是在第三个分割期间。这可能表明,语言数据引入了更细微的信息,特别是在动荡的市场阶段特别有益。

对于ETH,NLP的好处似乎更具周期性,在第五个分割期间表现得尤为明显,该分割也以模型训练中没有NLP数据时最高的超额利润为特征。然而,在其他分割中,NLP数据似乎不那么重要,要么提供有限的增强,要么甚至略微阻碍了预测。可能的情况是,在这个特定时期,社交媒体活动特别指示了ETH的价格走势。然而,更有可能将NLP数据的选择性影响归因于这样一个事实,即第五个分割明显波动且看涨。鉴于这些条件为ML模型利用价格波动提供了更高的机会,它们自然成为我们以最大化交易利润为目标训练的模型的主要目标。

6. 结论

6.1. 研究结果总结

在本研究中,我们探讨了新闻和社交媒体数据在加密货币价格预测中的可行性。我们特别关注文本数据影响的时间范围以及不同类型目标变量之间的差异。在训练目标方面,我们除了每日价格变动外,还利用了具有不同观测时间框架的局部极值。在NLP方面,我们专注于研究多种深度学习技术的应用。此外,我们还试图评估市场效率随时间的演变。

我们的研究表明,将NLP数据纳入我们的ML模型可以提高所有评估指标的性能。此外,与基于词典的情感分析相比,深度学习NLP模型表现出更好的性能。我们发现,预训练的LLM,即Twitter-RoBERTa和BART MNLI,在捕捉市场情绪方面表现出有希望的能力,其性能与直接在目标上微调的语言模型相当。

此外,我们的结果表明,滞后长达一周的文本特征是Granger因果关系,并且将NLP数据纳入时间序列模型会导致对21天极值的预测增强。这些发现表明,新闻和社交媒体可能对价格变动产生更长期的影响。

在模型性能方面,我们发现非线性模型优于基于OLS的模型,证明了时间序列中存在相关的非线性关系。我们进一步发现,将每日价格变动作为二元目标变量始终能产生最佳的盈利能力,至少在没有交易成本的假设下是这样。然而,我们的模型比预测每日价格波动更可靠地预测局部极值,并且极值模型在交易次数显著减少的情况下产生了可观的利润和夏普比率。

所有模型在所有交叉验证分割中始终产生利润;我们没有观察到总利润的减少或NLP数据影响随时间的减少。这表明文本分析在增强金融预测方面的持续使用具有潜在的可能性。

6.2. 研究意义

将NLP数据纳入我们的模型显著提高了价格预测性能,证明了在预测工作中考虑此类数据的价值。我们的研究还强调了基于深度学习的语言模型在此背景下的有效性。特别是,当同时使用多种方法时,这些模型表现出比基于词典的情感分析更好的性能。

我们的结果表明,即使在处理金融等专业领域中的抽象任务时,预训练模型也能提供与微调模型相当甚至更优的结果。特别是,我们发现BART MNLI作为零样本分类器非常有效。它有效地解释了通过文本表达的市场情绪,这种情绪超出了单纯的积极或消极,并显著提高了预测准确性。这些发现为NLP中迁移学习的使用展示了有希望的前景,并且不仅突出了预训练语言模型的多功能性和鲁棒性,而且还指出了金融预测未来努力中成本和时间效益高的途径。

当我们将注意力转向目标变量时,将每日价格变动编码为二元目标始终产生最高的利润。然而,我们的模型在使用局部极值作为目标变量时也能捕捉到有价值的信息。这表明,尽管每日价格变动可能最大化利润,但使用极值作为目标变量可能提供对底层市场动态的更深入的洞察,并且在希望减少交易次数的情况下,例如在交易成本高的情况下,证明是有用的。

 

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注