“FinDKG: Dynamic Knowledge Graphs with Large Language Models for Detecting Global Trends in Financial Markets”
动态知识图(DKG)用于表达对象间的时间连接,适合从复杂非结构化数据中提取信息。在金融应用中,DKG可用于基于金融新闻检测投资趋势。本文提出了KGTransformer、FinDKG等三项关于动态知识图谱(DKGs)和大型语言模型(LLMs)在金融应用中的贡献。
在基准数据集和FinDKG上进行的链接预测任务中,KGTransformer表现优越。KGTransformer在主题投资方面的表现优于现有的主题ETF,提升超过10%。
论文地址:https://arxiv.org/pdf/2407.10909
摘要
动态知识图(DKG)用于表达对象间的时间连接,适合从复杂非结构化数据中提取信息。在金融应用中,DKG可用于基于金融新闻检测投资趋势。本文提出了一个名为集成上下文知识图生成器(ICKG)的开源微调大语言模型,用于生成金融新闻文章的动态知识图FinDKG。设计了基于注意力机制的图神经网络架构KGTransformer来分析FinDKG。在基准数据集和FinDKG上进行的链接预测任务中,KGTransformer表现优越。KGTransformer在主题投资方面的表现优于现有的主题ETF。
简介
知识图谱(KG)由实体、关系和事实组成,基本构成是三元组(s, r, o)。动态知识图谱(DKG)在KG基础上引入时间戳,事件以四元组(s_i, r_i, o_i, t_i)表示,支持时间演变。动态知识图谱学习涉及使用图神经网络(GNN)建模KG的结构和时间动态。提出KGTransformer,结合元实体信息的注意力机制GNN,提升链接预测性能。开发集成上下文知识图谱生成器(ICKG),利用LLM从文本中提取实体和关系,生成事件四元组。使用ICKG创建开放源代码的金融知识图谱数据集FinDKG,支持主题投资。
相关工作
图表示学习。图神经网络(GNNs)用于提取图的低维表示,提升节点分类、边预测和图分类等任务的性能,尤其在知识图谱(KGs)中用于信息检索、问答和推荐。
金融知识图谱。金融系统的复杂动态关系可表示为动态知识图谱(DKGs),应用于欺诈识别、股票预测等,但现有静态GNN模型在动态金融网络中面临挑战。
金融中的大语言模型(LLMs)。LLMs在金融任务中表现出色,如情感分析和股票市场预测,但存在可解释性和计算成本问题。开源模型如Meta的LLaMA和Mistral AI的LLM提供了更高效的替代方案。
集成上下文知识图谱生成器(ICKG)
目标。提出一个自动化、可扩展的管道,从非结构化数据(如文本)中提取时间知识图谱。使用大语言模型(LLM)进行知识图谱构建,需通过监督微调进行定制。开发了集成上下文知识图谱生成器(ICKG),基于GPT-4 API,优化知识图谱构建任务。
微调流程。从5000篇开源金融新闻文章构建微调数据集,逐一输入GPT-4,提取三元组并分类实体。应用数据质量过滤,仅保留严格符合指令且每篇文章返回超过5个四元组的输出。使用过滤后的四元组微调开源Mistral 7B模型,耗时约10小时,使用8个40GB的A100 GPU。
流程图示例展示了输入新闻文章、预定义实体类别和关系的过程,输出为表示知识图谱的五元组。
FinDKG数据集
本文贡献了一个开源的金融动态知识图谱数据集FinDKG,基于ICKG LLM构建。数据集包含约40万篇来自《华尔街日报》的金融新闻文章,时间跨度为1999至2023年,排除了与经济金融无关的主题。ICKG提取了包含实体、实体类别和关系类型的五元组,关系类型限制为15种与金融新闻相关的类型。实体经过Sentence-BERT进行消歧义处理。2023年1月的FinDKG快照显示了美中地缘政治紧张、高通胀压力和COVID-19疫情的影响。数据集用于测试提出的动态知识图谱学习方法。
基于KGTransformers的图学习
动态知识图谱学习旨在捕捉观察数据的结构和时间特征,重点在于未来事实的预测。主要任务为链接预测:给定源实体、关系和未来时间,预测最可能的目标实体。目标是为每个三元组估计排名函数,表达四元组发生的可能性。本文通过新颖的KGTransformer学习这些函数。
知识图谱Transformer
KGTransformer是一种基于注意力机制的图神经网络(GNN),用于构建实体的低维表示(图嵌入)。该模型在标准GNN架构基础上,结合了元实体,通过扩展的图注意力机制增强不同实体类别间的关联。KGTransformer层生成的嵌入表示为??(?) ∈ R?? × ???,经过多层处理,最终输出为??(??) ∈ R?? × ??。在每层,潜在特征通过聚合操作生成,采用多头机制进行信息整合。更新函数结合消息向量和注意力分数,通过聚合方程进行计算,确保更新权重归一化。注意力分数通过softmax变换计算,确保权重和为1。
每个注意力分数 ???(??,??,??) 通过元实体整合获得,假设存在函数 ??:E→CE,将实体映射到实体类型。
例子。OpenAI(公司)与 ChatGPT(产品)之间的关系可表示为 ??(OpenAI)=公司,??(ChatGPT)=产品。元实体通过张量???∈R|CE|×|R|×|CE|融入架构,采用与异构图相同的方法。
KGTransformer 的注意力分数公式为:
键和查询向量由前一层的潜在特征派生,使用可训练矩阵 P? 和 R?。消息向量通过对前一层嵌入 Y(??1) 应用线性投影获得,公式为:
DKGs的时间演化更新
本节讨论如何在EvoKG框架下结合时间变化的知识图谱(DKG)表示,包括时间嵌入和结构嵌入。定义在离散时间点观察到的DKG G_t =(E, R, F_t),并引入事实集 F_t 的变化。使用KGTransformer独立处理每个图 G_t,生成时间嵌入 V_t 通过RNN建模。对于关系的时间嵌入 V_t^{sim} 也通过RNN建模,基于出现的关系进行平均。结构嵌入 U_t 通过KGTransformer和RNN生成,反映给定图的条件概率。结构嵌入同样通过对关系进行平均得到 U_t^{sim} ,并用RNN建模。
动态知识图谱学习
本文讨论了一种基于概率框架的动态知识图(DKG)学习方法,结合KGTransformer的时间变化嵌入。目标是估计最佳模型参数以描述观察到的图G??。概率分解为两个部分:??(??,??,??|G???1)表示图结构演变,??(??|??,??,??,G???1)控制时间动态。使用时间变化的结构嵌入????,??和?????,??来近似??(??,??,??|G??)。全局嵌入????聚合所有实体的嵌入,用于计算条件概率。概率分解为实体和关系层面,使用多层感知机(MLP)进行参数化。时间动态建模通过混合的??个对数正态分布来实现。
模型参数通过接收来自KGTransformer的时间嵌入的多层感知机(MLP)进行学习。通过最小化复合损失函数来推断模型参数,损失函数考虑了关系对称性的调整。
实验和应用
测试KGTransformer在链接预测任务上的表现,使用流行基准和新创建的FinDKG数据集。评估由ICKG LLM生成的FinDKG在新闻文章中检测金融趋势的能力,分析图中心性指标。探索FinDKG在主题投资中的应用。
真实世界DKGs的链路预测
实验评估KGTransformer模型在链接预测上的效果,使用MRR和Hits@n(Hits@3和Hits@10)作为性能指标。MRR计算公式为:MRR = Σ (1/rank_q) / |Q|,其中rank_q为真实链接的排名。Hits@n衡量真实链接在前n个预测中的比例,使用验证集进行早停以避免过拟合。
基线模型包括静态图模型R-GCN和时间图模型RE-Net、EvoKG,以及不包含元关系的KGTransformer版本。所有模型在相同计算环境下训练和评估,使用三种随机种子,结果为平均值,变异性小。
评估数据集包括ICEWS、YAGO、WIKI和新引入的FinDKG,FinDKG包含元实体,KGTransformer在此数据集上的优势更明显。
结果显示,静态方法R-GCN在时间设置中表现不佳,强调了时间特征的重要性。KGTransformer在YAGO和WIKI数据集上优于竞争对手,但在ICEWS14数据集上未见提升。在FinDKG上,KGTransformer的优势更明显,整合实体类型显著提升性能,MRR和Hits@3,10指标提高约10%。当不包含实体类别时(“KGTransformer w/o node types”),结果与时间基线接近,显示引入该信息的好处。
金融新闻中的趋势识别
FinDKG用于动态追踪全球金融网络,评估ICKG LLM在金融新闻信息提取中的表现。每周日组建1个月快照知识图,存储前一个月的事件四元组。使用四种中心性指标(度中心性、介数中心性、特征向量中心性、PageRank)量化实体重要性,并进行一年期??-score标准化。以全球COVID-19疫情为案例,分析其中心性指标与头条覆盖度的比较。中心性指标有效捕捉疫情时间线中的重要时刻。
基于FinDKG的主题投资
主题投资策略关注未来影响行业和经济的特定趋势,本文利用FinDKG和KGTransformer进行AI主题的公司曝光度评估。在每个季度末,使用KGTransformer模型进行在线学习,预测未来受AI影响的股票,并构建以AI为主题的投资组合FinDKG-AI。该组合基于预测的影响概率进行月度再平衡,持仓权重归一化,总和为100%。与EvoKG模型相比,FinDKG-AI组合在回测中表现最佳,年化收益和夏普比率最高,超越了现有AI ETF和EvoKG策略。FinDKG-AI组合的表现提升与OpenAI ChatGPT发布的时间点相吻合。
总结
本文提出了三项关于动态知识图谱(DKGs)和大型语言模型(LLMs)在金融应用中的贡献。研究了微调的开源LLMs在生成知识图谱中的表现,提出了集成上下文知识图谱生成器(ICKG)LLM。使用ICKG LLM从金融新闻文章中创建了开源数据集FinDKG。
提出了KGTransformer架构,结合了HGT和EvoKG,利用元实体信息提升学习过程。KGTransformer在两个基准数据集上提升了链接预测性能,FinDKG上提升超过10%。ICKG LLM的通用性超越金融领域,相关应用已在文献中出现。相关代码和FinDKG可视化在线门户可在GitHub和指定网址找到。