ChatGPT能预测时间序列?基于大模型的时间序列预测中的迭代事件推理

引言

时间序列预测(Time Series Forecasting)是支撑经济、基础设施和社会各领域决策的关键技术。然而,传统的预测方法在面对由外部随机事件引起的突发性变化或异常时,往往表现出局限性。这些方法通常依赖于历史数据的模式识别,假设时间序列的分布在时间上保持一致,难以系统地将复杂的社会事件与时间序列波动联系起来。

新闻文章提供了对意外事件、政策变化、技术发展和公众情绪转变等关键因素的洞察,这些因素可能无法通过纯粹的数值数据捕捉。将新闻整合到预测中,为模型提供了与人类行为和社会变化复杂性密切相关的上下文信息。

本文提出了一种新颖的方法,利用大语言模型(LLMs) 和 生成式代理(Generative Agents),通过跨文本和时间序列数据的推理来增强时间序列预测。我们利用LLM代理迭代地筛选出不相关的新闻,采用类人类的推理来评估预测结果。通过将选定的新闻事件与时间序列数据相结合,我们微调了预训练的LLM,以预测时间序列中的数字序列。实验结果表明,该方法在预测准确性上有显著的提升,表明通过有效利用非结构化的新闻数据,时间序列预测有可能实现范式转变。

图片
时间序列预测

主要内容

  • • 提出了一种新颖的时间序列预测框架,将非结构化的新闻数据与数值时间序列输入相结合,提供更深层次的上下文理解,提升模型对社会事件和现实世界动态的响应能力。
  • • 强调了LLM代理在动态新闻选择和分析中的应用。我们利用LLM的推理能力,自动化地理解和筛选新闻内容。代理通过比较预测误差与所有相关事件,不断地完善其选择逻辑,提升模型的准确性和可靠性。
  • • 提出了一种将时间序列数据与新闻信息相结合的数据构建方法,并构建了跨多个领域的数据集来支持我们的研究。该数据集包括特定任务的时间序列数据和经过验证的公共新闻报道,便于进一步在时间序列研究中探索。
  • • 实验结果展示了新闻数据的有效整合,在金融、能源、交通和比特币等多样化领域实现了卓越的预测准确性。我们的研究发现,整合新闻特别擅长处理复杂性,尤其是在能源需求模式中。

方法

重新思考时间序列预测问题及其要素

时间序列预测可以被视为序列的条件生成问题,这与大语言模型(LLMs)所代表的自然语言处理的通用范式相一致。以LLaMa语言模型为例,假设一个数字序列 {123, 456},LLaMa的分词器会将这个数字视为一系列数字标记,即 {“1”, “2”, “3”, “,”, “4”, “5”, “6”}。给定输入序列 “123”,预测 “456” 的概率可以表示为一种自回归的概率预测过程:

 

一般地,设时间  的时间序列标记为 ,LLM使用条件概率分布  来预测下一个标记 。在预训练期间,LLM优化其内部参数,以最大化整个广泛自然语言语料库上的这个条件概率。

然而,仅依赖历史时间序列进行预测,可能无法捕捉到突发事件对未来的影响。假设存在一个事件 ,它对未来序列的影响可以表示为条件概率 。当未提供事件  的信息时,我们只能通过历史时间序列进行预测。

在语言模型中,新闻事件也可以表示为文本标记。考虑一组新闻文本标记 ,它们代表事件 。LLM将这些新闻信息视为条件输入,执行条件概率预测 。包括  提供了影响未来值预测的重要上下文信息。

微调LLM进行时间序列预测

将上述信息整合后,我们可以构建LLM的输入,以执行时间序列预测。尽管预训练的LLM在某种程度上已经具备生成时间序列预测的能力,但在如此丰富的上下文环境中,仅依赖这些预训练模型进行少样本预测仍然面临挑战。

为使语言模型更有效地在考虑新闻和补充信息条件下进行时间序列预测,我们提出微调语言模型以预测条件概率。我们使用监督指令微调的方法,在包括时间序列、新闻和补充信息的历史数据上训练LLM,这些数据被格式化为文本输入输出对。相同的损失函数在预训练期间也被应用。

为微调LLM,我们采用了低秩适应(Low-Rank Adaptation,LoRA)方法,只更新一小部分参数,降低了计算需求,同时保留了大部分的预训练知识。

用于上下文新闻信息聚合和推理的分析代理

在数据构建过程中,匹配适当的新闻和补充信息并非易事。互联网充斥着新闻,其中大部分与我们要预测的时间序列无关。引入不相关的新闻可能会干扰预测。因此,分析时间序列预测任务与所选新闻之间的相关性和因果关系至关重要。

我们利用基于LLM的推理代理来筛选和推理新闻内容。这个代理通过详细的提示设计,定义角色、指令、权限和上下文,使其能够解释人类命令并执行复杂任务。这种方法将庞大的新闻数据集浓缩为精炼的相关文章。它利用其推理能力,有效地筛选、分类和解释新闻文本。

新闻初步配对

在数据准备的初始阶段,我们根据匹配的时间频率、预测范围和地理区域检索新闻,以与时间序列数据对齐。这种同步确保了文本信息的见解在时间和地域上都是相关的。例如,为了理解2019年至2021年澳大利亚各州的电力需求,我们收集了来自不同澳大利亚州的本地新闻和可能直接或间接影响需求的同期国际新闻。

用于新闻选择的推理代理

我们采用了具备复杂任务处理能力的LLM推理代理,如对话、推理和半自主行动。这个代理通过提示设计,能够有效地筛选、分类和解释新闻文本。我们使用少样本提示和思维链(Chain of Thought,CoT)方法,开发了一个能够理解新闻在预测中上下文的代理。

我们的三阶段提示方法包括:

  1. 1. 理解影响时间序列的因素:指导代理了解并总结可能影响特定领域时间序列的各种因素,按影响(正面/负面)和持续时间(短期/长期)进行分类,考虑经济、政策、季节和技术等因素。
  2. 2. 筛选和分类新闻:指导代理基于自动生成的逻辑或给定的推理逻辑,筛选和分类新闻,关注与时间序列的相关性,并分类其影响类型(如长期和短期)以及推理。
  3. 3. 组织输出格式:指定代理的输出格式,将选定的新闻组织成JSON格式,详细说明摘要、影响区域、报道时间和推理等方面。

用于推理更新的评估代理

我们还设计了一个评估代理,来评估和改进上述新闻筛选的有效性。仅依赖推理代理进行新闻选择并非最佳,因为新闻与时间序列之间的交互是复杂的。推理代理只能从新闻内容的角度分析不同新闻的潜在影响,无法知道基于它们训练的时间序列预测模型是否能做出准确的预测。

评估代理部署在时间序列预测模型训练之后,超越了简单的预测准确性数值评估,通过整合类人类的逻辑推理来完善新闻选择的逻辑链。我们重点评估由于遗漏新闻(如异常事件或不合逻辑的报告)可能导致的不准确性。它观察模型的预测结果,确定是否有关键新闻被忽略,并根据这些结果调整训练数据的新闻筛选策略。

整体流程

我们将新闻推理和评估代理与LLM预测模型的微调相结合,以提高训练数据的质量。下图展示了整个流程的各个步骤。在第一轮迭代中,我们使用LLM代理根据时间序列任务的领域和时间,建立新闻选择逻辑。这个逻辑指导推理代理筛选相关新闻,将其与时间序列数据对齐,并将其输入模型进行初始微调。

在使用验证集验证模型的预测后,评估代理检查可能影响预测的遗漏新闻。这种反馈有助于推理代理在后续迭代中完善筛选逻辑。这个循环持续进行,直到最终迭代,推理代理整合所有更新,创建最终的新闻筛选器,用于训练最终的模型。

实验

数据准备

时间序列数据

我们选择了受人类活动和社会事件影响的领域的时间序列数据,以测试我们的方法在捕捉复杂人类驱动动态方面的能力。这些领域包括交通(Traffic)、汇率(Exchange)、比特币(Bitcoin)和电力(Electricity)。为了避免预训练语言模型的偏差,我们将Exchange和Electricity数据集更新到了2022年。我们使用了来自澳大利亚能源市场运营商(AEMO)的半小时电力需求数据和来自Exchange Rates API的每日汇率数据。这些数据集在频率上有所不同,包括每日、每小时和每半小时更新,使我们能够评估算法在不同时间分辨率下的有效性。

新闻收集

由于没有公开的数据集将时间序列数据与新闻事件配对,我们专门为上述时间序列收集了新闻,以促进我们的研究。一些新闻内容来自GDELT数据集,这是一个跟踪近乎所有国家的新闻的数据库,涵盖100多种语言。GDELT提供了对社会、政治和经济事件的实时洞察,支持对全球趋势及其影响的详细分析。

对于需要最新信息的领域,我们从News Corp Australia和Yahoo Finance等来源收集了实时新闻,重点关注特定地区和任务的活动。

补充信息

我们使用开源工具获取额外数据,以增强我们的预测模型,获得更好的准确性和上下文。来自OpenWeatherMap的天气信息提供了每日温度、大气压力、风速和湿度,对于负荷预测至关重要。使用Python的datetime和holidays包获取的日历日期,考虑了季节性和周期性影响。经济指标则通过pandas_datareader库整合,访问来自美联储、世界银行和国际金融市场的数据,如GDP、通货膨胀率和就业统计数据。

结果

新闻整合的有效性

我们首先评估了整合新闻和补充信息是否能增强时间序列预测。我们进行了实验,验证了整合新闻数据到预测模型中的必要性和有效性。我们比较了四种不同的情境:

  1. 1. 纯数字标记:仅使用数字标记,包括所有变量,不包含新闻。除了区域名称或日期信息外,不包含其他文本标记,作为对比的基线。
  2. 2. 文本描述句子标记:评估使用句子形式的描述而非仅有的数字,是否能提高准确性,不包含新闻整合。
  3. 3. 未筛选的新闻和文本描述句子标记:评估将时间序列的描述性句子与未筛选的新闻数据整合对模型性能的影响。
  4. 4. 经过筛选的新闻和文本描述句子标记:展示将描述性句子与经过代理筛选的相关新闻整合的效果。

不同提示设计的性能如下表所示(在实际文章中加入具体的表格和数据)。

结果显示,引入适当的新闻和其他补充信息,显著提高了所有四个领域的预测性能。然而,如果引入的新闻信息未经仔细选择,可能会严重损害结果。这主要是因为大量不相关的新闻会引入过多的标记,增加了LLM的处理负担,且可能引入噪声和错误的因果信息,导致误导性的预测。

评估代理的有效性

为了使我们的新闻筛选和推理过程更有效、更全面,我们引入了评估代理,根据预测结果反思和改进新闻选择。通过迭代的过程,评估代理完善了新闻筛选,这体现在时间序列预测结果的逐步改进中。我们的研究发现,在大多数情况下,两次迭代就足以实现显著的改进,多次迭代由于反思机制,一致地产生更好的结果。

与其他预测方法的比较

我们还将我们的方法与现有的时间序列预测技术进行了比较,详细信息可在附录中找到。我们的方法在依赖新闻所体现的事件对预测有重大影响的领域(如电力需求、汇率和比特币市场)中,显著优于仅依赖历史时间序列数据的传统方法。这证明了我们方法的潜力。

然而,在交通领域,整合新闻的改进相对有限。这主要是由于交通数据主要反映特定道路的交通流量,而我们的新闻来源大多是区域或全球性的,未能充分捕捉局部的交通状况。

结论与讨论

总之,我们的研究证明了通过LLM预测方法和LLM代理整合新闻到时间序列预测中的好处。这些代理通过自主识别和处理遗漏的新闻,完善其逻辑,并评估事件对预测的影响,增强了模型的智能性。我们的研究发现,整合丰富的领域知识,鼓励向更细致和有上下文意识的预测转变,为自适应、全面的预测与现实世界动态保持一致。

我们方法的局限性

尽管我们的方法展示了像LLaMa 2这样的LLM通过整合新闻可以增强时间序列预测,但其适用性存在局限性。新闻整合的有效性主要体现在人类和市场活动对趋势有显著影响的领域。我们的框架不太适合需要精确气象建模或人类活动影响较小的领域,如气象或物理数据。此外,模型受到预训练LLM的最大标记长度的限制,难以同时处理大量时间序列或多重序列,这可能导致数据截断,影响长期预测的准确性。

未来工作

未来的改进将重点扩展当前预测模型的范围。首先,对模型中使用的新闻内容进行归因分析,将确定哪些因素对预测准确性影响最大,促进优化新闻整合过程。还可以为推理代理提供高级分析工具包,支持复杂的数据处理和实时应用复杂的分析技术。这些发展将提高时间序列预测模型的精度和相关性,提供更深刻的上下文洞察,扩大其在预测分析领域的适用性。

更广泛的影响

从道德角度来看,我们必须进行彻底的审查,确保我们对新闻内容的使用不会无意中延续偏见或对公众舆论产生负面影响。这涉及实施严格的准确性和平衡性检查,避免与错误信息相关的风险,确保我们的数据来源可信,内容事实准确。此外,新闻的潜在误用,特别是“假新闻”(fake news)的传播,强调了我们的模型需要整合复杂的机制,以在整合之前验证信息的可靠性。

除了讨论的领域之外,这种方法有能力扩展到预测GDP趋势、分析碳排放或预测公共卫生结果,每个都对政策制定和公共福利具有重大影响。因此,尽管我们的研究在增强预测分析方面提供了实质性好处,但它也要求我们负责任地处理这些能力,确保我们的贡献对经济规划、环境战略和各领域的明智决策产生积极影响。

本篇论文代码加入知识星球下载查看

更多优质资源欢迎加入知识星球

希望本篇文章能为大家带来AI+Quant的启发,欢迎加入LLMQuant社区获得更加成熟交流和探讨!


备注:以上代码和示例仅供学习和参考,实际应用中需考虑更多因素和细节。

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注