转自公众号:知识图谱科技
http://mp.weixin.qq.com/s?__biz=MzI3ODE5Mzc1Ng==&mid=2247493544&idx=1&sn=c6c6fd1a97bf9eeb17867ffb8364e4dc
摘要
科学进步取决于研究人员综合不断增长的文献的能力。大型语言模型 (LM) 能否帮助科学家完成这项任务?
我们介绍了 OpenScholar ,这是一种专门的检索增强 LM,它通过从 4500 万篇开放获取论文中识别相关段落并综合引文支持的回复来回答科学问题。
为了评估 OpenScholar,我们开发了 ScholarQABench,这是第一个用于文献搜索的大规模多领域基准,包括 2,967 个专家撰写的查询和 208 个长篇答案,涵盖计算机科学、物理学、神经科学和生物医学。
在 ScholarQABench 上,OpenScholar -8B 的正确性比 GPT-4o 高出 5%,比 PaperQA2 高出 7%,尽管它是一个更小的开放模型。虽然 GPT4o 在 78-90% 的情况下会产生引文幻觉,但 OpenScholar 的引文准确性与人类专家相当。OpenScholar 的数据存储、检索器和自反馈推理循环也改进了现成的 LM:例如,OpenScholar -GPT4o 将 GPT-4o 的正确性提高了 12%。
在人工评估中,专家分别有 51% 和 70% 的时间更喜欢 OpenScholar -8B 和 OpenScholar -GPT4o 的回答,而不是专家编写的回答,而 GPT4o 的回答为 32%。我们开源了所有代码、模型、数据存储、数据和公开演示。
OpenScholar: Synthesizing Scientific Literature with Retrieval-augmented LMs
https://arxiv.org/html/2411.14199v1
相关链接openscholar.allen.ai/Blog
allenai.org/blog/openscholarOpenScholar code
github.com/AkariAsai/OpenScholarScholarBench code
github.com/AkariAsai/ScholarBenchCheckpoints, Data, Index
OpenScholar/openscholar-v1Expert Evaluation
AkariAsai/OpenScholar_ExpertEval
核心速览
研究背景
-
研究问题:这篇文章要解决的问题是如何利用大型语言模型(LLMs)来辅助科学家综合科学文献。具体来说,研究如何通过检索增强的语言模型(Retrieval-Augmented Language Models, RAG)来回答科学查询,识别相关段落并合成引用支持的响应。
-
研究难点:该问题的研究难点包括:LLMs的幻觉问题、依赖过时的预训练数据以及缺乏透明的引用归属。例如,在计算机科学和生物医学领域,GPT-4在引用最新文献时,有78-90%的时间会编造引用。
-
相关工作:该问题的研究相关工作包括检索增强的语言模型(如Lewis et al., 2020; Guu et al., 2020),但这些系统通常依赖于黑箱API或通用LLMs,没有针对科学领域进行优化,也没有使用开放的科学领域特定的检索数据存储。此外,科学文献综合的评估工作有限,通常使用单学科和小规模的人类评估(如Agarwal et al., 2024; Zheng et al., 2024)或简化的任务(如多项选择题问答)。
研究方法
这篇论文提出了OPENSCHOLAR,一种专门用于科学文献综合的检索增强语言模型。具体来说,
-
数据存储和检索器:OPENSCHOLAR使用了一个包含4500万篇开放获取论文的大型数据存储(OPENSCHOLAR-DATASTORE, OSDS),并为这些论文构建了相应的段落嵌入。检索器首先从ODS中检索段落,然后使用重排器对检索到的段落进行精炼和排序。
-
迭代自我反馈生成:在推理时,OPENSCHOLAR首先生成初始响应,并通过自然语言反馈迭代改进其输出。具体步骤包括:生成初始响应和反馈、使用反馈进行迭代细化、引用验证。
-
训练数据生成:为了训练一个更小但更具竞争力的8B模型,OPENSCHOLAR通过推理时管道生成高质量的训练数据。具体步骤包括:从数据存储中采样论文摘要、生成信息检索查询、使用OPENSCHOLAR推理时管道生成高质量响应。
实验设计
-
数据收集:OPENSCHOLAR使用peS2o v3.1作为数据源,包含截至2024年10月的4500万篇论文。每篇论文的主文被分割成250词的文本块,并与论文标题连接形成段落。
-
样本选择:在单篇论文任务中,使用了SciFact、PubMedQA和QASA等现有数据集,并从这些数据集中提取出需要多篇论文回答的问题。在多篇论文任务中,招募了博士研究人员生成复杂科学问题,并要求他们从整个开放获取的论文集合中检索相关信息。
-
参数配置:对于8B模型,使用Llama 3.1 8B进行训练,训练数据来自Ivison et al. (2023)和SciRIFF (Wadden et al., 2024)。训练过程中,设置了最大上下文长度为10k,批量大小为1,梯度累积步长为2,优化器为AdamW。
结果与分析
-
单篇论文任务:在单篇论文任务中,OPENSCHOLAR的OS-8B和OS-70B在最终正确率和引用准确率方面均优于其他模型。例如,OS-70B在PubMedQA和QASA任务上的表现与GPT-4o相当甚至更好。
-
多篇论文任务:在多篇论文任务中,OPENSCHOLAR-8B、70B和GPT4o(OS-8B、OS-70B和OS-GPT4o)表现出强大的性能。OS-GPT4o在SCHOLAR-CS任务上的正确率比GPT4o提高了12.7个百分点,比标准RAG提高了5.3个百分点。
-
自动评估:在自动评估中,OPENSCHOLAR在引用准确率、内容质量和组织等方面均优于其他模型。例如,OS-8B在SCHOLAR-CS任务上的引用准确率为47.9%,而GPT4o仅为31.1%。
-
人类评估:在人类评估中,OPENSCHOLAR-GPT4o和OS-8B在有51%和70%的情况下优于人类编写的答案。专家评估显示,OPENSCHOLAR生成的答案在覆盖范围和组织方面优于人类编写的答案。
总体结论
这篇论文提出了OPENSCHOLAR和SCHOLARQABENCH,分别用于解决科学文献综合问题和评估文献回顾自动化。OPENSCHOLAR通过检索增强和迭代自我反馈生成,显著提高了科学文献综合的质量和准确性。SCHOLARQABENCH提供了一个标准化的大规模多领域评估基准,支持多种科学领域的文献回顾任务。实验结果表明,OPENSCHOLAR在多个任务和评估中均优于现有的系统和人类编写的答案。论文还开源了OPENSCHOLAR的所有代码、模型、数据存储和SCHOLARQABENCH基准,以支持和加速未来的研究工作。
论文评价
优点与创新
-
创新的检索增强模型:OPENSCHOLAR是一个创新的检索增强语言模型,专门用于科学文献的合成。它通过结合检索和自反馈生成来提高响应的质量和准确性。
-
大规模数据集:OPENSCHOLAR使用了包含4500万篇开放获取论文的OPENSCHOLAR-DATASTORE,这是目前最大的开源科学领域数据集。
-
多领域基准测试:SCHOLARQABENCH是一个大规模的多领域基准测试,涵盖了计算机科学、物理学、神经科学和生物医学四个领域,提供了现实且可复现的评估。
-
高质量训练数据:通过自反馈生成高质量的训练数据,使得较小的、更高效的模型也能生成高质量的输出。
-
专家评估:进行了详细的专家评估,涉及16位来自计算机科学、物理学和生物医学领域的科学家,结果显示OPENSCHOLAR生成的答案在覆盖率和组织性方面优于人类编写的答案。
-
开源生态系统:所有代码、模型、数据存储、数据和公共演示都开源,支持并加速未来的研究工作。
不足与反思
-
数据集规模限制:由于招募专家注释者的成本和时间的限制,带有人类编写答案的评估数据集相对较小,这可能引入统计方差和潜在的偏见。
-
自动评估管道的局限性:自动评估管道可能无法完美地捕捉生成内容的质量,特别是在评估引用精度和覆盖范围时。
-
注释者的专业知识:注释者的专业知识可能无法完全覆盖所有领域,特别是那些访问论文数据受限的领域。
-
模型能力的局限:尽管OPENSCHOLAR在多个方面表现出色,但它仍然依赖于预训练的模型,这些模型可能会随着时间的推移而演变,影响结果的复现性。
-
未来工作方向:未来的研究可以探索如何更好地整合版权受保护的论文内容,并进一步提高模型在科学文献综述任务中的表现。
关键问题及回答
问题1:OPENSCHOLAR在处理科学文献综述任务时,如何确保引用的准确性和透明度?
OPENSCHOLAR通过以下步骤确保引用的准确性和透明度:
-
数据存储和检索器:OPENSCHOLAR使用了一个包含4500万篇开放获取论文的大型数据存储(OPENSCHOLAR-DATASTORE, OSDS),并为这些论文构建了相应的段落嵌入。检索器首先从ODS中检索段落,然后使用重排器对检索到的段落进行精炼和排序。
-
迭代自我反馈生成:在推理时,OPENSCHOLAR首先生成初始响应,并通过自然语言反馈迭代改进其输出。具体步骤包括:生成初始响应和反馈、使用反馈进行迭代细化、引用验证。通过这种方式,模型能够在生成响应的过程中不断校正和验证引用的准确性。
-
引用验证:在生成最终响应后,OPENSCHOLAR会指示生成器LM验证响应中的引用。具体来说,模型确保所有需要引用的陈述都有适当的引用支持,并且在移除引用后不会影响响应的完整性。
问题2:SCHOLARQABENCH作为一个大规模多领域评估基准,具体包括哪些任务和评估指标?
SCHOLARQABENCH包括以下任务和评估指标:
-
单篇论文任务:这些任务包括SciFact、PubMedQA和QASA等现有数据集,主要评估模型在单篇论文中的表现,如事实准确性、引用准确性和答案质量。
-
多篇论文任务:这些任务包括SCHOLARQA-CS、SCHOLARQA-BIO、SCHOLARQA-NEURO和SCHOLARQA-MULTI,要求模型从多篇论文中检索和综合信息,生成长形式的答案。评估指标包括答案的正确性、引用准确率、内容覆盖范围、组织结构和整体有用性。
-
自动评估:使用Prometheus和osunlp/attrscore-flan-t5-xl等工具对生成的答案进行自动评估,涵盖引用准确率、内容质量和组织结构等方面。
-
人类评估:招募博士研究人员对模型生成的答案进行详细评估,评估指标包括答案的正确性、引用准确率、内容覆盖范围、组织结构和整体有用性。
问题3:OPENSCHOLAR在人类评估中的表现如何,与其他模型相比有哪些优势?
在人类评估中,OPENSCHOLAR的表现显著优于其他模型,具体优势包括:
-
正确答案率:OPENSCHOLAR-GPT4o和OS-8B在有51%和70%的情况下优于人类编写的答案,显示出其在生成高质量答案方面的能力。
-
覆盖范围和组织:专家评估显示,OPENSCHOLAR生成的答案在覆盖范围和组织方面优于人类编写的答案。具体来说,OPENSCHOLAR能够提供更广泛和深入的信息,组织更加清晰和有逻辑。
-
整体有用性:在人类评估中,OPENSCHOLAR-GPT4o和OS-8B的答案被认为是有用的比例分别为80%和72%,显著高于人类编写的答案。
-
引用准确性:OPENSCHOLAR在引用准确率方面也表现出色,生成的答案中引用的论文大多真实存在且相关,减少了虚假引用的问题。