Andreas Kollegger,Neo4j 高级开发技术推广工程师。11月18,5分钟阅读
摘要
最近GraphRAG有了更多的进展,微软发布了最新的高性价比LazyGraphRAGLazyGraphRAG:微软重磅推出高性价比下一代GraphRAG。同时Neo4j的GenAI Graph Gathering探讨了GraphRAG(知识图谱 + 检索增强生成)的发展及面临的挑战,强调了在成功应用GenAI时结合结构化数据的重要性,并提供了知识图谱构建和先进检索技术的见解。
重要启示:
* GraphRAG结合知识图谱和RAG,正在快速发展,但许多项目因仅使用非结构化数据而停滞不前。,
* 结合结构化和非结构化数据(混合数据)显著提高了GenAI应用的成功率。
* 主要挑战包括知识图谱的构建、为特定领域选择合适的GraphRAG方法以及开发者体验。,
* 有效的GraphRAG实施通常涉及并行技术比较、完整的上下文揭示和图形可视化。
* 讨论了多种类型的知识图谱,从简单到复杂,强调数据准备和建模的必要性。,
* 本体和模式提升了互操作性和可解释性,但需要更简单的格式以便于采用。
* 先进的图谱检索技术,如图神经网络(GNN),对于提高精度和解决依赖于用例的挑战至关重要。
正文
缩放定律可能会趋于平稳,但 GenAI 的前景并没有减弱。各地的工程师都在忙于弄清楚什么有效以及如何使其有用。GraphRAG 是知识图谱和检索增强生成 (RAG) 的组合,已经发展成为一系列技术,研究论文和软件集成的数量不断增加。
考虑到这一点,我们组织了第二次 GenAI Graph Gathering,并邀请了一群我们认识的最聪明的人,他们在图谱和 LLM 的交叉领域工作。目标是赶上并比较有关 GraphRAG 发生的许多事情的笔记。
回顾展:从 5 月到今天
自 5 月第一次 GenAI Graph Gathering 以来,GraphRAG 的时间表不完整。
在第一届 GenAI Graph Gathering 上,我们探讨了如何使用知识图谱进行检索,观察到 GenAI 应用程序使用了来自三个主要桶的源数据:
-
来自文本文件或 PDF 的非结构化数据
-
来自现有数据库的结构化数据
-
混合数据,两者的组合
整个夏天,我们看到开发人员和企业的兴趣大幅增加。项目往往从非结构化或结构化数据开始 — “使用 PDF 聊天”或“使用 CSV 聊天”。不过,许多项目在试点阶段停滞不前,尽管先进的技术为前进指明了方向。
对于那些能够做的不仅仅是概念验证的人来说,他们有什么共同点?根据我们的经验,非结构化数据和结构化数据之间似乎存在更紧密的联系,处于混合数据的最佳位置。
在 GenAI 的概念验证工作中,71% 在仅使用非结构化数据时停滞不前。第三个通过 PoC 的 API 要么从结构化程度更高的业务数据开始,要么合并了更多结构化的业务数据。
将学术理论转化为现实世界的实践是很困难的。所以我们决定做几件事:
-
策划一个模式目录,从研究论文中提取信息
-
在工具和库中实施经过验证的方法
-
与我们的同行会面,了解其他可以提供帮助的内容
-
在聚会上,我们分成了小组讨论,重点讨论了知识图谱构建、GraphRAG 技术和实际经验。
GraphRAG 入门
假设 AI 工程师已经知道什么是向量嵌入并能解释 RAG 首字母缩略词,那么开始使用 GraphRAG 的最佳方式是什么?
来自我们的共享笔记:
-
跨技术之间的并排比较
-
显示用于生成答案的完整上下文,包括连接的数据和生成的提示
-
图谱可视化对于数据和架构来说非常重要
-
帮助构建知识图谱,平衡自动魔法和手工策划
-
三个方向:1) 基于工具的通用工作流程,适用于任何来源;2) 特定的 “northwind” 知识图谱作为一个众所周知的深入示例;3) 适用于各种示例的独立笔记本
?????
开发人员体验?????????
为了扩展关于入门的对话,另一场会议考虑了更广泛的开发人员体验主题。
来自我们的共享笔记:
-
大多数人从非结构化数据开始,而 GraphRAG 则专注于结构化或混合数据
-
普通 RAG 与域无关,而 GraphRAG 则成为特定于域的
-
“高级 RAG”可以理解为进入 GraphRAG 的第一步,与该领域保持相对不可知
-
存在“冷启动”或“空白画布”问题,可以使用模板解决
-
正确的 GraphRAG 方法是特定于领域的;需要指导和示例
-
“七张图”涵盖广泛的一般业务关注点(更多内容即将发布)
-
GraphRAG 模式目录作为通用参考,就像经典的 OO 设计模式一样
知识图谱建设工程
知识图谱是一个完整的信息架构,它可以像带摘要的分块文本一样简单,也可以像整个企业的联合视图一样全面。知识图谱都需要数据准备、转换、建模和评估,就像任何数据工程一样。
该小组考虑了知识图谱的混合:
-
域图,从 CSV 或 JSON 等结构化数据映射
-
具有长格式文本的域图,从结构化数据映射
-
具有已知结构的词法图,源自产品目录或手册等知名文档集合
-
具有已发现结构的词法图,使用由已知术语指导的命名实体识别 (NER)
-
具有已知结构和已发现结构的词法图,将 NER 与结构化数据相结合
-
具有完全发现的结构的词法图,使用开放式 NER
本体论:计划是什么?
本体只是主题区域中的一组概念和类别,用于显示它们的属性以及它们之间的关系。如果您愿意,可以将其称为图谱架构。
来自我们的共享笔记:
-
架构有助于实现互操作性、可解释性和接地
-
用于实体提取以及非结构化和结构化数据之间的对齐
-
完整、正式的本体论可能令人生畏。GraphRAG 有没有更简单的格式?
-
可以自动选择目录中的现有架构以匹配非结构化数据
-
天平易于使用,严格正确
-
架构有助于实现互操作性、可解释性和接地
高级图谱检索
大量的研究继续探索使用图谱进行信息检索的许多技术。
来自我们的共享笔记:
-
研究包括:上下文检索、以查询为中心的摘要、文本到密码、分层内存、基于图谱的重新排序、混合索引、GNN
-
GNN 和图形数据科学可以丰富、细化和提高精度
-
图谱可以表示源信息、内存、安全约束和信息检索的引导路径
-
主要挑战是“正确”的做法取决于用例
最后的思考
GenAI Graph Gathering 是跨组织协作的独特机会。虽然直接目标是点对点连接,但从长远来看,每个客人都在他们的道路上取得成功,并最终让每个人都能从 GraphRAG 中受益。
GraphRAG — 使用 RAG 中的“R”图谱 — 随着广泛的方法和技术而不断发展。好消息是,您不需要了解所有内容或一次完成所有操作。图谱是令人愉快的可组合的。心智模型,即图谱中的思维方式,有一些概念可以延伸到您准备好的范围内。它可以是从 ML 模型到应用程序工作流,再到磁盘上的数据存储的图谱。或者,iIt 也可以像将一些文本块彼此连接以及将包含的文档连接起来一样简单。
从最小可行图谱开始。添加更多数据。丰富、连接、重复。
参考文献