How to如何
How enterprises can take advantage of knowledge graphs for AI | How to take advantage of a generative tool fueling Glean’s $260M raise: GraphRAG | VentureBeat
摘要:
知识图谱结合检索增强生成 (RAG) 技术,即 GraphRAG,正成为企业利用生成式 AI 提升效率和洞察力的关键技术,Glean 公司的成功案例和 2.6 亿美元融资凸显了其巨大潜力。
Glean由前谷歌工程师Arvind Jain于2019年创立,总部位于美国加利福尼亚州,是一家提供企业AI搜索服务的公司。其愿景是让每个人都能在工作中轻松使用AI。Jain将Glean比作“企业版的谷歌和ChatGPT”。
Key Takeaways:
* 知识图谱结合 RAG 技术 (GraphRAG) 显著提高了 AI 的准确性和情境感知能力,为企业带来了巨大的投资回报率。
* Glean 公司利用 GraphRAG 技术帮助企业大幅节省时间和成本,一个大型共享出行公司每月节省超过 2 亿美元。
* 知识图谱通过节点、边和属性直观地表示复杂数据关系,解决了传统数据处理的局限性。
* GraphRAG 比基于向量的 RAG 系统更精准,并具有更好的可解释性和安全性。
* 构建知识图谱有多种途径,既有 Glean 这样的成熟商业解决方案,也有 Neo4j 等开源工具可供选择。
* Langchain 和 LlamaIndex 等框架简化了知识图谱的构建和查询,方便企业利用生成式 AI。
* 尽管知识图谱技术潜力巨大,但数据整合和专业技能匮乏仍然是企业应用过程中的挑战。
Source:
https://venturebeat.com/data-infrastructure/how-to-take-advantage-of-a-generative-tool-fueling-gleans-260m-raise-graph-rag/
正文:
当创新型企业搜索公司 Glean 的销售代表需要为重要的客户会议做准备时,他们转向了自己强大的生成式 AI 工具。在几分钟内,该系统梳理了多年的电子邮件、Slack 消息和通话录音,提供了客户关系的全面概览,并发现了需要数小时手动发现的机会。
这不仅仅是另一个 AI 聊天机器人。它是一个复杂的搜索系统,可以理解公司数据中复杂的关系网络。结果如何?改变企业运营方式的洞察力
构建 Agentic AI 的基础设施
这项技术的力量不仅仅是理论上的。世界上最大的拼车公司之一亲身体验了它的好处。在专门组建了一整个工程师团队来开发类似的内部解决方案后,他们最终决定过渡到 Glean 的平台。
“在一个月内,他们在 Glean 平台上的使用率翻了一番,因为结果就在那里,”Glean 首席营销官 Matt Kixmoeller 在 2024 年 8 月下旬接受 VentureBeat 采访时说。“他们最终估计,在所有员工群体中,每个人平均每周可以节省两到三个小时,以更快地查找信息。这为他们在全球范围内节省了超过 2 亿美元。
这种惊人的 ROI 并不是一个孤立的事件。随着企业争先恐后地将生成式 AI 集成到其运营中,一种强大的技术正在成为真正变革性应用程序的秘密成分:知识图谱。
数据工程师的秘密武器
对于数据工程师来说,在预算紧张的情况下运营的同时,优化数据管道、提高数据质量和增强 AI 性能的压力是无情的。
通过以直观、灵活的格式表示复杂的数据关系,知识图谱正在彻底改变企业处理、理解和利用其庞大信息生态系统的方式。事实证明,当与检索增强生成 (RAG) 系统结合使用时,这项技术特别强大,从而诞生了 GraphRAG——一种显着提高 AI 输出的准确性和上下文感知的方法。
市场正在注意到这一点,Glean 在昨天宣布的最新一轮融资中获得了 2.6 亿美元的巨额资金。从统包式解决方案到高级自定义实施,知识图谱为数据专业人员提供了一系列选项来转变他们的数据策略。
虽然初始投资可能很大,但数据集成、生成式AI 性能和运营效率方面的长期利益是巨大的。随着技术的成熟和可访问性,知识图谱有望成为希望构建更智能、上下文感知和高效的数据生态系统的数据团队的重要工具。
理解知识图谱:一种语言隐喻
要掌握知识图谱的概念,可以将它们想象成一个复杂的句子或段落:
-
节点就像名词,代表实体或概念。例如,“customer”、“product” 或 “sales meeting”。
-
边缘就像动词,显示节点之间的关系。例如,“purchased”、“attended” 或 “is interested in”。
-
属性类似于形容词或副词,提供有关节点或边缘的其他信息。它们可能包括 “购买日期”、“会议持续时间” 或 “兴趣级别” 等详细信息。
企业数据的这种新维度使自动化系统能够提升更难识别但确实会带来额外复杂性的见解。
“知识图谱使您能够有效地表示和查询这些复杂的关系,”Neo4j 首席技术官 Philip Rathle 说。“当你考虑尝试在组织中的每条数据中执行此操作时,所需的规模、所需的安全性、所需的权限,所有这些都成为一个真正的问题。”
检索增强生成 (RAG) 和 GraphRAG
RAG 是一种通过在生成响应之前向 AI 模型提供从知识库中检索的相关信息来增强 AI 模型的技术。传统的 RAG 系统通常依赖矢量数据库根据语义相似性来定位文本块。
GraphRAG 通过利用知识图谱中的结构化关系进一步发展了这一概念。正如 Glean 的工程经理 Arjun Landes 所解释的那样:“我们能够构建如此复杂的知识图谱并将其与 LLM 相结合,这一事实是真正的强大之处。
企业生成式人工智能应用的架构模式:GraphRAG、RAG、DSFT和RAFT
在实践中,GraphRAG 允许比简单的向量搜索更细致和上下文感知的信息检索。“你正在使用带有VectorRAG,但你知道,如果你正在为高价值客户进行设备维护或复杂的客户服务等带丰富上下文语义,那么VectorRAG是不够的,”Rathle 说。
GraphRAG不仅可以查找相似的文本块,还可以遍历实体之间的关系,了解层次结构,并捕获平面文本表示可能遗漏的复杂依赖关系。这可以显着减少幻觉并提高利用 LLM 输出时的可解释性。
“最终使 GraphRAG 成为正确和理想的解决方案的是:更高的准确性——在有确切答案的情况下可能是 100% 的准确性,”Rathle 说,“以及可解释性和安全性,因为对于基于向量的 RAG,当然还有 LLM,能够应用安全规则的钩子是有限的。
在预算内实施知识图谱
对于许多组织,尤其是那些预算紧张的组织来说,实施知识图谱技术似乎令人生畏。
但是,有一些经济高效的方法可以将此技术整合到现有的数据基础设施中。
MindPalace 是一家初创公司,致力于构建生成式工具,以组织和利用个人的不同个人信息来源,MindPalace 的联合创始人兼首席技术官 Dexter Tortoriello 提供了一些见解:“我认为我们仍处于 [GraphRAG 服务] 的整合阶段。所以我认为我们仍然站在人们宁愿拥有积木并构建他们的东西的一边。虽然有像 Glean 这样的交钥匙解决方案,但也有空间采用更经济实惠的 DIY 方法。
开源工具和社区驱动的计划可以显著降低实施成本。Neo4j 为较小规模的项目提供免费的社区版本,Amazon Neptune 与 AWS 集成,NebulaGraph 等项目提供用于构建知识图谱的开源框架。
Rathle 解释了 Neo4j 的价值主张:“我们是任何想要知识图谱的人的技术提供商,或者拥有数据一旦加载到图形数据库中就可以用作知识图谱的人。我们提供所有连接器、API 和查询语言、用于可视化和查询的托管服务和工具,以及用于查询的自然语言,以及整个方面。
“大模型+知识图谱”双轮驱动的医药数智化转型新范式-OpenKG TOC专家谈
知识图谱和企业数据的未来
随着技术的成熟,我们可能会看到知识图谱的自动创建变得更加容易和经济高效。Neo4j 的产品创新主管 Michael Hunger 指出:“将有一些模型针对实体和关系提取进行了微调。因此,我想说,提取实体的成本至少会比现在的大型 LLM 便宜两个数量级。
随着企业采用知识图谱进行数据管理,Langchain 和 LlamaIndex 等生成式框架正在成为强大的盟友。
通过将其代理工作流构建为互连的节点和边缘,Langchain 促进了高效的查询和检索,通过增强的数据检索、上下文理解和可扩展性来提高性能。其自然语言查询功能允许用户通过直观的界面与 Neo4j 和 Amazon Neptune 等图形数据库进行交互。
LlamaIndex 提供了一个灵活的框架,用于使用 LLM 构建和查询知识图谱,使其成为高级 RAG 应用程序的理想选择。它提供了用于从文本文档构建知识图谱和检索信息的工具和 API。
主要功能包括图形构造和存储、自然语言查询和属性图形索引,该索引通过对节点和元数据关系进行分类来实现更丰富的建模和查询,从而提高 AI 系统的准确性和治理能力。
挑战和注意事项
尽管前景光明,但采用知识图谱技术也带来了挑战。数据集成问题和对专业技能的需求可能是重大障碍。
来自 Glean 的 Kixmoeller 承认这些障碍:“仍然非常具有挑战性的一件事是,企业环境实际上非常非常混乱和复杂。有如此多的信息分布在许多不同的系统中。将这些知识与 AI 技术连接起来并检索起来,以及治理所有这些知识,仍然非常困难。
为了克服这些挑战,组织可能需要投资培训计划或与知识图谱专家合作。随着该技术变得更加主流,我们可以预期会出现更多熟练的专业人员和更多用户友好的工具。
参考文献