AI Agent智能体: 企业知识自动化的新架构 – MenloVC-百合树AI写作-专业学术论文写作助手

收录于话题

AI Agent智能体: 企业知识自动化的新架构 - MenloVC

摘要

本篇文章探讨了人工智能（AI）从简单的大型语言模型（LLM）发展到自主智能体的演变，概述了四个关键构建块（推理、外部记忆、执行和规划），并详细介绍了不同的智能体架构（检索增强生成（RAG）、工具使用、决策智能体、有限自主智能体和通用AI智能体），同时提供了实际案例。

关键要点:

– **生成式AI**正在从搜索、合成和生成的阶段向能够思考和行动的自主智能体演变。

– **完全自主智能体**的四个构建块为推理、外部记忆、执行和规划。

– 存在多种智能体架构，从检索增强生成（RAG）到完全自主的通用AI智能体，各有不同的自主程度。,

– 本文提供了各种应用中AI智能体的实例，展示了不同的自主水平和能力。,

– 文章强调了**智能体架构**的日益复杂性及所需的支持基础设施。

– **“轨道智能体”**架构被展示为自主性与控制之间的一种实用平衡。

– 最终目标是开发具备动态推理和规划能力的**通用AI智能体**。

来源：

AI Agents: A New Architecture for Enterprise Automation – Menlo Ventures

https://menlovc.com/perspective/ai-agents-a-new-architecture-for-enterprise-automation/

正文

生成式 AI 应用程序有三个核心用例，目前具有很强的产品市场契合度：搜索、合成和生成。Sana*（企业搜索）、Eve*（法律研究副驾驶）和 Typeface*（用于内容生成的 AI）等 Menlo Ventures 投资组合公司代表了这些类别中的早期突破示例，以 LLM 的小样本推理能力为中心。

但生成式 AI 的前景远远超出了第一波核心用例。可以为您读写的 AI 很棒，但更令人兴奋的是可以代表您思考和行动的 AI。为此，我们已经看到 Anterior、Sema4 和 Cognition 等领先的应用程序构建器构建了解决方案，以承担以前只能由人类大军解决的工作流程。

借助多步骤逻辑、外部存储器以及对第三方工具和 API 的访问等新构建块，下一波代理正在扩展 AI 功能的前沿，以实现端到端流程自动化。

在我们深入研究 AI 代理领域时，我们将概述 Menlo 对新兴市场的论点——首先定义什么是代理以及是什么使它们成为可能。在以后的文章中探讨这种范式转变对应用程序和基础设施层的影响之前，我们将追溯现代 AI 堆栈的架构演变，从小样本提示到检索增强生成（RAG）再到成熟的代理系统。

什么是 AI 代理？认知架构的四个构建块

完全自主的代理由四个元素定义，这些元素结合起来，可以达到完整的代理能力：推理、外部记忆、执行和规划。

推理。在最基本的层面上，代理必须能够对非结构化数据进行推理。Anthropic* 和 OpenAI 等基础模型在这方面已经非常有效，它们将部分世界模型编码到 LLM 的预训练权重中，用于一般知识和基本逻辑。

外部存储器。除了一般知识之外，代理还需要外部存储器来存储和调用特定领域的知识以及他们所要解决的问题的边界上下文，通常通过像 Pinecone* 这样的向量数据库。

执行。代理使用工具执行任务，以增强其解决问题的能力。许多早期的代理平台提供了在代码中预定义的自定义操作工具箱，其代理可以从中进行选择。但是，许多通用的代理工具也开始出现，包括 Web 浏览、代码解释、身份验证和授权，以及与企业系统（如 CRM 和 ERP）的连接器，以便在这些系统内执行 UI 操作。

规划。代理不是试图通过单线程序列的 next-token 预测来解决复杂的问题（比如一次性写一篇文章，从第一个词开始，直到最后一个词才停下来），而是遵循一个更像人类的思维过程，将工作分解成更小的子任务和计划，反思进度，并根据需要重新调整。

参考架构：从 RAG 到 Autonomous Agent 的 AI 示例

需要明确的是，未来的完全自主代理可能拥有所有四个构建块，但今天的 LLM 应用程序和代理没有。

例如，流行的 RAG 架构不是代理的，而是利用推理和外部存储器作为其基础。一些设计，如 OpenAI 的结构化输出，甚至支持使用工具。不过，重要的区别在于，这些应用程序将 LLM 用作语义搜索、综合或生成的 “工具”，但它们所采取的步骤（即它们的 logic flows）仍然由代码预先确定。

相比之下，当您将 LLM 置于应用程序的控制流中并让它动态决定要采取哪些操作、使用哪些工具以及如何解释和响应输入时，代理就会出现。只要这是真的，一些代理甚至不需要与外部工具交互或采取行动。

在 Menlo，我们确定了三种类型的代理，它们在控制应用程序流程流的主要用例和自由度方面各不相同。

最受限制的一端是“决策代理”设计，它使用语言模型来遍历预定义的决策树。“Agents on Rails” 为智能体提供更高级别的目标，但通过遵循 SOP 和预先确定的“工具”库来限制解决方案空间，从而提供了多出一度的自由度。最后，在光谱的另一端是“通用 AI 代理”——本质上是 for 循环，上面几乎没有数据脚手架，它完全依赖语言模型的推理能力进行所有规划、反思和路线纠正。

下面，我们将研究每种代理类型的五个参考架构和 AI 代理示例。

检索增强生成（RAG）

设定基准：RAG 是当今大多数现代 AI 应用程序的标准架构。让我们以 Sana 的企业搜索使用案例为例，了解它在后台是如何工作的。

该过程从应用程序加载开始，通常通过 Unstructured* 等数据预处理引擎，跨企业数据孤岛（如 Google Drive 和 Notion）将非结构化文件（例如 PDF、幻灯片、文本文件）转换为 LLM 可查询的格式。这些文件现在被“分块”成更小的文本块，以便更精确地检索，并作为矢量嵌入并存储在 Pinecone* 等数据库中。

当用户向 AI 应用程序提问时（例如，“总结我与 X 公司会议的所有笔记”），系统会检索语义上最相关的上下文块，并将它们折叠成一个“元提示”，其中包含检索到的信息以提供给 LLM。然后，LLM 从检索到的上下文中合成一个答案，以向用户返回一个整洁的、带项目符号的答案。

当然，该图仅说明了具有一次 LLM 调用的单个检索步骤。在生产环境中，AI 应用程序具有更复杂的应用程序流，具有数十甚至数百个检索步骤。这些应用程序通常具有 “提示链”，其中一个检索步骤的输入输入到下一个检索步骤，并且多个 “提示链” 针对不同类型的任务并行执行。然后将结果综合在一起以生成最终输出。

例如，法律研究Copilot Eve* 可能会将关于第七章的研究查询分解为单独的提示链，重点关注预先确定的子主题，如雇主背景、工作经历、第七章、相关判例法和原告案件的支持证据。然后，LLM 运行每个提示链，为每个提示链生成一个中间输出，并在所有输出之间进行综合以写入最终的 memo。

工具使用

工具使用或函数调用通常被视为从 RAG 到代理行为的前半步，为现代 AI 堆栈增加了一个新的层。

这些工具本质上是预先编写的代码组件，用于执行特定的操作。Web 浏览（Browserbase、Tiny Fish）、代码解释（E2B）和授权 + 身份验证（Anon）等流行的原语已经出现。它们使 LLM 能够浏览 Web、与外部软件（例如 CRM、ERP）交互并运行自定义代码。系统向 LLM 提供可用工具，然后 LLM 选择一个工具，将必要的输入制作为结构化 JSON，并触发 API 执行以生成最终操作。

Omni 的 Calculations AI 功能就是这种方法的例证。它利用 LLM 将适当的 Excel 函数直接输出到电子表格中，然后电子表格执行计算并自动为用户生成复杂查询。

话虽如此，工具使用是强大的，但其本身不能被视为“代理”。逻辑控制流仍由应用程序预定义。我们将在即将到来的设计中探讨 True Agents，它允许 LLM 动态编写自己的部分或全部 logic。

决策代理

我们将探索的第一种代理类型是决策代理，它使用代理决策来导航复杂的多步骤推理流程并做出业务决策。与 RAG 或工具使用方法不同，这种架构首次将一些控制逻辑让给 LLM，而不是提前对所有步骤进行硬编码，但仍然位于代理自由度范围的低端，因为代理主要充当在设定的决策树中导航的路由器。

让我们以 Anterior （fka Co：Helm）为例。这家健康计划自动化公司开发了一个临床决策引擎，用于自动化索赔提交审查。今天的护士根据充满条件知识的付款人规则活页夹（例如世界上最无聊的“选择自己的冒险”）手工完成这些审查。

Anterior 简化了这个过程。该公司首先使用基于规则的脚本和语言模型将付款人规则转换为有向无环图（DAG）。然后，他们的代理遍历此决策树，利用每个节点的 LLM 根据特定规则评估相关的临床文档。对于更简单的节点，这可能涉及基本的检索增强生成（RAG）步骤。然而，Anterior 经常遇到需要子链的更复杂的任务，代理必须在前进到下一个节点之前选择最佳方法。它根据每个决策（在内存中管理此中介输出）更新其状态，在树中前进，直到达到最终确定。

Anterior 并不是唯一一个采用这种方法的人。其他在其他领域利用决策代理的公司包括 Norm AI（正在为监管合规构建 AI 代理）和 Parcha（正在为 KYC 构建代理）。

Rails上的智能体

我们将要研究的下一类智能体是 Rails 上的智能体。与决策代理相比，Rails 代理被赋予了更高阶的目标（例如，“将此发票与总账核对”、“帮助客户解决登录问题”、“重构此代码”），并被赋予了更多自由度来选择实现这些目标的方法和工具。

同时，这些代理仍然以关于组织期望代理如何执行的程序知识为指导（“轨道”，表示为以自然语言编写的规则手册或说明手册）;给定的预定义工具，允许在外部软件系统中进行设置操作;并受到护栏和其他审查措施的约束，以防止幻觉。

在运行时，此设计可能会导致以下模式：

规划代理评估应用程序相对于 Runbook 的当前状态（即，它当前位于 DAG 中的哪个节点），并检查该节点提供的所有操作链;
代理选择并执行最佳链。每个链可能包括定义为代码的预先编写的操作，甚至可以执行特定任务的其他代理包括传统的 RAG;
在采取任何措施之前，系统会应用审核和护栏以确保一致性和一致性;
规划代理评估相对于规则手册的新状态，并重复该过程 – 从 DAG 中的新节点选择最佳链再次执行。

请注意，此体系结构为以前的设计引入了另一个复杂顺序，这可能由其他数据基础结构（包括用于持久执行的数据基础结构）提供支持;情景记忆、工作记忆和长期记忆的状态和记忆管理;多代理编排;和护栏。

领先的代理公司似乎正在将这种架构作为自主和控制之间的快乐媒介。新兴的 AI 代理示例包括客户服务 + 支持领域的 Sierra、Decagon、Maven AGI、DevRev 和 Gradient Labs;软件开发中的 Factory AI 和 All Hands AI*;Sema4 在财务后台;以及销售、安全运营和供应链等领域的许多其他领域。

通用AI智能体

代理设计的最后一个、仍然无法实现的圣杯是通用 AI 代理——一种 for 循环架构，其中 LLM 的高级功能包含了以前设计的结构化“轨道”。这个假设的代理将具有动态推理、规划和自定义代码生成能力，使其能够在外部系统中执行任何操作，而不仅仅是预定义的系统。

自 2023 年春季 BabyAGI 和 AutoGPT 出现以来，朝着这一理想的研究进展激增。目前，最复杂的设计是语言代理树搜索（LATS），它将蒙特卡洛树搜索（AlphaGo 背后基于模型的强化学习技术）适应语言代理。LATS 允许代理探索实现目标功能的多个轨迹，优先考虑高回报路径，纳入反馈，并在必要时回溯。

这些前沿架构的开创性商业应用包括 Reflection AI 等新基础模型，以及 Cognition、Nustom 和 OpenDevin/All Hands AI 等编码代理。

下一步

生成式 AI 正在进入其代理时代。我们今天看到的代理架构和早期示例只是更广泛转型的开始，这场转型有望重新定义人机动态，对企业应用程序和基础设施都有影响。在接下来的文章中，我们将进一步探讨这些主题。

参考文献

阅读原文

AI Agent智能体: 企业知识自动化的新架构 – MenloVC