摘要
人工智能智能体与传统的机器人流程自动化(RPA)机器人相比,正在彻底改变企业自动化。它们作为决策引擎,可以处理复杂的多步骤流程,适应新情况并做出智能决策,这标志着超越基于规则的自动化的显著进展。
关键要点:
* 人工智能智能体的出现是对机器人流程自动化(RPA)的重要提升,能够实现端到端的流程自动化。
* 与RPA不同,人工智能智能体能够处理非结构化数据,适应变化的条件,并进行复杂推理。
* 人工智能智能体市场正在演变,解决方案从高度专业化的垂直代理到更具通用性的水平平台不等。
* 企业智能体具有广泛适用性,但通常需要先定义的操作和边界条件(“轨道上的代理”)。
* 浏览器智能体提供了更高的通用性,但在一致性和可靠性方面面临挑战。
* 垂直智能体在自动化手动的、程序驱动的流程方面表现出色,这些流程通常外包给业务流程外包(BPO)公司。
* 虽然生成式人工智能解决方案本身并非智能体,但在语义搜索和数据转换等领域提供了竞争力的能力。
来源:
https://menlovc.com/perspective/beyond-bots-how-ai-agents-are-driving-the-next-wave-of-enterprise-automation/
正文
经济中的每一项工作都可以被视为一组任务,由人类和机器共享。多年来,软件承担了越来越多的此类任务,但即使在今天,人类仍然拥有绝大多数业务流程。在每个功能中,员工成本都使软件支出相形见绌。
AI 代理承诺果断地改变这种工作平衡。与主要处理可以自动执行的低级顺序任务的前几代软件不同,新的认知架构使代理能够动态地自动化端到端流程。这不仅仅是可以读取和写入的 AI,而且是可以决定应用程序逻辑流并代表您执行操作的 AI。
它们代表了当今企业中 LLM 的最大机会。在另一篇文章中,我们介绍了这些新的 “代理” 是什么以及使它们成为可能的设计模式。在这里,我们将探讨如何在企业中应用它们,以开创企业自动化的新时代。
RPA Redux?
If it feels like we’ve heard this story before, it’s because, for the past decade, companies like UiPath and Zapier were selling rhyming visions under the banner of “bot automation.”
如果感觉我们以前听说过这个故事,那是因为在过去十年中,像 UiPath 和 Zapier 这样的公司一直在打着“机器人自动化”的旗帜销售押韵的愿景。
UiPath 是第一个。这家机器人流程自动化 (RPA) 巨头的核心业务是屏幕抓取和 GUI 自动化,使“机器人”能够记录用户正在做什么,然后模仿顺序步骤来自动化流程,例如从文档中提取信息、移动文件夹、填写表格和更新数据库。
后来,像 Zapier 这样的 iPaaS 提供商出现了一种更轻量级的“API 自动化”方法,用于生产力用例。该平台使用预先构建的 API 集成和 Webhook 来提供更稳定的自动化,尽管该方法将公司的范围限制在 Web 应用程序自动化上,而 UiPath 能够跨不同软件(包括那些可能不支持 API 的软件)自动执行流程。
UiPath 和 Zapier 证明了可组合、基于规则的水平自动化平台市场,以解决部门或行业特定软件系统内部和之间存在的企业流程长尾问题。但是,随着企业扩展其基于机器人的自动化,这些传统架构的功能与其承诺的自主性之间的差距开始显现,尤其是在以下方面:
-
(仍然)有很多人力和体力劳动。尽管所有关于机器人和自动化的讨论,但建立和维护自动化的过程仍然是痛苦的手动过程。事实上,UiPath 每赚一美元,就有 7 美元流向安永等实施和咨询合作伙伴,这会导致漫长、昂贵的部署和维护周期。
-
脆弱的 UI 自动化或有限的 API 集成。当软件 UI 发生变化时,UI 自动化通常会中断,而 API 更稳定,但提供的集成要少得多,尤其是与旧版或本地软件的集成。
-
无法处理非结构化数据。非结构化和半结构化数据占企业数据的 80%,但基于序列的自动化无法智能地处理几乎所有这些数据。Hyperscience 和 Ocrolus 等智能文档处理 (IDP) 解决方案试图在这方面取得进展,但即使对于简单的“提取和转换”文档处理用例,也难以处理边缘情况和异常处理。
此外,传统的 RPA 和 iPaaS 解决方案继续被束缚在其确定性架构中,即使它们试图整合 LLM 也是如此。如今,UiPath 的 AI 解决方案 Autopilot 和 Zapier 的 AI Actions 都只为子代理设计模式提供 LLM,例如 (1) 文本到操作,或 (2) 用于语义搜索、合成或一次性生成的节点。
这些 AI 功能当然可以很强大。它们支持业务功能,而不是 IT 部门对自动化规则手册的所有权,允许通过视觉转换器(而不是 OCR)进行更强大的对象检测和识别,并且通过 RAG 提供强大的数据提取和转换。但他们仍然错过了流程自动化中 LLM 更具变革性的用例,我们接下来将探讨这些用例。
AI 代理作为决策引擎
代理从根本上不同。它们作为决策引擎位于应用程序控制流的中心,与当今 RPA 机器人的硬编码逻辑形成鲜明对比,甚至与定义生成式 AI 革命第一波的 RAG 应用程序形成鲜明对比。它们首次实现了适应性、多步骤操作、复杂推理和强大的异常处理。
让我们在发票对帐示例中说明其含义。以下是将新发票 PDF 与公司总账匹配的简化流程图(类似于实施工程师必须为 RPA 进行可视化建模的流程图):

显然,工作流的复杂性很快就会变得笨拙,几乎不可能考虑所有相关的边缘情况和异常,即使在前三个决策集中也是如此。通常情况下,负责自动执行此工作流程的 RPA 机器人会出错,并将部分匹配或缺失的行项目上报给人工,这也许可以解释为什么当今大多数企业仍然每月配备数百名员工来完成这项任务,而不是自动化高度手动的流程。
但是,当应用于相同的工作流程时,代理的性能要高得多,并且能够:
-
适应新情况。代理可以根据基本推理和相关业务环境智能地识别和适应新的数据源、发票格式、命名约定、账号,甚至政策变化,所有这些都无需重新编程或明确指定 SOP。
-
启用多步骤操作。如果发票金额不匹配,代理可以执行多步骤调查,包括扫描供应商最近的电子邮件,以获取有关可能的价格变化的通知。
-
展示复杂的推理。假设一家公司需要将来自国际供应商的发票与其分类账进行核对。此流程涉及多个考虑因素,包括发票货币、分类账货币、交易日期、汇率波动、跨境费用和银行费用,所有这些因素都必须一起检索和计算才能核对付款。代理能够提供这种类型的情报,而 RPA 代理可能只是将案件上报给人类。
-
考虑不确定性。代理根据上下文线索(如匹配总订单值和历史发票时间和频率)对单个行项目的异常情况(如舍入错误或不可读的数字)具有很强的抵抗力。
?????AI 代理市场格局?????
特工也不仅仅是科幻小说。尽管该类别仍在兴起,但从初创公司到财富 500 强公司,企业已经在大规模购买和利用这些系统。
当前的代理态势可以使用两个关键维度进行可视化:
-
领域特异性 :这包括从用于垂直领域(如医疗保健)或部门(如客户支持)的高度专业化代理到具有广泛、通用功能的水平代理平台。
-
LLM autonomy :这表示语言模型可以独立规划和指导应用程序逻辑的程度。
这两个因素构成了我们工作 AI 代理市场地图的轴线,如下所示。

在市场地图的右上角,最横向和最通用的代理包括:
-
企业代理。可扩展的座席平台使企业能够通过自然语言 SOP 或规则手册(例如您提供给新员工的规则手册)跨多个职能和工作流程构建和管理座席。这些平台特别吸引寻求广泛适用的代理功能的集中式 IT 买家,而不是为每个业务部门提供单独的单点解决方案。例如,Sema4 的发票对账代理的核心处理功能可以应用于财务、采购和运营中的各种数据验证任务。
话虽如此,大多数企业代理都使用“代理在轨”架构,这要求代理基于一组特定于工作流的预定义操作、业务上下文和每个新流程的护栏。尽管其中一些数据基础设施可以在工作流之间共享,但这些平台的水平性质更多地来自堆叠用例,而不是类似人类的泛化能力。因此,该领域的一些参与者已经开始转向特定领域,以获得更大的产品和 GTM 杠杆(例如,Brevian 负责客户支持和安全,Ema 负责销售和支持)。
-
浏览器代理。MultiOn、Induced 和 Twin 等 Web 代理代表了另一种类型的水平、可通用代理。大多数遵循“通用 AI 代理”设计,利用在各种软件界面及其底层代码库上训练的视觉转换器。这允许代理“理解”Web 组件、它们的功能和交互,以便自动化 Web 浏览、可视化 UI 操作和文本输入。
然而,虽然这些代理在普遍性上获得了收益,但它们往往在一致性上做出了牺牲。目前,大多数公司都以更简单的生产力或电子商务使用案例为目标,因为他们致力于实现企业级性能。如果没有具有适当数据基架和护栏的更受限的问题空间的好处,更可靠的浏览器代理必须克服关键挑战,包括管理复杂的操作和观察空间、跨多个页面维护上下文以及解释不同的 Web 界面。
-
支持 AI 的服务。目前,企业对代理功能的需求超过了客户将自己的代理产品化的能力,尤其是在需要广泛的数据基础设施和护栏才能使“代理在轨道上”设计在实践中发挥作用时。这就是 Distyl 和 Agnetic 等公司的用武之地,它们在“Palantir for AI”模型中提供前瞻性部署的工程服务,以缩小差距。与 Palantir 的 Foundry 一样,这些公司可以在客户之间重用模块化系统基础设施,以随着时间的推移重新平衡平台与服务的比率。
但并非所有代理都旨在既横向又可推广。我们越来越多地看到特定于域和工作流的代理出现,它们可以通过限制它们试图解决的问题类型来提高可靠性:
-
垂直代理。垂直代理最有前途的机会存在于目前由人类按照 SOP 或规则手册处理的手动、程序驱动的流程中。许多企业已经将这些功能外包给业务流程外包 (BPO) 公司或承包商。这些任务通常对于基于规则的自动化来说过于复杂,但又不足以证明内部知识工作者的合理性或差异化。主要类别包括客户支持;招聘;某些软件开发任务,如代码审查、测试和维护;冷销出境;和安全运营。
-
AI 助手。缩小代理关注范围的另一种方法是通过任务特异性,而不是域特异性。AI 助手执行更简单、更注重生产力的任务,而企业和垂直代理承担的更复杂的端到端流程。常见原语包括少数步骤 Web 研究、知识提取、摘要和非结构化数据转换,用于临时任务,例如聊天 PDF 或从 Gong 成绩单中提取功能请求。
最后,值得注意的是,生成式 AI 解决方案有广泛的类别,虽然它们本身不是代理,但与基于代理的解决方案竞争相同的预算,有时甚至是相同的工作流程。这些解决方案主要围绕 RAG 架构构建,不存在于应用程序控制流中,因此无法更充分地复制代理的类似人类的推理。但是,它们的功能仍然支持重要的服务自动化,同时为企业提供控制:
-
垂直 AI。语义搜索和非结构化数据转换是垂直工作流中强大的基元。例如,医疗保健 AI 自动化平台 Tennr 从传真、PDF、电话和其他杂乱的来源中提取非结构化数据,并将其输入到诊所的 EHR 中,以疏通转诊处理,无需员工手动输入数据。另一个例子是,工业 AI 利用类似的方法为制造商自动化报价工作流程。
-
RAG 即服务。像 Danswer 和 Gradient 这样的 RAG-as-a-Service 公司相当于垂直语义搜索和非结构化数据转换公司的水平版本,使客户能够查询 PDF 等非结构化数据源、提取数据并将结果输入到结构化程度更高的数据库或记录系统中。
-
企业级搜索。Glean、Perplexity 和 Sana* 提供语义查询用于另一个目的 — 索引和检索概念相关的文档,以便更好地管理组织范围内的知识并打破企业数据孤岛。
企业自动化的未来
生成式 AI 的第二波浪潮将由可以代表您思考和行动的代理定义,而不仅仅是阅读和写入。随着这些架构的成熟,它们将成为 AI 接管服务经济的强大催化剂