收录于话题
Magentic-One 的代理架构
-
WebSurfer是一个基于LLM的代理,擅长理解和执行与Chromium浏览器相关的命令,并将网页状态变化反馈给Orchestrator,类似于电话技术支持中的操作员。
-
WebSurfer能够执行网页导航、操作和阅读任务,通过直接使用文档Q&A技术,减少了与Orchestrator的通信次数,提高了任务效率。
-
WebSurfer在与网页元素交互时,使用标记集提示和带注释的屏幕截图来确定操作的具体位置,实现了多模式操作。
-
FileSurfer与WebSurfer类似,但它操作的是自定义的文件预览应用程序,支持多种文件类型,并能执行文件导航任务。
-
Coder是一个专注于编写代码和分析信息的LLM代理,能够创建新程序或调试旧程序,并显示控制台输出。
-
ComputerTerminal提供了对控制台shell的访问,允许执行Coder编写的程序和运行shell命令,以扩展编程工具集。
Magentic-One 的多代理工作流程
外循环
外部循环由初始提示或任务触发。作为响应,Orchestrator 会创建任务账本,作为任务持续时间的短期内存。
收到任务后,Orchestrator 会反映请求,并在任务分类账中预先填充重要信息 – 给定或验证的事实、要查找的事实(例如,通过 Web 搜索)、要派生的事实(例如,以编程方式或通过推理)以及有根据的猜测。
内循环。
在内部循环的每次迭代期间,Orchestrator 会回答 5 个问题以创建进度账本:
请求是否完全满足(即任务完成)?报告前一个元素的问题
团队是循环还是重复?报告前一个元素的问题
是否取得了进展?报告前一个元素的问题
接下来应该由哪个座席发言?报告前一个元素的问题
应该向该团队成员提出什么指示或问题?报告前一个元素的问题
项目官网:magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks
GitHub仓库:https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one
技术论文:https://www.microsoft.com/en-us/research/publication/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
知识星球沉淀了很多AI的掘金素材集,欢迎加入!
如果觉得不错,欢迎点赞、在看、转发,您的转发和支持是我不懈创作的动力~
如果想第一时间收到推送,可以给我个星标?~
谢谢你挤出时间看我的文章推送,一眼万年,不胜感激。