Cell | 赋能生物医学探索的AI智能体“科学家” – 哈佛医学院等

Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

摘要

这篇论文探讨了如何通过人工智能(AI)智能体来增强生物医学发现,特别是通过结合AI模型和生物医学工具来赋能协作智能体。

我们将“AI 科学家”设想为能够进行怀疑学习和推理的系统,通过将 AI 模型和生物医学工具与实验平台集成的协作智能体来增强生物医学研究的能力。生物医学AI智能体不是将人类从发现过程中抽离出来,而是将人类的创造力和专业知识与 AI分析大型数据集、导航假设空间和执行重复性任务的能力相结合。AI智能体已准备好精通各种任务,规划发现工作流程并执行自我评估,以识别和缩小其知识差距。这些智能体使用大型语言模型和生成模型来具有结构内存以实现持续学习,并使用机器学习工具来整合科学知识、生物学原理和理论。AI智能体可以影响从虚拟细胞模拟、表型的可编程控制、细胞回路设计到开发新疗法等领域。

Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

Empowering biomedical discovery with AI agents: Cell

https://www.cell.com/cell/fulltext/S0092-8674(24)01070-5

Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

核心速览

研究背景

  1. 研究问题:这篇文章探讨了如何通过人工智能(AI)代理来增强生物医学研究,使其能够进行怀疑性学习和推理,从而加速科学发现。

  2. 研究难点:该问题的研究难点包括:生物学的复杂性要求将复杂问题分解为可操作的任务;AI代理需要在没有人类干预的情况下进行自我评估和知识补充;现有的基础模型如大型语言模型(LLMs)在生成新假设方面存在局限性。

  3. 相关工作:相关工作包括基于LLMs的代理系统、多模态学习、生成模型的发展,以及这些技术在生物医学研究中的应用。

    Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

研究方法

这篇论文提出了通过AI智能体来增强生物医学研究的框架,具体来说,

  1. AI智能体的定义:AI智能体被定义为能够制定生物医学假设、批判性评估它们、表征其不确定性,并以此作为获取和精炼科学知识库的驱动力的系统。

    Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

  2. 多模态感知模块:AI智能体需要整合来自不同数据模态的信息,包括文本描述、图像、视频、生物传感器读数和基因组谱等。这些信息通过多模态感知模块进行处理,使代理能够理解和适应环境变化。

    Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

  3. 对话模块:AI代理使用自然语言处理技术进行对话,以便与科学家和其他代理进行交互。对话模块支持保持对话历史记录,促进个性化发现工作流程。

    Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

  4. 多模态感知模块:代理将LLMs与其他数据类型对齐,融合数据模态以更好地建模环境变化。这包括文本翻译和表示对齐两种策略。

  5. 交互模块:代理需要具备与人类和其他代理交互的能力,包括使用API调用工具、多代理交互和工具使用动作。

  6. 记忆和学习模块:代理需要存储和检索知识,包括短期记忆和长期记忆模块。短期记忆用于临时存储信息,而长期记忆则用于存储持久的知识。

  7. 推理模块:代理需要具备规划和决策能力,包括直接推理和带反馈的推理。直接推理模块根据当前环境状态进行规划和推理,而带反馈的推理模块则利用实验或人类反馈来改进推理过程。

实验设计

论文中没有详细描述具体的实验设计,但提到了一些应用场景,如虚拟细胞模拟、表型可编程控制和细胞电路设计等。这些应用场景展示了AI代理在不同生物学任务中的应用潜力。

结果与分析

  1. 虚拟细胞模拟:AI代理可以通过预测基因修饰或药物治疗对细胞行为的影响,帮助理解细胞机制并生成可测试的假设。

  2. 表型可编程控制:AI代理可以设计精确的基因修饰来研究基因功能,例如通过CRISPR基因编辑技术激活或抑制特定基因。

  3. 细胞电路设计:AI代理可以预测遗传组分的行为并优化它们的排列,以创建执行任务的细胞电路。

总体结论

这篇论文提出了一种通过AI代理来增强生物医学研究的框架,展示了AI代理在不同生物学任务中的应用潜力。尽管现有的基础模型在生成新假设方面存在局限性,但通过结合人类创造力、专业知识以及AI的分析能力,AI代理有望在未来实现重大科学发现。论文强调了负责任地实施这些技术的重要性,以确保其安全性和有效性。

论文评价

优点与创新

  1. 全面的视角:论文提出了将人工智能(AI)科学家视为能够进行怀疑性学习和推理的系统,这些系统通过集成AI模型和生物医学工具与实验平台来增强生物医学研究。

  2. 多模态学习:强调了多模态学习的重要性,特别是大型语言模型(LLMs)、生成模型和机器学习工具的融合,以实现结构化的记忆和持续学习。

  3. 多样化的应用场景:AI代理可以应用于从虚拟细胞模拟、表型可编程控制到细胞电路设计和新疗法开发等多个领域。

  4. 协作与自我评估:AI代理不仅能够规划发现工作流程,还能进行自我评估,识别并弥补知识上的差距。

  5. 伦理和安全考虑:详细讨论了AI代理在生物医学研究中的伦理和安全问题,并提出了相应的防范措施。

  6. 多层次的自主性:提出了AI代理在不同层次上的自主性,从辅助角色到完全自主的科学研究者。

不足与反思

  1. 鲁棒性和可靠性:AI代理系统可能会生成不可靠的预测,包括非事实信息的幻觉、推理错误、系统性偏差和规划失败等问题。

  2. 评估协议:现有的评估框架可能无法全面评估AI代理的性能,特别是在处理动态生物系统和多模态输入方面。

  3. 数据集生成:需要大规模、开放且高质量的数据集来支持AI模型的开发和应用,但目前这些数据集的获取和处理仍存在挑战。

  4. 治理:建立全面的治理框架以平衡创新和问责制是一个挑战,特别是在国际层面上达成共识。

  5. 风险和防护措施:需要确保AI代理的安全部署,防止恶意意图和意外危害,特别是在自动化实验中。

关键问题及回答

问题1:AI代理在生物医学研究中如何实现多模态感知和信息整合?

AI代理通过多模态感知模块整合多种数据类型,包括文本描述、图像、视频、生物传感器读数和基因组谱等。具体来说,AI代理使用文本翻译和表示对齐两种策略来融合数据模态。文本翻译策略将输入数据转换为文本格式,例如将实验设备的读数与文本描述结合,使LLM能够理解这些读数作为新的数据模态。表示对齐策略则通过特定模型的编码器将不同模态的数据转换为统一的表示,然后与LLM的文本表示进行对齐。例如,使用视觉编码器对蛋白质结构数据进行编码,并将其与LLM的文本表示进行对齐,从而使LLM能够处理和解释多模态数据。

问题2:AI代理在虚拟细胞模拟中的应用有哪些具体优势?

  1. 加速实验设计:AI代理能够在虚拟细胞模型中预测基因修饰或药物治疗对细胞行为的影响,从而减少传统实验所需的时间和成本。

  2. 提高实验精度:通过模拟不同条件下的细胞行为,AI代理可以帮助研究人员更准确地设计和优化实验方案。

  3. 风险降低:在虚拟环境中进行模拟实验可以减少实际实验中的风险和不确定性。

  4. 数据驱动的决策:AI代理可以整合和分析大量的多模态数据,提供数据驱动的决策支持,帮助研究人员做出更科学的假设和实验设计。

问题3:AI代理在表型可编程控制中的具体应用和挑战是什么?

  1. 应用:AI代理可以通过精确的基因编辑设计来研究基因功能。例如,使用CRISPR-based基因编辑技术,AI代理可以自动化地识别和编辑特定的基因,从而研究这些基因在细胞或生物体中的功能。

  2. 挑战

AI智能体在生物医学研究中面临的挑战包括:

Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

1. **鲁棒性和可靠性**:
– AI智能体可能会生成不可靠的预测,包括虚构的非事实信息、推理错误、系统性偏见以及在连接到工具和实验平台时的规划失败。
– 这些问题可能由于对查询精确表述的高度敏感性而加剧,特别是在基于大型语言模型(LLM)的智能体中。
2. **评估协议**:
– 需要框架来评估AI智能体的性能,超越简单的任务,考虑伦理、合规性以及对发现工作流程的实际影响。
– 现有的评估框架要么是整体评估,要么是针对弱点的基准测试,如任务框架、长时间依赖性、无效格式或不遵循指令等。
– 生物系统本质上是动态的,具有非平稳分布,这给训练在静态数据集上的智能体带来了挑战。
3. **数据集生成**:
– 需要大规模、开放的数据集,这些数据集既全面又易于访问,以支持跨生物应用的模型开发。
– 噪声数据、多模态数据和数据质量问题对模型提取有意义模式和洞察力构成挑战。
4. **治理**:
– 建立平衡创新与问责的综合性治理框架是一个挑战。
– 随着AI智能体获得更多自主权,确保负责任的发展、部署和商业化的强大指导方针变得至关重要。
5. **风险和安全措施**:
– 自主实验如果没有仔细规划、广泛咨询、胜任执行和持续调整,可能会造成长期危害。
– 需要预防措施来应对AI智能体的潜在误用和科学家过度依赖的风险。
6. **伦理考虑**:
– 处理敏感的生物医学数据和医学数据需要强大的技术和监管措施来确保安全和保密。
– 需要解决算法公平性问题,以避免加剧患者之间的健康差异和不平等。
这些挑战需要通过多学科合作、跨党派、非营利和公共机构的广泛共识来解决,以确保AI智能体在生物医学研究中的负责任和有效应用。

问题4:AI智能体的级别有哪些?

Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等

根据文档,AI智能体分为四个级别,分别是:
1. **Level 0: No AI agents**
– 没有AI智能体,使用ML模型作为工具,由交互式和基础学习模型协调。
– 科学家定义假设和任务,并完成任务。
2. **Level 1: AI agents as assistants**
– AI智能体制定简单且狭窄的假设,这些假设是现有知识、初步数据或观察的直接组合。
– 狭窄设计实验协议并利用计算工具和实验平台。
– 科学家定义假设,定义测试假设的任务序列,AI智能体完成任务。
3. **Level 2: AI agents as collaborators**
– AI智能体生成基于数据趋势和已知文献的假设。
– 设计严格的实验协议并熟练使用广泛的计算工具;一旦收集到数据,使用统计和计算方法分析结果并解释数据以确定其是否支持或反驳假设。
– 科学家提出初始假设并与AI智能体一起完善假设;AI智能体定义测试假设的任务序列,AI智能体完成任务。
4. **Level 3: AI agents as scientists**
– AI智能体生成创造性的、从头开始的假设,这些假设是从现有知识中间接推断出来的。
– 开发实验方法以解锁新能力;通过实验或模拟使用各种技术和工具主动收集数据以测量和记录生物现象。
– 基于结果和解释,完善实验方法以实现持续学习和适应,以提高理解准确性和深度;在发现之间找到简洁、信息丰富且清晰的概念联系。
– 科学家和AI智能体共同形成假设;AI智能体定义测试假设的任务序列,AI智能体完成任务。
这些级别反映了AI智能体在假设生成、实验设计和执行以及推理方面的自主性逐步增加。

思维导图

  Cell | 赋能生物医学探索的AI智能体“科学家” - 哈佛医学院等参考文献:

  1. 生物医学探索:利用LLM框架进行生物医学发现的知识融合与科学推理

  2. MedGraphRAG最新版:探索医学大模型领域的未来新革命 – 牛津&CMU

  3. MEDCO:一种颠覆医学教育的多智能体Copilot

  4. MDAgents:一个用于医疗决策的自适应大模型多智能体 – MIT&Google等

  5. 通过“AI科学家”智能体赋能生物医学科学发现 – 哈佛医学院等

  6. 斯坦福&哈佛医学院 – MMedAgent,一个用于医疗领域的多模态医疗AI智能体

  7. 喜讯|柯基数据中标两个“大模型+医学”国自然面上项目
  8. 哈佛医学院&辉瑞推出基于知识图谱的复杂医学问答智能体MedAI

  9. 通过知识图谱自动生成和丰富加速医学知识发现 – 哈佛大学等

  10. 医疗保健和医学领域的大模型综述 – 斯坦福&加州大学
  11. 医学GraphRAG:通过知识图谱检索增强实现安全医疗大语言模型 – 牛津大学最新论文
  12. 消除幻觉的知识图谱增强医学大模型 – "Nature"NPJ数字医学杂志
  13. Almanac: 一种用于临床医学的检索增强RAG大语言模型(2023vs2024版)
  14. “大模型+知识图谱”双轮驱动的医药数智化转型新范式-OpenKG TOC专家谈

  15. 医学AI专家Anthropic CEO万字长文预测人工智能将消除癌症、人类寿命翻倍,世界变得更美好

  16. 医疗保健和医学领域的大模型综述 – 斯坦福&加州大学

  17. OpenAI o1模型的医学初步研究:我们离人工智能医生更近了吗?

  18. 哈佛医学院将生成式人工智能纳入课程和临床实践,以培训下一代医生

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注