苹果工程师最近的研究揭示了先进的大型语言模型(LLMs)在推理能力方面的脆弱性

苹果工程师最近的研究揭示了先进的大型语言模型(LLMs)在推理能力方面的脆弱性。该研究表明,这些模型在面对基准问题的微小变更时,往往难以处理基本的数学推理,突显出其设计上的重大局限性。

苹果工程师最近的研究揭示了先进的大型语言模型(LLMs)在推理能力方面的脆弱性

关键要点

  • 苹果工程师对大型语言模型的推理能力进行了研究。
  • 研究表明,LLMs在对基准问题进行微小修改时表现出脆弱的推理能力。
  • 结果显示准确率显著下降,表明这些模型依赖于模式匹配而非真正的理解。

研究方法

这项名为“GSM-Symbolic:理解大型语言模型中数学推理的局限性”的研究,由六名苹果工程师进行,他们对一个著名的基准集GSM8K进行了修改,该基准集包含超过8000个小学水平的数学问题。研究团队通过替换问题中的姓名和数字,创建了一个新的评估集GSM-Symbolic。这个方法旨在防止静态问题带来的数据污染,同时保持问题的内在难度。预期是LLMs在两个基准上的表现应相似,但结果却令人意外。

发现与结果

在对GSM-Symbolic集进行测试时,超过20个最先进的LLMs显示出与它们在GSM8K表现相比,平均准确率下降了0.3%到9.2%。尤其值得注意的是,同一模型的不同运行之间准确率差异显著,常见的差异可达到15%。

  • 性能变异性:模型表现出高变异性,表明输入的微小变化可能导致截然不同的结果。
  • 无关信息的影响:当研究人员在问题中引入无关细节时,模型的准确率出现灾难性下降,范围在17.5%到65.7%之间。

研究的影响

这些发现表明,LLMs并不进行形式化推理,而是依赖于概率模式匹配。这意味着,当面临意外输入时,这些模型难以适应,导致错误的发生,这在传统计算方法中是不会出现的。该研究强化了之前的研究结果,表明LLMs缺乏对其处理概念的真正理解。相反,它们是基于训练数据中观察到的模式来模仿推理。

理解的幻觉

GSM-Symbolic研究的结果突显了AI开发中的一个关键问题:理解的幻觉。尽管像OpenAI的GPT-4这样的模型似乎能够有效推理,但它们的成功在很大程度上是由于其广泛的训练数据,而非真正的理解。专家们认为,AI的下一个重大进步将需要整合真正的符号操作,使模型能够以类似于传统编程的方式抽象地表示知识。在这些进展实现之前,当前一代的LLMs将继续表现出脆弱的推理能力。

结论

苹果的研究提醒我们当前AI技术固有的局限性。随着行业对更先进推理能力的追求,理解这些局限性将对未来开发更可靠和有效的AI系统至关重要。

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注