一种更快速、更有效的通用机器人训练方法

受到大型语言模型的启发,研究人员开发了一种训练技术,通过汇集多样化的数据来教机器人新技能。

一种更快速、更有效的通用机器人训练方法

在经典卡通《杰森一家》中,机械女仆罗西可以自如地从吸尘、做饭到倒垃圾。但在现实生活中,训练通用机器人仍然是一项重大挑战。

通常,工程师收集特定于某个机器人和任务的数据,用于在受控环境中训练机器人。然而,收集这些数据既昂贵又耗时,而且机器人可能难以适应之前未见过的环境或任务。

为了训练更好的通用机器人,麻省理工学院的研究人员开发了一种多功能技术,将来自众多来源的大量异构数据结合到一个系统中,从而教会任何机器人广泛的任务。

他们的方法涉及将来自不同领域(如模拟和真实机器人)以及多种模态(包括视觉传感器和机器人手臂位置编码器)的数据对齐成一种共享的“语言”,以便生成AI模型进行处理。

通过结合如此庞大的数据量,这种方法可以训练机器人执行多种任务,而无需每次从头开始训练。

这种方法可能比传统技术更快且成本更低,因为它需要的任务特定数据要少得多。此外,在模拟和现实世界实验中,其性能比从头开始训练提高了20%以上。

“在机器人领域,人们常常声称我们没有足够的训练数据。但在我看来,另一个大问题是数据来自如此多的不同领域、模态和机器人硬件。我们的工作展示了如何将所有这些数据结合起来训练机器人,”电气工程与计算机科学(EECS)研究生及该技术论文的主要作者王立瑞表示。

王的合著者包括EECS研究生赵佳良;Meta的研究科学家陈欣蕾;以及EECS副教授、计算机科学与人工智能实验室(CSAIL)成员何恺明。该研究将在神经信息处理系统大会上发布。

受到大型语言模型的启发

机器人“策略”接收传感器观察数据,如相机图像或跟踪机器人手臂速度和位置的本体感受测量,然后告诉机器人如何以及在哪里移动。

策略通常采用模仿学习进行训练,这意味着人类示范动作或遥控机器人以生成数据,这些数据随后被输入到学习策略的AI模型中。由于该方法使用的任务特定数据量较小,机器人在环境或任务发生变化时往往会失败。

为了开发更好的方法,王和他的合作者从大型语言模型(如GPT-4)中获得了灵感。

这些模型使用大量多样的语言数据进行预训练,然后通过输入少量任务特定数据进行微调。如此大量的数据预训练有助于模型适应并在多种任务中表现良好。

“在语言领域,数据都是句子。在机器人领域,考虑到数据的异质性,如果要以类似方式进行预训练,我们需要不同的架构,”他说。

机器人数据有多种形式,从相机图像到语言指令再到深度图。同时,每个机器人在机械上都是独特的,具有不同数量和方向的手臂、夹具和传感器。此外,数据收集的环境差异也很大。

麻省理工学院的研究人员开发了一种新的架构,称为异构预训练变换器(HPT),将来自这些不同模态和领域的数据统一起来。

他们在架构中间放置了一个称为变换器的机器学习模型,它处理视觉和本体感受输入。变换器是大型语言模型的基础模型。

研究人员将视觉和本体感受数据对齐为同一类型的输入,称为令牌,变换器可以处理。每个输入都用相同数量的令牌表示。

然后,变换器将所有输入映射到一个共享空间,随着处理和学习更多数据,变得越来越大,成为一个庞大的预训练模型。变换器越大,性能越好。

用户只需向HPT提供少量关于机器人设计、设置和希望执行的任务的数据。然后,HPT将变换器在预训练期间获得的知识转移到学习新任务中。

实现灵巧动作

开发HPT的最大挑战之一是构建用于预训练变换器的大型数据集,其中包括52个数据集,涵盖超过200,000条机器人轨迹,分为人类演示视频和模拟等四类。

研究人员还需要开发一种高效的方法,将来自一系列传感器的原始本体感受信号转换为变换器能够处理的数据。

“本体感受对于实现许多灵巧动作至关重要。由于我们架构中的令牌数量始终相同,因此我们对本体感受和视觉赋予同等重要性,”王解释道。

当他们测试HPT时,与每次从头开始训练相比,它在模拟和现实任务中的机器人性能提高了20%以上。即使任务与预训练数据非常不同,HPT仍然提高了性能。

“这篇论文提供了一种新颖的方法,可以在多个机器人实现中训练单一策略。这使得可以在多样化的数据集上进行训练,从而显著扩大机器人学习方法可以训练的数据集规模。它还允许模型快速适应新的机器人实现,这在新机器人设计不断涌现的情况下尤为重要,”卡内基梅隆大学机器人研究所的副教授大卫·赫尔德(David Held)表示,他并未参与这项工作。

未来,研究人员希望研究数据多样性如何提升HPT的性能。他们还希望增强HPT,使其能够像GPT-4和其他大型语言模型一样处理未标记的数据。

“我们的梦想是拥有一个通用的机器人大脑,您可以下载并用于您的机器人,而无需任何训练。虽然我们还处于早期阶段,但我们将继续努力,希望扩展能带来机器人策略的突破,就像大型语言模型一样,”他说。

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注