一种新方法可以训练神经网络对损坏的数据进行排序,同时预测下一步。它可以为机器人制定灵活的计划,生成高质量的视频,并帮助人工智能代理在数字环境中导航。
在当前的人工智能潮流中,序列模型因其分析数据和预测下一步行动的能力而迅速流行。例如,您可能使用过像ChatGPT这样的下一标记预测模型,它们预测序列中的每个单词(标记),以形成对用户查询的回答。还有像Sora这样的完整序列扩散模型,通过逐步“去噪”整个视频序列,将单词转化为令人惊叹的真实视觉效果。
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种简单的改进扩散训练方案,使得这种序列去噪变得更加灵活。
当应用于计算机视觉和机器人等领域时,下一标记模型和完整序列扩散模型之间存在能力权衡。下一标记模型可以生成长度变化的序列。然而,它们在生成序列时并不了解远期的理想状态——例如将序列生成引导到距离目标10个标记的特定目标——因此需要额外的机制来进行长期规划。扩散模型可以执行这种未来条件的采样,但缺乏下一标记模型生成可变长度序列的能力。
CSAIL的研究人员希望结合这两种模型的优势,因此他们创建了一种名为“扩散强制”的序列模型训练技术。这个名字来源于“教师强制”,即将完整序列生成分解为下一标记生成的较小、较简单步骤的传统训练方案(就像好老师简化复杂概念一样)。
扩散强制在扩散模型和教师强制之间找到共同点:它们都使用涉及从未屏蔽标记预测被屏蔽(噪声)标记的训练方案。在扩散模型的情况下,它们逐渐向数据中添加噪声,这可以视为分数掩蔽。麻省理工研究人员的扩散强制方法训练神经网络清理一组标记,同时预测接下来的几个标记,去除每个标记中的不同数量的噪声。结果是一个灵活、可靠的序列模型,生成了更高质量的人工视频,并为机器人和人工智能代理提供了更精确的决策。
通过梳理噪声数据并可靠地预测任务中的下一步,扩散强制可以帮助机器人忽略视觉干扰以完成操作任务。它还可以生成稳定且一致的视频序列,甚至引导人工智能代理穿越数字迷宫。这种方法有可能使家用和工厂机器人能够推广到新任务,改善人工智能生成的娱乐内容。
“序列模型旨在基于已知的过去进行条件处理,并预测未知的未来,这是一种二元掩蔽。然而,掩蔽不需要是二元的,”主要作者、麻省理工电气工程与计算机科学(EECS)博士生及CSAIL成员陈博远表示。“通过扩散强制,我们为每个标记添加不同级别的噪声,有效地充当了一种分数掩蔽。在测试时,我们的系统可以‘去掩蔽’一组标记,并降低噪声水平扩散出接近未来的序列。它知道在其数据中信任什么,以克服分布外的输入。”
在几项实验中,扩散强制在忽略误导性数据以执行任务时表现出色,并预测未来的行动。
例如,在对一个机器人手臂实施时,它帮助在三个圆形垫子上交换两个玩具水果,这是需要记忆的一类长期任务的一个简单示例。研究人员通过远程控制(或在虚拟现实中遥控)训练机器人。机器人被训练模拟用户从其摄像头的动作。尽管从随机位置开始,并且看到诸如购物袋遮挡标记的干扰,它仍然将物体放到目标位置。
为了生成视频,他们在“Minecraft”游戏玩法和Google的DeepMind Lab模拟器中创建的丰富多彩的数字环境上训练了扩散强制。当给出一帧视频时,该方法生成了比类似基线(如Sora样式的完整序列扩散模型和ChatGPT样式的下一标记模型)更稳定、更高分辨率的视频。这些方法生成的视频似乎不一致,后者有时在仅生成72帧之后就无法生成有效视频。
扩散强制不仅生成精美的视频,还可以作为运动规划器,引导朝向期望的结果或奖励。得益于其灵活性,扩散强制可以独特地生成具有不同时间范围的计划,执行树搜索,并融入远期未来比近未来更不确定的直觉。在解决二维迷宫的任务中,扩散强制通过生成更快的计划引导到目标位置,超越了六个基线,表明它可能成为未来机器人的有效规划者。
在每个演示中,扩散强制充当了完整序列模型、下一标记预测模型或两者兼具。根据陈的说法,这种多功能方法可能成为“世界模型”的强大支柱,这是一种可以通过训练数十亿个互联网视频来模拟世界动态的人工智能系统。这将使机器人能够通过想象他们需要根据周围环境做什么来执行新任务。例如,如果你要求一个机器人在没有训练的情况下打开一扇门,该模型可以生成一个视频,展示机器如何做到这一点。
该团队目前正在寻求将其方法扩展到更大的数据集和最新的变换器模型,以提高性能。他们打算扩展工作,构建一个类似ChatGPT的机器人大脑,帮助机器人在新环境中执行任务,而无需人类示范。
“通过扩散强制,我们正在迈出一步,将视频生成与机器人技术更紧密地结合在一起,”高级作者、麻省理工学院助理教授、CSAIL成员Vincent Sitzmann说,他领导场景表示小组。“最终,我们希望利用互联网视频中存储的所有知识,使机器人能够在日常生活中提供帮助。还有许多更具挑战性的研究问题,例如机器人如何通过观察人类来学习模仿,即使它们的身体与我们自身有很大不同!”