作者丨郑佳美
编辑丨马晓宁
贝索斯又给一家AI创企 Physical Intelligence 投资了,一顿操作下来,使其估值狂飙至 24 亿美元。
值得一提的是,这波融资除了贝索斯外,还有风险投资公司 Thrive Capital 和 Lux Capital 同时牵头,OpenAI、Redpoint Ventures、Bond 纷纷跟投。
让 Robot 叠衣服,一句话的事儿
这个让一众大佬纷纷看好的 Physical Intelligence,它的核心产品是一款名为 π0 (pi-zero) 的软件,这是一个通用的机器人基础模型,旨在使用户通过简单的语言指令控制机器人,类似于与聊天助手互动的方式。
在上周发布的论文中,Physical Intelligence 还展示了 π0 如何使机器人能够折叠衣物、清理桌子、压平盒子的技术分析等等。
其中,π0机器人控制模型集成了一系列高科技手段,使其能够灵巧地完成复杂的任务。
这个模型首先利用视觉-语言模型来理解图片和文字中的信息,然后通过一个特殊的动作输出系统,以很快的速度告诉机器人该如何动作。这种快速、连续的动作指令对于需要精细操作的任务非常关键,比如叠衣服或者装箱子。
π0模型的训练分为两个阶段:预训练和后训练。
预训练阶段,模型会学习大量的数据,这样它就能够掌握广泛的技能和适应不同的场景。后训练阶段,模型会针对特定的任务进行调整,以提高其在这些任务上的表现。
此外,π0还采用了一种叫做流匹配的技术,这让它能够处理连续的动作,而不是单一的、离散的步骤。这种技术的应用,加上模型的混合专家架构,使得π0在预测动作时更加准确。
总的来说,这些技术的综合应用让π0在多种机器人平台上都能够展现出色的表现,无论是在预训练后立即执行任务,还是经过特定任务的微调后。
团队还贴心的在??上贴心的发布了相关的演示视频,展示了π0控制的机器人如何把衣服从洗衣机拿出来叠放一起,如何把咖啡豆舀出来,如何折叠纸箱等精细操作:
网友直呼:我一直相信AI机器人的能力,现在它能帮我洗衣服,我就更喜欢它了!
还有网友化身“赛博乞丐”:给我来一个!
不过也有网友觉得演示中的内容在特斯拉的机器人面前有点太小儿科了,不过马上遭到反驳:人家只是初创公司!
而这也和 Physical Intelligence 的想法一致,联合创始人 Sergey Levine 就曾经表示:“据我们所知,我们正在训练的数据量比有史以来制作的任何机器人模型都要大。”
但他还补充道:“它无论如何都不是 ChatGPT,但也许它接近 GPT-1”,表达他们的软件更接近于 OpenAI 为聊天机器人发布的首个模型GPT-1,而不是那些更先进的、为 ChatGPT 提供动力的大脑,暗示他们仍处于早期开发阶段。
野心勃勃,要做机器人行业中的「OpenAI」
之所以Physical Intelligence能够拿到这么大的融资,可能是因为它和OpenAI一样,都是企图从模型与数据层面颠覆此前的技术惯性,或许将Physical Intelligence的π0与OpenAI的ChatGPT进行比较,可以更直观地理解其创新和潜力。
首先,ChatGPT的精准语义理解能力是其核心优势之一,对于π0而言,这种能力同样至关重要。
π0必须具备理解物理世界中的交互指令和上下文的能力,这包括但不限于视觉、语言和触觉等多种感官输入。
通过接受大规模互联网视觉-语言预训练,并结合丰富的机器人操作数据集,π0能够熟练地执行一系列多样化的任务。这不仅彰显了π0在解读物理世界指令方面的卓越能力,也体现了其在多模态感知和任务执行上的先进性。
其次,ChatGPT的卓越之处在于其能够将宏观问题细化为微观问题,并巧妙地整合答案。
对于π0而言,这表示它必须将复杂的物理任务分解成一系列可操作的步骤,并根据环境的实时反馈灵活调整其行动,以确保达成预定目标。
π0通过在广泛的机器人操作数据集上进行训练,已经能够熟练执行从简单的物体搬运到复杂的衣物整理等多样化任务,这充分展现了其在任务分解和解决方案构建方面的强大能力。
关于这点,Physical Intelligence 的创始人 Karol 也曾说过:“我们有一个非常通用的方法,它可以利用来自许多不同实施例、许多不同机器人类型的数据,并且类似于人们训练语言模型的方式。”
最后,ChatGPT的通用性体现在其能够将人类知识迁移至语言交流中。相较之下,Physical Intelligence的通用性则表现在将互联网规模数据中学习到的深层语义知识,成功应用到物理世界的实际操作中。π0继承了这种从大规模互联网预训练中获得的丰富语义知识,并将其有效运用于实时的灵巧机器人控制,从而在知识迁移和通用性方面展现了其非凡的能力。
值得一提的是,Physical Intelligence的一个关键特点是与物理世界的直接交互。与ChatGPT主要处理语言和信息不同,Physical Intelligence需要处理的是物理信号和实际操作,正是这一点可以看出,它的野心是成为机器人行业中的「OpenAI」。
总的来说,ChatGPT的里程碑在于其对自然语言的理解和生成能力,而Physical Intelligence之所以受到投资人重视,则在于其对物理世界的理解和操作能力。
π0所做的,就是将构建语言模型的技术与控制和指导机器的自有方法相结合,并通过大量的机器人数据训练来实现。为了获得更多数据,该公司使用了在图像和文本上训练大脑视觉语言模型和从 AI 图像生成中借鉴的扩散建模技术。
人均“大咖”的初创公司
Physical Intelligence 成立于 2024 年,至今不到一年时间。它是一家专注于将通用人工智能与物理系统相结合的机器人初创公司,总部位于加利福尼亚州旧金山。公司的目标是开发一种能够应用于各种机器人的基础软件,使其能够执行复杂的多步骤任务,而不再局限于特定的功能。
公司的联合创始人兼首席执行官卡罗尔·豪斯曼(Karol Hausman)曾在谷歌DeepMind担任机器人科学家,一直专注于深度学习和机器人技术的应用,目前在斯坦福大学当客座教授。
Karol 在慕尼黑工业大学获得机器人硕士学位,在南加州大学获得计算机科学博士学位,研究方向为感知-行动循环的重新思考,通过交互感知和学习表征来提升机器人的智能。自2018年起,担任谷歌大脑的员工研究科学家,领导机器人操作团队,并负责多个重要项目。2021年至今,担任斯坦福大学计算机科学系的兼职教授,教授深度强化学习等课程。同时也在NASA喷气推进实验室等多个顶尖研究机构担任过短期访问研究员。
同时他也在多个国际会议和期刊上发表了大量论文,涵盖深度学习、机器人操作、交互感知等主题。其论文《Rt-1: Robotics transformer for real-world control at scale》在2022年引起广泛关注。
值得一提的是,在谈及自家机器人在叠衣服方面的表现时,Karol 还强调:对于机器人而言,折叠衣物是一项特别困难的任务,因为它需要对物理世界有更深入的一般性智能,尤其是在处理那些会不断变化形态和产生褶皱的柔软物品时。
他还提到,现有的算法还不够稳定。就像人工智能聊天机器人有时会出现一些“人类怪癖”,例如摇晃 T 恤和短裤,让它们平整地铺开。并且这些家庭服务机器人有时也会突然“崩溃”,然后做出一些令人难以置信的行为:例如它们可能会把鸡蛋塞进已经装满的纸箱,然后强行关闭纸箱,甚至还有一次,在整理物品时,机器人突然将盒子从桌子上扔了下去…
其他联合创始人包括加州大学伯克利分校的教授谢尔盖·莱维宁(Sergey Levine),Sergey发表了多篇具有影响力的论文,其中《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》和《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》是其代表作,分别被引用超过13738次和9441次。
联合创始人切尔西·芬(Chelsea Finn),2019年至今,Chelsea 担任斯坦福大学的助理教授,并且享有“William George and Ida Mary Hoover Faculty Fellow”的称号,她在机器人学和人工智能领域的研究工作得到了认可和尊重。值得一提的是,在加入斯坦福之前,她曾在 Google Brain 担任研究科学家,专注于深度学习和机器人学习算法的开发。


“弥补遗憾” ?OpenAI跟投两轮

具身智能大模型,还有更多







更多内容,点击下方关注: