人类智慧有许多方面。其中之一是语言智能,使我们能够通过语言与他人交流和连接。但或许更为基础的是空间智能,它让我们理解并与周围的世界互动。空间智能还帮助我们创造,将脑海中的图像转化为现实。从简单的沙堡到高耸的城市,我们利用空间智能进行推理、移动和发明,构建各种各样的事物。当前,基于文本的图像和视频生成模型与大语言模型(LLMs)共同展示了 AI 在视觉领域的巨大潜力。这些模型已经让人们能够以全新的方式工作和创作,但这仅仅是冰山一角。为了突破现有模型的限制,我们需要具备空间智能的 AI,能够在三维空间和时间中对物体、地点及其互动进行建模和推理。——《World Labs》官方网站想象一下,上传一张图片,然后就能够进入那个世界并在里面晃悠,这便是 World Labs 正在实现的目标。World Labs,这家由人工智能先锋李飞飞创立的初创公司,发布了他们的第一个项目:一个能够从单张图片生成类似电子游戏的 3D 场景的 AI 系统。
市面上有很多 AI 系统可以将照片转化为 3D 模型和环境,但 World Labs 的场景特别之处在于——它们是可以互动和修改的。生成 3D 世界“(我们的技术)可以让你可以走进任何一张图片,并在 3D 中进行探索,”World Labs 在一篇博客文章中写道。“除了输入的图片,其他所有内容都是生成的。”这些由 AI 生成的场景看起来非常酷炫,虽然有点卡通风格,但 任何有键盘和鼠标的人都可以在 World Labs 网站上的演示中体验。预览体验链接:https://www.worldlabs.ai/blog这些场景在浏览器中实时渲染,配备了可控的相机效果和可调节的模拟景深(DoF)。景深效果越强,背景物体就会越模糊。“大多数生成型 AI 工具制作的是 2D 内容,比如图片或视频,”World Labs 写道。“转而生成 3D 内容可以提高控制力和一致性。这将改变我们制作电影、游戏、模拟器以及其他数字化物理世界表现形式的方式。”World Labs 在博客中进一步介绍,生成 3D 场景有许多好处:持久的现实感:一旦 3D 世界被创建,它将永久存在。如果你转开视线再回来时,场景不会发生变化。实时控制:生成场景后,你可以实时在其中移动。你可以停留在一朵花的细节上,或是绕过一个角落看看里面有什么。正确的几何形状:我们生成的世界遵循基本的 3D 几何物理规则,具有真实感和立体感,这与某些 AI 生成的视频的梦幻效果形成鲜明对比。当然,当前版本还有提升空间。World Labs 的场景还不能完全自由探索——移动范围目前限制在一个小区域内。(试着移出这个区域,你会碰到边界。)还有偶尔的渲染错误,比如物体以不自然的方式融合在一起。但 World Labs 表示,这只是一个“早期预览”。“我们正在全力提升生成世界的规模和细腻度,并尝试用户与之互动的新方法,”World Labs 在博客中写道。