一支中国团队成功地在现实世界中创造了黑客帝国:通过基于视频游戏和现实世界图像的训练,能够模拟交互式、现实和实时世界的人工智能!
已经有很多用于生成视频的人工智能模型,但这些工具很难产生高质量、持久的实时模拟。
除了需要大量的计算能力之外,这些模型只是生成短视频并且不提供交互性。
这些限制严重限制了许多现有人工智能的实际应用潜力,例如 OpenAI Sora或Google Genie 。
另一种选择是使用手动配置的资源,如 AAA 视频游戏开发,但对于大规模视频制作来说成本太高。
面对这些障碍,一种更现实、更可扩展的方法似乎至关重要。这正是中国研究团队通过《黑客帝国》所提供的!
人工智能接受来自现实世界的视频游戏和图像
介绍 The Matrix ,这一个基础世界模型,用于通过实时帧级控制生成无限长度、超现实的视频:
– 无限长度的视频生成
– 720p高品质渲染
– 16 FPS 的实时帧级控制
– 推广到现实世界的视频控制
该模型由阿里巴巴、香港大学和滑铁卢大学的研究人员开发,允许您实时控制每一帧,生成无限时长的视频。
它克服了传统模型面临的大部分挑战,并且可以生成复制现实世界环境(如城市景观或自然地形)的 720p 视频流。
与需要大量手动设置的传统模拟器不同, The Matrix 利用来自AAA 游戏和捕获的真实视频等数据源的监督和无监督学习。
它已融入的一些游戏包括《极限竞速:地平线 5》和《赛博朋克 2077》 。这种方法允许模型完全无缝地导航虚拟和真实环境!
例如,它能够在办公室环境中模拟驾驶 BMW X3,甚至在训练数据集中没有这样的场景。
引擎盖下:扩散变压器和交互模块!
基于扩散变压器 (DiT) 模型,The Matrix 能够连续生成流畅、高清的视频内容。
这一壮举的实现得益于一项关键创新:“Swin-DPM” ,即 Shift-Windows 降噪过程模型。
正是这项技术允许生成无限持续时间的视频,有效管理长视频序列所需的注意力机制。
此过程与交互模块协同工作,交互模块结合了用户控件(例如键盘命令)来动态影响生成的视频内容。
结果呢?该模型可提供实时控制的高质量模拟,最高速度为每秒 16 帧!
在视觉质量和控制精度方面,在一定条件下它的MOVE-PSNR(峰值信噪比)得分约为28.98。
视频游戏、自动驾驶汽车和虚拟现实的革命?
无需任何额外的训练,《黑客帝国》就可以从游戏环境推广到现实世界的环境。这使其成为创建交互式模拟的多功能工具。
它对于视频游戏行业、自动驾驶汽车模拟、虚拟现实体验等可能非常有用。
凭借其弥合真实环境和模拟环境之间差距的能力,《黑客帝国》是世界建模的宝贵资产。
其可扩展性降低了生成交互式模拟的成本,消除了手动创建环境的需要。
锦上添花:它是一个开源工具,其他开发人员将能够适应它以继续创新……
我个人认为,技术正在快速发展,人工智能的出现能够根据用户输入的简单文本提示创建视频游戏。这些模型还将使我们能够创建模拟,帮助我们更好地理解和预测现实世界。
项目地址:https://thematrix1999.github.io/