-
谷歌Genie横空出世:深挖互联网视频,撬动AI交互大变革!
本文介绍了Genie,一个由互联网视频训练而成的无监督基础世界模型,能够根据文本提示生成可控制的虚拟世界。Genie包含一个时空视频分词器、一个自回归动力学模型和一个潜在动作模型,能够在没有地面真实动作标签的情况下,逐帧生成交互式环境。
本文介绍了Genie,一个由互联网视频训练而成的无监督基础世界模型,能够根据文本提示生成可控制的虚拟世界。Genie包含一个时空视频分词器、一个自回归动力学模型和一个潜在动作模型,能够在没有地面真实动作标签的情况下,逐帧生成交互式环境。