随着越来越多公司推出自己的生成模型,生成式AI领域的竞争日益激烈。视频生成成为当前最大的战场之一,而Genmo公司选择了不同的方式。他们发布了Mochi-1模型,作为“研究预览版”推出。这款新的视频生成模型采用Apache 2.0许可证,因此是开源的,用户可以自由拆解并重新组装使用。这也意味着Mochi-1是免费的,你可以在Genmo网站上亲自试用。其开源特性也意味着它未来将可在所有常见的生成式AI平台上使用,并且有一天甚至可以在高性能的游戏PC上运行。
Mochi-1进入了一个竞争激烈的市场,其他服务提供了广泛的功能,包括Haiper的模板、Kling或Hailuo的现实感以及Pika Labs和Dream Machine的趣味效果。Genmo表示,其重点是将最先进的技术带入开源领域。
为什么选择使用Genmo的模型?
关键在于动作。我们采访了Genmo的首席执行官Paras Jain,他解释说,动作是评估模型时的一个关键指标。“从根本上讲,很长一段时间以来,唯一无趣的视频就是没有动作的视频。我认为很多AI视频模型都受到了类似于‘实况照片效果’的影响,”他解释道。“我认为我们以前的模型有这个问题,这是技术必须发展的方向。但视频的核心就是动作,这是我们最重要的投资领域。”
这个初版的模型规模相对较小,仅有100亿参数,但它采用了一种新的异步方法,使得这个小模型具备更强大的性能。Jain还指出,他们完全在视频上训练了Mochi-1,而不是传统的混合视频、图像和文本方法,这使得它对物理的理解更好。团队还致力于确保模型能够正确理解用户的需求。
模型细节
Mochi-1目前的视频分辨率限制为480p,作为今天发布的研究预览版的一部分。Genmo也在提示响应和识别方面投入了大量精力,使用视觉语言模型作为参考,类似于Open AI的DALL-E 3。
虽然Mochi-1在拥挤的市场中亮相,但其开源性质可能让它比一些竞争对手走得更远。Genmo希望Mochi-1能提供“业界领先”的开源视频生成,但目前还无法在笔记本电脑上运行。不过,Jain认为,随着开源社区的参与,未来有人会将其调整到低性能硬件上运行。