随着人工智能技术的飞速发展,视频生成领域迎来了前所未有的突破。OpenAI的视频生成模型Sora自今年初发布以来,一直备受关注。Sora以其能够输出长达一分钟的高质量视频而闻名,这一能力在当时打破了视频生成的时长限制。然而,Sora却没有正式上线。而在此期间,其他视频生成模型如雨后春笋般涌现,声称已经达到了Sora的水平。今天就来看一下Sora的最新动态,并对比分析当前主流的视频生成模型与Sora的差异。
Sora的最新动态
Sora是OpenAI开发的视频生成模型,有消息称,Sora即将正式上线,这无疑将为视频生成领域带来新的变革。Sora的特点是能够生成长达一分钟的视频,且在动态场景的3D一致性和长时依赖关系处理方面表现出色。
视频生成模型
在Sora发布后的近9个月时间里,多个视频生成模型陆续发布,包括MiniMax-Video-01、Kling 1.5、还有字节的即梦等,它们在不同维度上逼平甚至超越了Sora模型。
? MiniMax-Video-01(MiniMax)
MiniMax-Video-01主打高清视频生成,支持原生高分辨率、高帧率视频,最高支持1280*720分辨率的25帧视频。在视频生成模型评测体系VBench上,其画质、连贯性等方面处于领先,Quality Score为85.13%,仅次于谷歌的T2V-Turbo-v2。
? Kling 1.5(快手)
快手的Kling模型实现了生成视频时长的突破,可以生成长达2分钟的视频,相较于Sora的1分钟视频时长有了显著提升。
? 豆包视频生成(字节跳动)
字节跳动的视频生成模型PixelDance和Seaweed在精准的语义理解以及多动作多主体交互方面表现出色,能够生成连续的视频片段,并保持时间一致性和视频质量。
? Dream Machine 1.5(Luma AI)
Dream Machine模型被称为Sora的“最强竞品”,能够根据文字或图片生成高质量的逼真视频,视频生成速度快,能够在120秒内生成120帧画面。
? Gen-3 Alpha(Runway)
RunWay的Gen-3 Alpha Turbo模型在生成视频一致性和运动控制方面具有优势,支持高度可描述性的视频生成,包括时间密集字幕和创意场景过渡。
视频生成模型的技术挑战
尽管视频生成模型在生成效果上取得了显著进展,但它们在动态运动、多镜头场景、在长时间视频中保持动态一致性等方面仍存在一些缺陷。这些挑战是视频生成领域需要进一步解决的技术难题。
Sora上线无疑会给视频生成领域带来新的活力和竞争,其他视频生成模型也在不断进步,它们在视频生成的多个维度上已经逼平甚至超越了Sora。随着技术的不断发展,我们可以期待视频生成领域将带来更多创新和突破。
加关注:每天获取AI知识,提高技能