人工智能视频领域发展最快的一个方向是对口型技术——即使AI角色说话时看起来像是在真正发声。多家公司提供对口型技术,包括Pika Labs、Synchlabs,以及专注于角色生成的Hey Gen和Synthesia。后两者是我见过的最佳对口型示例之一,但它们更多专注于头像而非动画。
在本文中,我着重介绍了在AI视频领域运作的平台,而不是头像生成。Kling和Runway最为相似,它们提供完整的视频创建平台,并将对口型作为功能之一。Hedra目前主要专注于角色生成,但正在构建一个以角色为基础的可操控视频模型。因此,我选择了这三款工具进行测试。
比赛设计
这是三款模型之间的五轮比赛,三轮使用我提供的图片,两轮使用它们自己的图像或视频生成能力。(最终运行的轮数会在文末说明。)
我们将使用同一张图片,并采用它们内置的语音以及相同的独白脚本。我专注于10秒的片段,尽管Hedra可以支持长达一分钟的片段。这是为了在所有三个模型中保持一致性。
Hedra的工作方式与Kling和Runway略有不同。后两者从视频开始,映射视频中的嘴部运动;Hedra则从一张图像开始。最终效果相似。
第一轮:静态脸测试
这是最简单的一轮。我们给Midjourney的提示是:“一个面部表情最少的人的中性、近距离肖像,在自然光线的摄影棚环境中拍摄,面部正对前方。背景是柔和的、模糊的色彩渐变,没有干扰。肤色应自然,人物看起来平静,没有明显的情感表现。”
我们从每个模型中选了一个自定义语音,决定让它说:“你好,欢迎来到AI视频生成的未来。我虽然不是真实存在的,但通过对口型技术依然可以与你对话。”
这一测试应该只需要20分钟即使加入了对口型的复杂性。尽管Kling在视觉和动作真实感方面很出色,但它是最慢的AI视频模型。Runway由于使用Turbo模式几乎是实时的,而Hedra在动画图像方面表现迅速。
在Hedra和Kling之间,这一轮较为接近,Hedra的语音和嘴部运动更逼真,而Kling的运动更令人印象深刻。由于Kling出现了闪烁问题,这一轮我把胜利给了Hedra。
第二轮:表情挑战
在这一轮测试中,我们让Midjourney生成一张超近距离的图像:“一张带有表达性、微笑露齿的人的近距离肖像。光线明亮而温暖,营造出愉快和充满活力的氛围。背景是柔和的、浅色的,不会分散面部表情的注意力。”
每个模型都被要求说出:“生活有时可能很奇怪,但它是一种美好的奇怪,一种值得微笑的存在。”这将测试捕捉情感上下文的能力。
三者的渲染都很糟糕。显然,如果你想要一个好的对口型效果,最好从闭嘴开始。我无法选出一个明确的赢家,但Hedra的嘴部运动相对较少出错,因此勉强获胜。
第三轮:动作场景
最后,我们将看看每个选手在处理非正面面对摄像机的对话中的嘴部动画效果如何。我们给Midjourney的提示是:“一个略微侧身的人的动作场景,中途对话时举手做手势。面部表情显示出决心和专注。背景是动态的、略微模糊的城市街景,暗示人物在移动中说话。”
给出的脚本是:“于是我告诉他,如果他想买车,就得出个更好的价钱。后来就再也没听说过他了。”
没有一个模型的效果完美,但我认为Hedra和Runway的表现比Kling好。总体来看,Runway的对口型最为真实,这一轮它获胜。
最终赢家:Hedra
我原本计划了五轮比赛,但Kling的生成时间太长,无法及时完成所有测试。最后两轮本来是测试文本到视频的生成能力,但结果太过混乱,无法成型。
Hedra的Character-2最终胜出。它从图像开始进行动画,而其他两个模型则必须在视频中映射嘴部运动并与声音同步。