“在影视行业,越专业的人越觉得 AI 就是个傻瓜相机!它只会产生一些让人「致幻」的 demo,实际应用起来往往会让人大失所望。”“艺术创作不仅是结果,也是过程,而 AI 可能永远学不会艺术创作的过程,AICG也永远不会懂艺术。”“AI 技术可能会实现创作平权,让非专业人士也能创作作品。但人人都可以写字,却不代表人人都能写出好故事,AI 技术可以帮助创作,但创造性仍然需要人类发挥。”… …以上均是来自 CNCC 2024 圆桌辩论上大佬们的观点,在 AI 热得发烫的今天,影视行业也逐渐融入了 AI 技术,只不过对于艺术与科技的交融,很多人秉持不同观点,也碰撞出了不同的火花。此次大会邀请了中国电影美术学会理事董未名、北京灵动音科技有限公司 CTO苑盛成、清华大学计算机系博世AI教授、人工智能研究院副院长朱军、中国人民大学高瓴人工智能学院长聘副教授宋睿华、英特尔数据中心与人工智能集团首席工程师何万青、阿里巴巴通义实验室应用视觉Human AIGC方向负责人张邦、快手科技副总裁、大模型团队负责人张迪、爱奇艺副总裁兼智能制作部负责人朱梁等一众AI和影视领域的大佬参与讨论,激情辩论。这次的“AI +影视创作”圆桌论坛,AI 科技评论在不改变原意的基础上,对内容进行了编辑整理。希望能够给你带来更多的启发与思考。1
AI +影视的“诗”与“坑”
主持人:很荣幸能够与几位老师一同探讨“AI+影视创作”这一话题。我准备了大约三个与此相关的小议题。第一个议题,我们来聊一聊 AI 与影视的“优势与挑战”。谁会使用一部傻瓜相机去拍摄电影呢?在这个行业技术与产业融合的过程当中,各位真实感受到了什么?首先请朱总谈一谈。朱梁:谈到AI与影视结合的“诗”与“坑”,以及预期与实践之间的差距,这是一个长期存在的问题。我们都知道,电影的创作在影像和声音上有着极高的要求。尤其是连续性这一点,大多数基于DIT架构的模型都无法实现。如果要求人物、装扮、光线方向和镜头运动都完全一致,就像电影中的镜头运动一样,这是难以做到的。因此,我们对儿童动画片项目进行了一些测试。片方或希望合作的伙伴提供的样片让我们感觉非常好,但它们是否100%由AI生成呢?如果AI真的有这样的能力,对我们的制作帮助将是巨大的。对于视频平台来说,这是一个巨大的吸引力。但经过深入研究和沟通,我们了解到人工参与的部分仍然很多,人工智能中的“人工”部分可能没有达到我们的预期。要获得高质量的专业级成品,人工参与的比例需要降低。因此,虽然不能说这是一个100%的坑,但确实与我们对AI真正应用的预期还有一定差距,这是我们的实际感受。主持人:宋老师的观点呢?宋睿华:对于专业人士来说,他们可能会对某些技术持保留态度,因为艺术不仅仅是最终的作品,还包括创作的过程。例如,艺术家构思故事、修改故事、绘制故事板,或者导演需要通过团队的努力,经过一两年的时间才能看到最终的画面。这个过程本身就是非常重要的。我一直在思考一个问题,那就是如何提高创作的新颖性。AI可能会陷入套路,对于创作者来说,可能无法满足他们的需求。例如,虽然我不制作视频,但当我阅读别人写的故事或文本时,我仍然觉得AI的想象力不如人类。对于高水平的创作者来说,他们有自己的要求,而AI目前还无法达到他们的水平,因此他们可能不会考虑使用AI。但我不认为“傻瓜相机”不好,因为它们的销售量和产值可能远远超过专业相机和专业设备。虽然专业人士可能难以接受,目前也可能无法帮助他们,但对于业余爱好者来说,市场可能是巨大的,而且“傻瓜相机”不愁卖不出去。主持人:是的,我还想补充问一下朱军老师,就刚才我说的这个过程当中,大家真实感受到的是技术端推着影视行业在往前走,还是影视端拽着技术行业?它是一个需求驱动的市场,还是一个供给逼出来的市场?
主持人:现在 AI 加影视到底是朝着让小白就能够上这个船,还是去真正改造严肃的影视工业的?譬如降本增效等等的这个诉求呢,可以一两句话概括一下吗?苑盛成:我认为创作有多种形式,不同的工具满足不同的需求,并不是单一的工具或产品形态能够满足所有需求。朱军:我想插一句,现在我们在讨论什么是通用的基础平台。比如,当我们在做申诉时,我说我的愿景是什么,我认为愿景就像刚才苑总所说的,我们希望让每个人都能释放他们的创作梦想,让每个人都能够表达自己,而不仅仅是那些专业的人。这也不应该是AI最终特别要追求的目标,但我们可以在通用工具上让大家去表达,让每个人都能尝试。比如,帮助导演展示他的想法,可能这些想法最终不会直接使用,但可以作为参考。比如,他可能需要找真人或演员来拍摄,这样的工具可能会大大提高效率。我认为短期内可能会是这样,但长期来看,我也不认为AI一定要完全取代真正的人的创作。
主持人:从技术发展的角度,去年可能大家还有不同的主,不同的路线,而年初 Sora 亮相,让那个 Transformer 加这个 diffusion model DIT 的路线成为了主流,到今天其实才过去了八九个月内,这个技术路线大家统一了吗?朱军:让我先来谈谈我的观察。目前,从实际效果来看,最好的效果肯定是使用扩散模型结合Transformer。在实战中,当然包括扩大模型规模,也有一些其他的变种,包括最近大家提到的flow matching,但它们本质上还是基于同样原理的方法。同时,在学术界,大家也在不断探索各种其他架构,包括Transformer的各种尝试。但从最终效果来看,目前似乎还是比较倾向于使用DIT这种方法。主持人:所以基本上现在是以这个以 Sora 路线为核心,我们更多的是快速对齐,对吧?朱军:对的,是这样的。主持人:那其实跟我们此刻隔壁世界正在发生的大语言模型是类似的逻辑,是吧?宋睿华:我认为可能并不是像那个行业一样,即使是大型语言模型的差距也在缩小,也会追赶上来。实际上,我感觉他们作为领头羊的地位和影响力可能会掩盖掉我们的一些光辉。比如中国人民大学做的悟道·文澜模型,虽然独立研发,与CLIP模型同期独立发布,但声量没有Open CLIP那么大,又比如朱老师他们在更早的时候发表的那篇文章,是关于diffusion算法的,后来这个算法就被整合到了SD和Sora中。其实我们一直在为技术贡献,但他们可能在商业上非常成功,整个形象就是作为领头羊的形象,影响力特别大。有时候我们并不是做得比他们晚,而是我们的声音没有他们大。主持人:所以刚才朱老师的观点听上去还是 Sora 路线是主流路线。那么宋老师,你的观点是说,现在其实还是多条道路在同时探索的状态。宋睿华:我认为,有些技术确实有效,比如Transformer模型,大家都发现它非常好用。我们的同学后来意识到,最初大家的研究思路是想要改造这个架构,但后来发现花费了很多时间却收效甚微,甚至越改越糟。最终,大家达成了一个共识:这个模型可能是一个很好的基础单元,就像乐高积木一样,找到了一些非常实用、多功能的积木块,这些积木块可以拼成各种各样的东西。你可以选择一直挑战,说我不要这些积木块,我要自己创造形状,无论是方形、圆形还是三角形;或者你可以选择认可这些积木块的确很强大,然后利用它们来构建自己想要的作品。主持人:那么这个赛道大家现在竞争的是什么?宋睿华:我认为这更多是关于个人愿景的问题,没有唯一的选择,而是看大家谁能看得更远。即使是同样有远见的人,他们也可能认为不同的方向是可行的。主持人:这是可能偏学术的视角,对吗?那董老师你也是这么认为的吗?
主持人:到那个时候影视还会是一个大的工业吗?还是说变成了非物质文化遗产?董未名:情况是这样的,正如您刚才提到的,从艺术创作的角度来看,艺术创作的目的是什么?比如我写书,我输入一行文字,然后瞬间创作出一幅画,这种创作的快感是AI无法给予的,AI永远无法提供给人类的。主持人:我觉得大部分短视频创作者创作短视频的时候没有快感,看到被点赞才有快感。到时候大家都在创作,没有人去点赞了,怎么办呢?苑盛成:我确实有一些想法,虽然我不太懂影视领域,但我认为音乐与它有很多相似之处。比如,你听流行歌曲时,近几年你有没有关注这些歌是谁演唱的、谁编曲、谁作词、谁作曲?这可能反映了一个现象:大多数用户在听音乐时,并不在乎创作者是谁。但也有一部分人创作是为了表达自己,让自己身边的人能听到,获得自己创作的人生体验。这部分可能与董老师刚才提到的创作中的表达欲有关,即背后的部分我表达出来了,整个结果被我自己所接纳,我真的认为是我主导创作了这个艺术作品,这个艺术作品代表了我的审美,代表了我的人生体验。何万青:我补充一下,关于这种个性化和浪漫的想法。首先,我非常同意张邦老师的观点。我认为第一个结论是,AI这种平权可以改变我们大多数人的生产方式和娱乐方式。其次,这将产生一种新的经济模式。但同样重要的是,当每个人都能创作时,你需要购买别人的注意力,这就是现在的网红经济和直播经济的来源。第三点是最关键也是最棘手的,如果在这个情况下,我们仍然由平台公司垄断,就像现在要在抖音上获得曝光需要花费很多钱一样,也就是说,这么多创作者中只有一小部分能够获得巨大的流量,剩下的长尾创作者则很难获得关注。这种模式仍然会限制创新。所以,这三个方面我都要强调,AI平权肯定是好事,但它必须有相应的生产关系和整个生态系统的配合才能发挥好的效果。张邦:我认为创作平权绝对是一件好事。此外,物质生产可能会过剩,但文化和艺术的生产永远不会过剩。当创作平权实现后,因为参与创作的人数增多,生产信息的基数变得更大,同时,你的信息生产量也会增加。这也意味着文化和艺术创作的质量和数量都将得到提升。苑盛成:我同意张总刚才所说的观点,即文化和艺术创作不会过剩。我的看法与他相同。我认为艺术创作是人类对自己精神层面的探索,它是主观的,每个人都是独一无二的,因此它不会过剩。董未名:我的观点可以用一句话概括:艺术的作用不在于复制可见之物,而在于将不可见的东西变得可见。有了AI这个工具之后,它能够帮助我们把每个人心中的不可见之物——我们对这个世界的憧憬和想象——转化为可见的现实。朱军:我的第一句话是,AI技术正在快速发展,但我们不能以完美来衡量它。所有技术都有不足之处。第二句话是,AI的最终目的是帮助人们实现梦想。就像我们所做的所有工作一样,我们希望帮助人们将自己的梦想变成可见的、可传播的、可观赏的成果。宋睿华:我想总结的刚好用到这个论坛的名字, AI +影视≠创作,就人人都可以写字,但是不代表人人都能写出好的故事。何万青:我想说的是,尽管AI在创作领域还处于起步阶段,但对于我们今天在线上和线下的受众来说,有一件事需要记住:人们往往不会珍惜那些容易得到的东西。所以,艺术也是这样,即使有了工具,你仍然需要发挥你的创造性。张邦:我这里想表达的是,今天我们讨论的Sora,即视频生成大模型或视觉大模型,实际上与语言大模型属于同一代技术,包括OpenAI的chatGPT等技术。Sora和类似的技术从0到1的亮相是非常惊艳的,意味着从无到有的转变,这个亮相是迅速且极其引人注目的。但从1到100的过程可能并不那么容易。因此,我们希望学界和产业界都能有耐心,慢慢见证这些技术对社会和全人类的改变。朱梁:万事万物,变化是唯一不变的真理。对于未来一年、五年、十年的发展趋势,我特别想说几句。未来一年,我特别期待在专业长视频领域能有实质性的进步,因为这个领域可以被视为影视行业的蓝宝石或金字塔的塔尖。一旦这个方向取得突破,解决了刚才各位专家讨论的问题,那么影视与AI结合的基点就真正到来了。这个时刻将会真正地、极大地改善或改变我们所说的创作平权,影视行业的整体结构,以及创作方式和范式,发生根本性的改变。我觉得那个时候就真的到来了。所以我特别期待我们不仅仅是仰望星空,还要脚踏实地地把每一个项目做好,把每一个技术的进步点做好。从影视行业的角度来看,它只看重结果,而不是大家所说的投入了多少算力、进行了多少训练、投入了多少钱。这个行业其实很残酷,有很多有才华的人,正如大家所说,他们有表达的欲望,创作出感动自己的作品,但观众不买账,行业也不会买账。所以,我们还是要这样和大家共勉。主持人:朱总作为最后一位发言的嘉宾,实际上占据了一个很好的位置,为我们今天的讨论定下了基调。那么,我们今天的论坛就到此结束,感谢几位嘉宾带来的精彩观点和真诚分享,也感谢大家的参与。