LipDub CEO Jonathan Bronfman:视频内容生成的挑战是“慢且贵” 2024T-EDGE

来源:188金宝慱亚洲体育正规吗 发布时间:2024-12-14 07:38:11

  2024年12月6-7日,2024T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办,本次大会主题为“ALL-in on Globalization,ALL-in on AI”,汇聚全球科学技术和商业领域的领导者,一同探讨企业全球化增长新格局新趋势,以及AI对全球各行业的巨大影响。

  在视频生成中,最难的往往是人物的面部、嘴型、表情、肢体动作的精准捕捉,因为有些许的动作位移和细微差异都会带来失真。如果想要达到好莱坞影视标准,就必须投入大量人力财力。

  2023年8月,在生成式AI技术浪潮的洗礼下,著名视觉效果(VFX)工作室和AI技术初创公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI视效产品LipDub,用于解决影视配音中口型不同步问题。该项技术将有利于好莱坞电影公司和广告商在观众收视率和参与度方面实现质的飞跃。

  LipDub研究团队由MARZ首席科学家、特拉维夫大学计算机科学系世界知名教授Danny Cohen-Or领导,他是ACM研究员和Isaias Nizri视觉计算主席。他与长期合作者、西蒙弗雷泽大学助理教授Ali Mahdavi-Amiri一起领导了MARZ的AI研究团队。他们共同成功开展了Vanity AI的研究,这是MARZ开发的第一个AI解决方案。比如,针对人物面部皱纹进行AI美妆,使其达到年轻效果。Vanity AI于2023年1月推出,已在45多个好莱坞作品中使用。

  12月7日,LipDub CEO Jonathan Bronfman在演讲中透露了LipDub的技术实现原理,并对该项技术所覆盖的各行业、场景解决方案进行了演示。

  Jonathan指出,目前生成式AI已经演进到文生图、图生视频阶段。对于营业销售人员或内容创作者而言,基于生成式AI技术,几乎只需要10分钟就可以对某个想法实现视频生成,从而快速验证视频效果。

  在他看来,视频内容生成的挑战是什么?慢且贵。视频是娱乐、教育和打动观众的最佳途径。随视频内容生成效率的提升,用户可完全在几分钟内就生成一段视频,同时,同一段视频素材也能反复使用。

  LipDub开发的口形同步技术(Lip Sync)实际上用到三种方案:一是直接对视频翻译,比如给出一段英文演讲视频,然后用中文演示,就好像演讲者在讲中文;二是通过定制虚拟形象进行对话调整,比如在广告场景,许多品牌在全球各地都有不同的产品的名字表达,但希望使用同一支商业广告,就需要对广告中特定的产品的名字进行更改;三是通过一段语料实现角色的量身定制,即针对同一件事物,针对不同的受众群体生成不同的个性化表达。

  Jonathan强调,好莱坞影视画面的要求不单单是口型同步,而是要动态的,有饱满情绪的。要确保对原始人物/角色表演1比1的还原。同样,在跨语言转换过程中,还要要确保能够恰当地用另一种语言传递源语言中所表达的情感。

  大家下午好。在开始之前,我要感谢钛媒体的邀请,这是我第一次来到中国,感谢大家的热情款待。

  我叫Jonathan Bronfman,是MARS的CEO,借此机会我与大家伙儿一起来分享下我们的产品LipDub,和公司发展历程。

  MARS源自Monsters Aliens Robot Zombies的英文缩写,是一家专门做视觉特效的工作室,于2018年成立,曾为好莱坞多个影片和影视剧如《蚁人》、《惊奇少女》提供特效,并且与迪士尼、奈飞、Amazon Prime等多家流媒体平台合作。

  在2018年进入视效行业时,我就很清楚这个行业缺乏差异性,这在某种程度上预示着任何一个人都使用着相同的技术栈。那么如何在一个同质化的行业中找到差异化竞争优势,并以此取得成功?因此,我们在2019年明确AI能加速发展,为咱们提供在成本、时间和规模上的竞争力。

  我们聚集了很多世界知名科学家,包括特拉维夫大学教授Danny Cohen-Or,还有西蒙弗雷泽大学助理教授Ali Mahdavi-Amir,他们带领我们找到了深度学习在视效行业的应用交集。

  其实我们开发的第一款AI产品不是LipDub,而是一款2D美妆产品Vanity AI。该产品能通过创建一张单帧图片,然后将其他底片插入从而使图片鲜活。我们一开始也非常擅长对人物面部表情的刻画。2021年,我们注意到奈飞平台上韩剧《鱿鱼游戏》在欧美地区爆火,但是问题就在于配音的口型不匹配。因此,我们就在想能不能让口型同步起来,让观众观看体验更沉浸。

  在不断努力下,我们将口型同步技术(Lip Sync)用在了好莱坞电影配音中,一直指引我们前进。在播放示例中能够正常的看到,我们将佛兰芒语的电影,翻译成英文,这样的一个过程中用到了LipDub。其实在为好莱坞电影的制作的步骤中,我们还需要摆姿势、换镜头、换灯光等手段,解决大量技术难点,以此来实现4k高分辨率。

  LipDub采用了Language Agnostic模型,以实现跨语言无关特征学习。比如声音是通过某个音素表达,转化为口型则需要特定的口型表达方式。比如下面示例中男子正讲来自《阿凡达》、《权利的游戏》、《星际迷航》中的科幻语言。

  当然,这都是属于真人片段。为了逐步提升该技术效果,我们还将LipDub应用于CG角色制作。在此之前,我们模型训练的数据集里甚至都没有CG角色字符。要知道,好莱坞影视画面的要求不单单是口型同步,也不是人形立牌,而是要动态的,有饱满情绪的。我们要确保对原始人物/角色表演1比1的还原。

  我们已经宣布了这款产品的beta版,预计在今年年底会有新的进展。LipDub不仅服务于好莱坞,还扩展到广告、在线教育、企业宣传片等多个领域,并聚焦于关注于视频质量的高价值客户群体。例如,在线教育视频场景中,LipDub营造出了一种真实的听众体验,感觉就像是说话人自己的语言。

  视频内容生成的挑战是什么?慢且贵。视频是娱乐、教育和打动观众的最佳途径。随视频内容生成效率的提升,用户可完全在几分钟内就生成一段视频,同时,同一段视频素材也能反复使用。LipDub开发的口形同步技术(Lip Sync)实际上用到三种方案:一是直接对视频翻译,比如给出一段英文演讲视频,然后用中文演示,就好像演讲者在讲中文;二是通过定制虚拟形象进行对话调整,比如在广告场景,许多品牌在全球各地都有不同的产品的名字表达,但希望使用同一支商业广告,就需要对广告中特定的产品的名字进行更改;三是通过一段语料实现角色的量身定制,即针对同一件事物,针对不同的受众群体生成不同的个性化表达。

  显然,我们今天讨论的AI将是一个技术拐点。人们正投入大量资金在AI上,希望AI能够更便捷、更经济使用,能够规模化增长和快速迭代,并且在特定行业里吸引到受众和投放市场。

  随着AI技术的发展,生成式AI已经演进到文生图、图生视频的模式。在此技术驱动下,我们着手基于生成式AI技术实现了视频生成。对于营业销售人员或内容创作者而言,几乎只需要10分钟就可以对某个想法实现视频生成,从而快速验证视频效果。

  目前LipDub生成式AI应用分为初级和高级模式。在高级模式中,研发人员需要先对项目命名,并选择源语言和目标语言。其次,上传视频并添加训练素材。一旦通过,将对角色面部进行自动检验测试打标,只有标注后的素材才能用于AI训练。最后,上传音频,与对应角色进行匹配,最终生成视频。可预览和下载保存。

  在初级模式中,用户只需上传视频,在对视频进行预处理后,点击创建配音。选择自身的音频素材或内置翻译功能,可一键生成配音效果。

  最后,展示一下我们在做的新功能——替换对话框(Replace Dialogue),类似文本到语音(text-to-audio),这类平台这些有很多,但如果输出的不是你想要的结果怎么办?比如你想修改一个单词,但跨语言转换会有细微差别。你们用中文听到的某个词,可能转换为英文就翻译不出来。我们要确保能够恰当地用另一种语言传递这种情感。