五分钟AI配音何以这么受期待?操作也不出意外地打动了许多投资人

演员在电影中说另一种语言只需要五分钟的声音材料?

直到看到这个视频我才相信在语音子带编码方案中,让我们听听它是如何工作的:

本视频取自英文惊悚片《博多之子》(英文名Every Time I Die)。

但是我们在回放中可以看到,只要一键,就可以随时将英文转成西班牙文,而且听起来还是原唱演员的声音。就连演讲中惊恐和颤抖的细节都被忠实地继承下来,向我们展示了AI配音的神奇力量。当然,这波操作并没有意外地打动很多投资者。

制作此内容的公司 Deepdub(深度配音)最近筹集了 2000 万美元的 A 轮融资。投资者还包括福克斯电视工作室的前总裁、Snyk 的联合创始人以及 Meta 的工程副总裁。

AI配音冲击传统模式

为什么AI配音如此受期待?因为它蕴含着巨大的商机。要知道,像美国这样的地方讲英语的观众没有看字幕的习惯。因此,面对一些优秀的非英文作品,他们有强烈的本土化需求,即英文配音版本。比如热门韩剧《鱿鱼游戏》,在首播28天内,总观看时长16.5亿小时,相当于18.2万年。一举成为Netflix历史上排名第一的节目。但是这么大一块蛋糕,从传统的角度来看在语音子带编码方案中,吃起来还是挺吃力的。

△ 图例:《鱿鱼游戏》播放量,右栏第一行

图片[1]-五分钟AI配音何以这么受期待?操作也不出意外地打动了许多投资人-老王博客

比如本土出版商要花钱翻译剧本,聘请配音演员扮演角色,租场地设备,做大量的配音录制,最后将配音拼接到原视频中。还有很多文化差异。根据市场情况,这一套需要 15-20 周。

Deepdub 的 AI 配音方法只需要原演员录制五分钟的随机文本,让神经网络学习演员的声音并用另一种语言表达。听起来原演员学习了另一种语言,并且可以在短短四个星期内完成相同数量的工作,包括翻译、改编、混音等等。在技​​术细节方面,Deepdub 并没有透露太多,或许可以作为 GitHub 上流行的 Mocking Bird 的参考。克隆任意一个中文语音只需五秒钟,然后用相同的音色合成其他语音内容,实现从语音到文字再到语音的过程。模型结构主要由Speaker encoder、Synthesizer和Vocoder组成。

其中,说话人编码器(绿色)负责提取说话人语音的特征向量并学习音色。然后进行传统的 TTS(Text-to-Speech)链接:将语音特征整合到合成器中的指定文本中(蓝色),使用 Mel 谱作为中间变量,将生成的语音谱传递给声码器(红色) . )。

最后,使用深度自回归模型 WaveNet 作为声码器,生成带有频谱的最终语音。不过,虽然 Deepdub 并没有透露他们的技术细节,但他们声称在该领域的学术研究中处于领先地位。这有一定的可信度,从他们的产品、他们获得的投资以及他们兄弟创始人的背景都可以看出:Nir Krakowski 拥有 25 年的专业研发经验,Ofir Krakowski 也曾在机器学习部门工作以色列空军的。服务…

人工智能配音追踪多场比赛

当然,Deepdub 并不是唯一看到这个市场的人,但在策略上也存在一些差异。Deepdub 走的是修改音频的道路,视频内容原封不动。他们打算用这一轮的资金来扩大团队的营销、研究和工程部门,并正在与好莱坞进行谈判。

英国公司 Papercup 对 Deepdub 采取了类似的做法,专注于音频,通过机器翻转重新部署原始演员的声音,使用合成声音,并保持视频完整。另一家公司 Flawless 也依赖配音演员提供音频,但会编辑视频中的面部和嘴形,使其看起来更像是在说目标语言。

和其他人一样,亚马逊等科技巨头也在做相关研究,但目前还没有产品出来。从这个角度来看,或许我们未来真的可以在视频行业打造一座“通天塔”,在网剧领域实现无障碍交流。或者,个别演员真的不需要背台词?

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论