本文阅读AI技术需要突破以下两个难点,揭秘AI语音合成

如何打磨出如此惊人的效果?在此期间经历了怎样的思考和选择,本文将为大家揭秘这项技术的诞生和演进过程。

解决“两难”,选择“情感配音”技术

番茄免费小说是国内最活跃的免费小说移动阅读平台之一,致力于打造网络文学多元化发展的产品矩阵。随着5G和智能设备的普及,声音内容的消费场景不断扩大,“听书”功能将成为阅读APP拓展使用场景的利器。AI语音合成技术可以降低音频内容的时间和资金成本,但在小说阅读场景中,常规机器合成语音的“机械”听感难以提升文字的生动感和感染力,用户难以创造身临其境的体验。沉浸在环境中。

AI能否进行情感配音,通过情感解读小说的文字,展现小说中人物的性格特征和情感变化?

面对不同的剧情(比如霸道总裁狂笑时),角色能否做出哭笑不得的“高强度”情感演绎?

AI能否像配音演员一样理解文字,支持商业规模生产的需求?

面对来自业务的“灵魂三问”,字节跳动人工智能实验室语音合成负责人表示,音频朗读AI技术需要突破以下两个难点:

“AI合成音色贴近真人”:训练AI音色具备情感能力和多种副词(笑、哭、问、感叹、情态助词)表达能力,实现更精彩的演绎;“自动精准的AI文本理解:通过文本理解,自动区分旁白和对话,自动判断情绪、重音、句间停顿时间;

对于AI阅读场景,目前业界还没有完整的技术解决方案,甚至相关学术论文也不多。

为解决“两难”,字节跳动AI Lab SA团队将技术路线定为:通过语音合成技术(TTS)积累大量AI声音矩阵,制作具有丰富情感演绎效果的单播有声读物,涵盖西红柿各种主题,攻克难点“1”。同时,通过自然语言理解技术(NLP)实现自动文本语义理解,识别不同字符的情绪、重音和停顿表达,攻克难点“2”。

下面将以番茄免费小说为例,从“情感表达”、“副语言”、“文本理解”三个维度,展示字节SA团队如何打造出质量堪比付费广播剧的AI阅读效果。

“会说话”和“会演”输入关键词生成一段话的软件,AI主播为番茄小说《听书》注入情感

为了让AI配音更像真人,能够理解剧本中的关键词和情感,字节跳动AI Lab SA团队在发音清晰的基础上,开发了一种基于半监督学习的端到端风格,连贯的节奏和起伏的语调。控制声学模型(Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervised Training in Text-To-Speech,PF Wu等,提交给ICASSP 2022),使得AI模型不只有 “speakable”) 和 “will act”。

图片[1]-本文阅读AI技术需要突破以下两个难点,揭秘AI语音合成-老王博客

字节跳动AI Lab SA团队相关负责人介绍,他们将根据Plutchik的情绪之轮设计情绪类型,可以提供快乐、悲伤、惊喜、恐惧等多种情绪色彩。迁移的方式让扬声器没有情绪的人可以获得多情绪综合效果。

与传统技术相比,上述新技术对录制的语音库的限制更少,可以让说话者在更大范围内自由发挥。同时特别添加了一些情感脚本,可以更好地采集情感语音,帮助声学模型使用半监督学习全局风格令牌(GST)对情感表示进行建模,实现说话人音色和情感的解耦。

能“哭”“笑”,7种笑模表达爱意

但仅仅实现情感表达还远远不够。通过与真人主播的详细对比分析,字节跳动SA团队发现,人类语言通过语音传递情感,因此“副语言”是口语表达中不可或缺的重要因素。“副语言”又称“准语言”,是指伴随语音的某些声音现象,包括停顿、重音、语速、语调等语音特征,以及笑声等语音的功能性发声。因此,团队对“副语言”现象进行了精细化建模和还原,实现了常见的口音停顿、提问和反问、笑和哭,以及有声读物中常见的各种叹息和喊叫。值得一提的是,在每一种“副语”现象中,字节跳动AI Lab SA团队都进行了非常细致的建模。单是笑声就有5~7种之多,适合不同的场合。下面有不同的语义表达。

此外,针对小说场景,字节跳动AI Lab SA团队还对风格适应、情感延续、情感分化、段落疲劳等进行了更细分的评测,确保合成效果足够贴近真人,并具有真实感。浸没。

突破新颖理解技术,AI文本理解效率远超人工

对于有声小说来说,在声学层面实现高表现力的合成是远远不够的。如何实现对小说文本的语义理解并自动制作剧本,是真人朗读和量产的关键。

在制作高质量的AI有声读物时,往往需要人工识别小说的文本:将对话和旁白的文本分开,识别每个人物的台词和要表达的情感。这个过程往往非常耗时耗力,导致无法大规模生产高质量的人工智能有声读物。

针对这一痛点,字节跳动AI Lab SA团队提出了“AI文本理解”模型——多任务长文本理解AI系统(A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels, JJ Pan等,ICASSP 2021)。

“AI文本理解”可以自动区分对话的人物和小说文本,识别对话中想要表达的情绪,通过学习上万篇小说预测句子之间的合理停顿,大大提高了高品质AI有声书的生产效率,让标注人力不再是AI有声书生产的瓶颈。

关于字节跳动人工智能实验室智能语音和音频团队

字节跳动AI Lab AI-Lab语音音频团队致力于为公司各项业务提供音频理解、音频合成、对话交互、音乐检索、智能教学等多种AI能力和解决方案。自2017年成立以来,团队专注于研发行业领先的AI智能语音技术,不断探索AI与业务场景的结合,以实现更大的用户价值。我们为今日头条、抖音、简影、西瓜视频、番茄小说、飞书办公套件、达理智教台灯等字节跳动明星级产品提供了多种AI解决方案。截至目前,已服务数百家商业伙伴。随着字节跳动业务的快速发展,我们的语音识别和语音合成涵盖多种语言和方言。未来输入关键词生成一段话的软件,我们希望开发70+语言和20+方言,满足内容创作和传播平台的需求。团队有 15 篇论文入选顶级 AI 会议,其中 7 篇论文被音频生成录用。

团队招募信息:

团队面试内容:

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论