搜狗AI语音合成再突破创新提出“StyleTTS端到端合成框架”

随着社会进步和科技创新的加速,“黑科技”的产业化应用不断加速,对人们生活的影响和改变也在不断加深。

近日,业界领先的搜狗AI语音合成再获突破,创新提出“StyleTTS端到端合成框架”,将语音合成技术更上一层楼。除了准确的信息传递,更注重个性化和情感表达,使合成的语音更具表现力和“真实感”。基于该技术的支持,搜狗与搜狐新闻客户端于5月推出同星“数字人”,实现了河南、湖南、四川、陕西、东北等方言无缝切换的能力。目前,该技术还为腾讯QQ浏览器的“小说AI听书”功能提供支持,帮助其实现听书看小说的全新升级。

搜狗语音AI行业领先语音数字编码技术思维导图,助力“聆听”更美好的世界

作为机器的“嘴”,语音合成已广泛应用于新闻播报、小说阅读、地图导航、人机交互等诸多场景。从2010年前的经典统计机方法,到以DNN/LSTM为代表的深度神经网络,再到Tacotron/FastSpeech/Durian等建模能力更强的端到端模型,结合神经声码器的突破,发展语音合成技术正在从“稳定易懂”迭代到“表达力和保真度更高,甚至可以媲美现实生活录音的水平”。

搜狗AI语音合成技术积累深厚。 2018年在暴雪挑战赛语音合成挑战赛中获得暂停和可理解两个子任务第一名。将源)实时转化为指定说话人的声音(目标)”,展示了搜狗在语音合成等领域的多项关键技术突破。此外,以新华社AI合成主播“辛小豪”为代表的搜狗数字人而自拍合成主播“雅妮”也升级为“七代”,这些AI数字人的声音真实性和表达力堪比真人,在多模态合成领域展现了行业领先地位。

在此基础上,搜狗提出了StyleTTS端到端合成框架,主要包括三个模块:Encoder文本特征编码、Prosody Extractor/Predictor韵律特征编码与建模、Decoder音色建模。节奏模型与(声)的音色模型重新组合匹配,可实现跨扬声器的风格控制合成,具有韵律节奏和丰富的三维情感表达。此外,模型中加入了说话人特征编码、语言特征编码等经典方法,进一步提高了建模能力。相比较而言,传统语音合成技术的重点是“信息的正确传递”,而搜狗AI语音合成技术不仅信息的正确传递,更注重个性化和情感共鸣,合成效果也有更高的度数自然性和认可度。同时还可以实现对语音转换风格、口音、情感等的灵活选择和控制,满足不同场景的需求。

图片[1]-搜狗AI语音合成再突破创新提出“StyleTTS端到端合成框架”-老王博客

(图:搜狗StyleTTS结构图)

以腾讯QQ浏览器“AI听书”的支持为例,不同于其他机器合成声音的机械发音,搜狗AI合成的声音节奏更清晰,情感更自然,能更好解放双眼,并且除了媲美真人的高保真音效外,还支持“方言语音”、“动画语音”等选择。在阅读过程中,用户还可以进行个性化操作,如根据场景和心情调整播放列表设置和语速。它可以提供更好的用户体验,帮助用户“听到”更美好的世界。

健全+产业建设,前瞻性“布局”未来生活

“语音+”市场爆发式增长,已进入千亿级市场。数据显示,在阅读领域,“看”并不是唯一的阅读方式,十分之二的人在听书;在有声领域,有声书实现了从贡献流量到商业变现的路径,正在向喜马拉雅发展。支持FM等主流音频平台或主流业务;在智能硬件领域,仅智能音箱未来五年销量将超过3亿台,超过PC规模……未来10年,“声音+”一体化产业规模将达万亿美元。

随着智能社会的到来,声音作为最自然、最便捷的人机交互方式,连接着互联网,连接着物联网,连接着中间的人工智能。它既是出口,也是入口。作为基础设施之一,语音合成孕育着巨大的蓝海市场。

在这方面,搜狗进行了前瞻性布局和产业化。在AI语音合成技术方面,围绕“自然交互+知识计算”的AI理念,搜狗不断加大对科技“护城河”的投入,不断积累领先优势;在创新平台方面语音数字编码技术思维导图,搜狗打造了“搜狗语音咖啡厅”、“搜狗AI开放平台”等,基于语音技术,提供语音识别、语音合成、语义理解、同声传译等人工智能服务;在产业落地方面,搜狗不仅积极推进与清华天工研究院、畅游等学术机构的合作。 、千龙网、雪儿思等商业机构,以及与黄子韬、梁宁等名人和意见领袖的合作,采用搜狗语音技术的搜狗AI合成主播也广泛应用于媒体、法律、金融等行业行业.

随着时代的发展和科技的进步,智能语音将越来越普及。得益于搜狗领先的人工智能技术和在语言语音领域的深厚积累,搜狗语音可以提供一整套科学、高效的“AI语音解决方案”,赋能人,帮助人们更好地“发声”,帮助各类机构更好地提供“声音服务”,从根本上推动“声音产业”和“人工智能”的发展,从这个意义上说,它的未来发展空间广阔。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论