用系统性创新破局多语种技术难题智能语音语言技术难题(组图)

阿特拉斯

6月6日下午,全球人工智能技术大会期间,聚焦全球化和多语言化需求,聚焦语言互通在“一带一路”中的基础性作用,多语种智能信息处理专场,科大讯飞研究院执行院长刘聪发表了题为“用系统创新破解多语种智能语音与语言技术难题”的主题演讲。

以系统创新攻克多语种技术难题

据了解,目前,语音已成为万物互联时代人机交互的关键切入点,语音输入、语音搜索、语音交互等技术已成为手机等智能产品的标配。电话、车辆和玩具。另一方面,“一带一路”建设依赖语言互通,多语种翻译技术价值凸显。此外,多语言语音和语言技术还涉及国家信息安全等重大方向,已成为世界各国争相布局的关键技术方向。

因此,从社会刚需、国家战略、信息安全等方面,部署多语种语音和语言技术显得尤为重要。

刘聪表示,未来十年,我们将围绕语音交互、语言翻译等刚需,进行多语种语音识别、语音合成、机器翻译、图文识别等智能语音语言技术的系统布局。应用场景,涵盖“一带一路”等领域。《一路走来》和包括世界主要国家在内的70多种语言。

“我们很清楚,要把70多种语言的智能语音语言技术做到实用化并不容易,所以我们计划在十年内解决这个问题。”

针对未来十年的布局,刘聪总结了多语言技术研发面临的三大挑战:

一是不同语言的用户分布存在明显的长尾效应,小语种语言分析研究的积累和投入不足。不同语言特有的语言现象非常复杂通讯录系统 c语言,相关知识的综合积累和知识与技术的融合存在困难;

二是多语言训练数据稀缺,制作难度和成本都比较高,难以支撑大量语言系统的研发;

第三,语音合成、图文识别、语音识别、机器翻译等多语种技术涉及70种语言、云和本地引擎,需要在不同领域开发和部署数百个系统。许多系统很难批量构建。同时,目前基于级联的语音翻译和图像翻译也存在误差扩散的问题。

刘聪认为:“多语言技术的全面推进,包括技术创新和应用落地,不能单靠单点技术创新,迫切需要通过系统创新来破局。”

图片[1]-用系统性创新破局多语种技术难题智能语音语言技术难题(组图)-老王博客

从数据、算法和平台的角度构建多语言技术的系统创新研发体系

什么是系统创新?科大讯飞总结了三个关键要素:一是关键核心技术效应要跨越技术鸿沟,达到应用门槛;深度融合创新链中的各项关键技术,激发创新能力;系统地对重大历史命题和社会命题进行解析,并将其转化为科学问题。

在单点技术突破方面,从2006年研发的汉语口语评测机,分数超过专业评测员的平均水平,到2015年研发的机器的中文语音转录准确率超过人类速记员水平,智能医疗辅助机器人通过国家实践。医师资格考试综合笔试、中英文注音翻译均达到CATTI全国翻译职业资格(等级)考试二级资格标准……科大讯飞不断突破单点技术。

在创新链关键技术的深度融合方面,基于对核心技术的深刻理解,可以进行多方向的技术协同创新。以刘聪为例,2016年科大讯飞基于语音谱图和图像的相似性,成功地将卷积神经网络应用于语音识别,提出了DFCNN建模技术,并将其扩展到图像和文本识别任务,并取得了很好的效果。推动。

“对于多语种智能语音和语言技术的研发和产业化,由于涉及语言数量多、技术实现复杂通讯录系统 c语言,我们将作为系统工程推进。” 刘聪说。

他从数据、算法、平台三个维度分享了科大讯飞在多语种智能语音和语言技术系统创新方面的思考和实践。在数据方面,科大讯飞开发了基于人机协作的多语言数据标注平台;算法方面,侧重于多语言端到端统一建模框架、无监督/弱监督训练和语音/图像翻译。协同任务优化等方向研究;在研发培训效率优化方面,搭建了多语种模型自动培训和定制优化平台,推动多语种系统的批量研发,解决耗时耗力的问题。

“在系统创新的基础上,我们完成了一整套多语种语音和语言系统的开发,包括60种语言的语音合成、69种语言的语音识别、56种语言的图像和文本识别、168种语言和中文. 机器翻译。” 刘聪指出,目前科大讯飞开放平台已经上线部分语言,对外提供服务。

用系统创新推动多场景广泛落地

得益于系统性创新,科大讯飞的多语种智能语音和语言技术初步实现了在语音交互、语言翻译等场景的规模化应用。

在多语言交互方面,科大讯飞与俄罗斯汽车工程研究院(NAMI)、奇瑞等国内外厂商开展了多语言合作。目前已覆盖英语、俄语、日语、泰语、西班牙语、意大利语等主要语言。.

在多语种翻译方面,2016年科大讯飞发布的科大讯飞翻译机开创了人工智能翻译机的新品类。今年5月,推出双屏翻译机,继续引领智能翻译硬件潮流。讯飞听说,同声传译产品广泛应用于大型会议、新闻发布会、展览等场景,已服务会议1万余场,服务人数超过3亿人次。科大讯飞还成为北京2022年冬奥会和冬残奥会官方语音自动转换和翻译的独家供应商,助力打造人类历史上第一场信息无障碍的奥运会。

此外,为赋能海外开发者,依托智能语音国家新一代人工智能开放创新平台,科大讯飞于2020年4月在新加坡部署海外站点,为海外开发者提供多语种语音识别、语音合成、机器翻译等服务。 . 、图像识别和语音评测等能力,海外开发者数量已突破7万。

刘聪指出,虽然我们在多语言技术研发和产业应用方面取得了初步成果,但我们也应该清醒地认识到,目前大量低资源语言的技术水平还远远落后于汉语和英语和其他资源丰富的语言。依托国家科技部“科技冬奥会”、“科技创新2030”等重点研发计划,科大讯飞现已联合理科大学等国内多家科研单位中国科技大学、哈尔滨工业大学、新疆大学、上海外国语大学等,并形成了多元化的多语种产品。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论