
麻省理工学院官网近日报道称,麻省理工学院计算机科学与人工智能实验室开发了一种新的语音识别系统,比上一代语音识别系统准确率提高了 15%。
近年来声音识别算法源代码,人工智能系统在语音和图像识别领域有比较成熟的算法,但在嘈杂环境中识别声音的能力相对较弱。这一次,研究人员利用视觉和声音的自然同步,将大量视频信息导入原始数据库,并结合新算法对声音识别系统进行测试。该系统在 10 种不同的语音测试中实现了 92% 的准确率,在 50 种语音测试中实现了 74% 的准确率,而人类在相同的样本测试中的准确率分别为 96% 和 81%。未来,该系统将改善用户在户外使用语音识别的体验。
研究人员表示,该系统具有巨大的应用潜力。例如,无人驾驶汽车系统搭载语音识别技术后,当听到救护车的声音时,无人驾驶汽车可以更早地选择新的路线计划。另外,在手机安装系统后,用户去电影院后,系统通过周围的声音环境判断电影是否开始放映,并自动切换到静音模式。语音识别系统将在本周的神经信息处理系统国际会议 (NIPS) 上展示。
作为人工智能最重要的技术之一,国外语音识别技术的准确率基本达到了人类的水平。微软最新语音识别系统的识别错误率仅为5.9%声音识别算法源代码,与专业速记员将对话转录成文本的最低错误率一致。而微软在一年前还开源了语音识别系统的深度学习算法,通过这个算法让其他人工智能产品也拥有了语音识别技术。海外市场研究机构预测,未来几年全球语音识别市场规模有望突破100亿美元。
国内的语音识别技术也在快速发展。11月底,搜狗和百度分别召开发布会,称其语音识别系统准确率已达到97%左右,多款智能语音产品支持不同地区的方言识别。《2016互联网趋势报告》显示,近年来,用户对语音搜索的使用显着增加。使用语音的本质是解放双手。目前,全球语音识别系统还存在场景识别率低等问题。随着场景声音识别技术的加速和完善,语音识别技术有望迎来拐点,未来发展空间将进一步扩大。
请登录后发表评论
注册
社交帐号登录