
智能语音已成为人工智能分割领域的战场。12月11日,上海依图网络科技有限公司(以下简称依图科技)发布依图短语音听写算法(API),正式进入语音识别领域。依图科技首席创新官吕浩在发布会上表示,虽然语音识别已经在日常生活中应用到了一定规模,但相关技术的发展还很不足,在语音识别领域仍有巨大的发展空间。未来。
依图成立于2012年,其在人工智能领域的主要领域包括计算机视觉、自然语言理解、语音识别、人工智能芯片等。此前,这家“独角兽”公司最广为人知的成绩集中在人脸识别领域:今年6月,依图科技在人脸识别领域第二次赢得NIST竞赛。同期,依图科技先后获得高诚资本、工银国际、浦银国际、兴业国信资产管理等融资,融资总额达3亿美元。
近年来,围绕智能语音的竞争愈演愈烈。智能家电、智能交通、可穿戴设备等应用领域蓬勃发展,背后的支柱是基础语音识别API。在依图入局之前,不仅科大讯飞、云智声等专攻语音的科技公司,以BAT为代表的互联网巨头也纷纷入局,在国内语音识别API中推出了自己的API和硬件产品。
根据中国语音产业联盟日前发布的《2017-2018中国智能语音产业白皮书》,2014-2018年,中国智能语音产业规模从30亿元增长到1.59.7亿元,年均增长。比率接近 40%。市场仍保持垄断竞争格局,科大讯飞和百度分别以44.20%和27.80%占据前两位市场份额。
但在陆浩看来,目前技术下的语音识别效果还远未达到理想水平。这意味着,即使进入时间较晚,后发者也有望利用技术优势撬动市场。陆灏直言,目前各家厂商宣传其产品的识别准确率分别为97%和98%,但这个数据的来源不明。在实际使用中,主流的语音识别API只在特征场景下有效,而在电话通话、语音程序、远场等一些复杂场景下,现有产品的准确率大多不尽如人意。在人机交互方面,目前的技术仅限于一些基于规则的对话,“非常不智能”。
发布会上,依图科技科学家吴双发布了测试数据。测试将目前市场上主流的语音API应用到总时长约50小时、共60万字的数据集上,获取各个语音API在不同场景下的单词错误率。一般认为,语言识别转换成文本后,单词错误率在小于3%时不会影响可读性,超过15%则没有可读性。在本次测试中,依图语音API的单词错误率领先于所有同类产品,这种比较优势在复杂场景下更为显着。
具体来说,在识别难度较低的手机近场录音中,所有API单词错误率均在15%的安全线以下。在混响场景中,依图语音的词错率为4.9%,部分同类产品下降了15%。在远场语音场景中,只有依图语音和科大讯飞的误字率低于10%,其他产品均无法使用。综合计算所有场景下的表现,吴双得到的最终数据显示,依图语音的平均误词率为8.27%,在同类产品中排名第一。
“在所有开放平台中,在语音转录的同步接口中,我们的产品应该有信心在市场上得到更多的使用,体验应该非常好。” 陆灏在发布会上说。
值得注意的是,上述测试的公开数据集已由依图科技在互联网上发布,供用户下载和复制。同时声音识别算法源代码,依图还推出了一款名为“听写会议”的小程序,让用户直观地体验各种算法的水平差异。进入2006年世界杯足球解说黄健翔的解说后,只能看到依图语音识别的内容。
这种行为有“拆迁”之嫌。但在卢浩看来,行业的不透明是阻碍语音识别发展的重要原因。发布会上,陆昊直言,依图语音API从开发到诞生只用了一年左右的时间。开发过程并没有花很多力气,得到的结果让团队本身感到惊讶。从资源支持上看,科大讯飞等行业先行者深耕语音识别多年,而百度等互联网巨头在数据量上具有“不知道多少数量级”的优势。这些反差意味着当前蓬勃发展的语音识别市场技术水平还不够,未来还有巨大的提升空间。
“这个信息的发布,是为了让大家更加了解当前的形势,进而激励这个行业的从业者继续推动发展。” 陆昊说道。吴双为推动行业发展提出了三点建议:一是建立开放的API接口,让所有品牌的算法都可以被用户调用,让更多人评价算法性能。二是构建开放、多样化的测试数据集,支持算法开发。最后,公布语音识别平台间的可重复评估结果,科学推进解决方案的进展。
发布会上,依图还与微软Azure共同推出依图语音开放平台,并与华为发布“智能语音联合解决方案”,将依图领先的语音识别技术提供给广大第三方应用开发者,并联合推动行业进步。
依图预测,未来6到12个月,语音识别技术的算法性能将呈指数级增长,解锁更多场景,为行业应用带来更大价值。但从技术层面来说,语音识别只是语言智能的垫脚石。在将单词错误率降低到 3% 以下后,语义理解、语音合成、逻辑推理等问题等待着业界。在这些问题得到解决之前,设想中的能够聊天对话的智能扬声器将无法实现。
“我希望那一天能早一点到来声音识别算法源代码,但坦率地说,还有很长的路要走,”吴双说。
(本文来自澎湃新闻,更多原创资讯请下载“澎湃新闻”APP)
请登录后发表评论
注册
社交帐号登录