
在人工智能技术的探索中,语音语义识别技术一直发挥着先锋作用,无论是技术探索还是商业落地都走在前列。近两年,随着深度学习技术的进一步发展,其识别准确率有了很大提高。极大地推动了教育、客服、电信等传统行业的产业升级,在汽车、家居、医疗、智能硬件等领域开辟了新的商业应用探索实践。
语音语义技术发展到什么阶段?NLP技术在企业的日常业务中可以发挥什么作用?日活跃用户过亿的微信终端有哪些应用案例?在腾讯云海量客户的背景下,它给企业带来了怎样的应用?帮助?9 月 13 日,TVP AI 技术闭门演讲与语义专题邀请行业领袖为行业寻找更多解题思路。
微信语音识别理论与实践
在语音识别技术落地的过程中,微信是被探索得比较深的代表。今天的微信不仅可以非常方便地将语音转换为文本,甚至可以识别语音中包含的情绪,并在转换后的文本中用适当的表情符号表达情绪。
微信智领语音技术负责人陆力先生向与会人员介绍了语音识别技术的发展历程。他说,如果我们想更客观地判断一项技术的现在和未来,有必要回顾一下它的发展过程。
语音识别发展史回顾
语音识别技术的研究早在 1960 年代就开始了。传统的语音识别使用混合框架。该系统具有明显的层次结构,包括声学模型、词典和语言模型三部分。对于传统的Hybrid系统来说,声学模型是一个非常重要的部分,后续的技术也对声学模型进行了很多改进。
2009年后,语音识别技术迎来了重大发展。业内主流观点认为,这是因为语音识别技术已经赶上了深度学习的快速发展。陆莉老师说,这是重要的原因之一,但不是唯一的原因。在这个过程中,GPU等硬件设施的发展提供了基础,而互联网特别是移动互联网的快速发展带来了更多的场景,使得语音识别技术从实验室走向广阔的民用市场。
在语音识别技术的发展过程中,陆力先生专注于DNN、TDNN、LSTM和Transformer模型的开发和性能的提升。从 2014 年开始,一些科学家开始尝试 Hybrid 系统之外的端到端系统。与前者相比,系统输入语音,输出文本。
“语音识别技术领域没有完美的系统。Hybrid系统使用灵活,但整体拟合能力不如端到端系统;端到端的整体建模能力端系统数据强,但灵活性不如Hybrid系统。”
微信智能听力平台
“微信智领平台从2011年底开始,直到2017年才给自己命名,当时觉得效果不好,用户想投诉的时候也没有具体的对象。” 陆立先生开玩笑地介绍了腾讯自主研发的语音技术平台微信智领平台的发展历程,迄今已在C端、B端、G端等各个领域推出了近百款产品,拥有日请求量超过30亿。在独立第三方机构 SpeechIO 的测试报告中名列前茅。
微信智领平台是目前大规模提供服务的厂商中最好的之一。陆立先生介绍了微信智领平台在性能提升方面所做的一些工作。
第一个是 TLCBLSTM 网络。LSTM网络结构主要有两种形式,一种是单向的,另一种是双向的。总的来说,双向 LSTM 的性能比单向高 10% 左右,但双向 LSTM 有不能用于流式场景的限制。TLCBLSTM 是一种解决方案,可以在流式传输场景中使用 LSTM,同时保持双向 10% 的性能优势。
除了 LSTM,微信智领平台还实现了 Transformer 的网络结构。目前,该系统的开发正在进行中。陆力先生指出,这种Transformer结构可以有效地利用运算的并行性,并且可以无损地应用到流式系统中。
除了网络结构的改进,语音识别的另一个重要问题是鲁棒性。影响鲁棒性的因素一般包括录音设备、环境影响和原始录音的信号处理。为此,微信智领平台利用SpecAgument技术强制网络学习此类不良数据,增强网络适应能力。此外,还收集了数百种不同的噪声和房间混响,添加到原始信号中以模拟不同的场景,通过混合频段训练增强语音识别的鲁棒性。
最后,在系统层面,智领平台也做了Hybrid和端到端的系统架构,同时在实验室场景下针对两者的互补性做了一些相关的测试,如图下图。
面向应用
练好模型,造好系统,只是万里长征的第一步。陆立先生以智领平台为例,分享了他认为在实际应用中需要考虑的几点。
首先,考虑语音识别的前端。不同的场景对体验的要求不同,前端的配置和要求也不同,也可能造成识别丢失。
第二,在线学习的难度。一般的语音识别器无法覆盖所有场景,上千万句和关键词的在线学习对算法也有很高的要求。
三是方言识别难。中国方言种类繁多,某一方言的子类互不兼容。用户需要什么方言识别仍然是个问题。
分享结束后,陆力老师在QA环节和观众讨论区对用户关心的技术和细节问题做了详细的解答,限于篇幅,这里不再赘述。
腾讯云AI语音语义助力企业发展
腾讯云AI语音语义与应用平台产品中心总经理周超向与会人员汇报了腾讯云在AI落地过程中的实践和思考。他表示,腾讯云未来将在各行业深度为行业提供全AI能力的解决方案。
企业 AI 需要库存
根据目前业界对企业AI能力需求的调查报告显示,计算机视觉是目前最受关注的企业AI能力,其次是智能语音技术和自然语言处理技术。在对人工智能技术发展趋势进行分类时,从技术触发期、预期膨胀期、泡沫破灭期、启蒙攀登期、高原期的曲线可以清晰地看出各项人工智能技术的发展位置。
企业选择部署人工智能的三个主要原因是降低成本、提高效率和创新业务。根据IDC《2019中国人工智能白皮书》,目前,采用AI后能够提升业务绩效的企业比例并不高,AI实施企业的效果还有较大提升空间。
今年以来,疫情的影响推动了人工智能的应用,腾讯云在疫情期间广泛用于协助抗击疫情的人工智能能力,让人们看到了人工智能的力量。在此期间,企业业务受到较大影响,线上化、数字化趋势加速。后疫情时代,以降本增效为目的,线上线下结合的实践也将带来更多的AI能力。要求。同时,人工智能作为国家新基建战略七大领域的重要组成部分,为企业应用人工智能带来了更大的想象空间。
腾讯云将企业部署AI面临的困难总结为两大挑战和三大难题:碎片化和场景化的挑战;行业知识门槛、行业数据转化为AI语料的挑战、业务转型的成本。在此背景下,腾讯云希望为客户提供效果好、门槛低、场景化/个性化能力强的AI能力,助力企业发展。
腾讯云AI产品
目前腾讯云AI语音语义产品架构从基础层到产品解决方案层分为四个部分:产品运营平台、基础模型服务、应用Paas服务和应用产品解决方案。在每个产品方向,腾讯云AI都提供了详细的AI能力。企业可以根据自己的业务场景选择不同层次的产品,如基础模型服务、应用PaaS服务、应用产品解决方案,减少企业AI能力的影响。临界点。
在落地企业客户的过程中,腾讯云观察到客户的需求非常全面。除了使用语音和语义能力外,还会使用其他相关能力进行组合。腾讯云也提出了一套完整的AI能力解决方案。底层将结合人脸、车辆、物体识别、图像AI识别、OCR、生物分析、NLP等所有AI能力,基于Ti Matrix云智天数AI应用。平台深入各行业,为泛政务民生、泛金融、工业、智慧零售、广电传媒、运营商等领域打造人工智能解决方案。
周超老师以协同办公场景为例,介绍了腾讯云基于实时语音和图像处理的在线实时多人音视频会议案例。会议纪要是会议的硬性要求,便于人们保存文件和回顾、总结重要的会议内容。随着深度学习的出现,语音识别技术越来越成熟,会议记录的组织已经被人工记录语音识别的自动转录所取代,这种人工记录是极其耗费人力的。腾讯云语音语义AI提供语音识别、自然语言处理技术,以及说话人分离,
除了协同办公场景,腾讯云的AI能力在泛娱乐、政务民生、金融、呼叫中心等多个场景都有非常具有代表性的案例。周超老师表示,腾讯云将继续深入各个行业,输出场景化的解决方案,同时提供完整的AI基础能力输出,满足客户二次开发定制的需求。
“腾讯云AI希望与合作伙伴建立共赢的AI生态,在产品合作生态方面共同探索、共同发展,在市场共赢生态方面聚集更多战略合作伙伴、渠道共享合作伙伴、认证合作伙伴共同构建人工智能新生态,加速人工智能落地,解决碎片化和场景化问题。”
针对用户的提问,小公司缺乏AI技术人才,但AI能力却是刚需。腾讯云如何帮助解决这个问题,周超老师也非常详细地回答了这个问题。他表示,无论是底层AI能力的开放,还是解决方案,所有需求都可以通过腾讯云的AI产品解决,非常欢迎用户试用。
腾讯云NLP能力在法律领域的应用实践
法学院合同智能负责人刘谦带来了腾讯云AI能力在法律场景中的应用实践,这也是腾讯云与客户共建AI产品的一个非常典型的代表案例。
法律行业现状与痛点
刘谦先生向与会人员介绍了法务人员的日常工作。在这种场景下,从业人员的工作一般分为五类:合同、合规、咨询、部门需求和争议解决。其中,合约占比最大,普遍达到日线水平。大约70%的工作。
刘谦先生将合同审核的痛点总结为以下几类:
合同审核工作量大,响应时间长;
日常合同审核内容重复,效率低;
合同审查标准不统一,容易出错;
内部控制制度执行难度大,风险大;
交易对手风险难以评估和控制。
合同审查的痛点根源于法律行业长期以来以人性化服务为基础的传统模式。从源头上看,法务部是职能部门而不是销售部门,人少与人多。部门有限的人力预算需要解决不断增长的法律风控需求。从流程上看,需要人工处理大量的合同文本,业务需要排队等候,工作量大且重复性高,效率低。从结果来看,反应滞后。一方面,公司业务快速发展变化;
在这样的行业现状和痛点下,发达选择与腾讯云合作,共同开发AI产品,提供客户价值。
打造联合人工智能产品
合同审查领域的人工智能早在 2016 年就被很多人津津乐道,但近 5 年在国内还没有出现过特别好的产品范例。要么是底层能力欠缺,要么是对行业的了解不够,而在技术层面,还有三个核心问题亟待解决。
首先是数据样本非常有限。最高人民法院司法文书自2013年上线以来声音识别算法源代码,先后发布了1亿多份司法文书。看起来样本量很大,但细分为刑法、民法等大类及其子类后,每个类的平均数量可能只有几千甚至几百。这只能算作AI训练集中的一小部分样本。
二是合同样本差异很大。对于合约数据,由于行业、业务类型、每个客户的不同特点,甚至一些客户有意或无意的不规范操作,每个类型的合约和不同场景之间的差异是非常大的。
最后,法律审计要求非常准确。准确识别只是前提。召回率和准确率都必须同时达到高标准,否则会有很多风控漏洞。
发达选择与腾讯云合作,在底层使用腾讯云AI技术支持,加上发达自身在法律行业的多年积累,通过将优图实验室、腾讯云AI语义算法团队和发达开发团队连接在一起,精诚合作,我们终于打造出了这样一款解决法律场景燃眉之急的AI产品。具体合作方式如下:
该产品目前可以满足三层合同审查要求。最终目标是基于业务场景、系统流程和法律知识,为参与合同全生命周期的各个角色提供7×24的智能法律合同审查支持。
“目前,在实际使用中,平均可以帮助客户提升85%的效率,合同审核流程已经从之前的一个小时计算到了六七分钟。一些普通常见的合同审核不再需要法律人支持,业务人员可以自己完成审核,客户满意度相当高。”
分享的最后,刘谦老师也对评论区讨论的问题进行了精彩的解答。限于篇幅,这里不再赘述。
圆桌讨论:AI产业落地难与难
鲍杰:人工智能经历了很多高潮和低谷。我最早接触人工智能是在 1998 年,当时是为了医学影像的应用。后来,我在法律事务、国防等领域也有经验。可以说,我一直涉足人工智能的四大传统领域:医疗、法务、政府、金融。就个人而言,我目前在做金融方向的AI应用,我非常看好金融领域。人工智能各个方向其实都有一些共同的特点。核心是三个方面:一是数据要有边界,二是业务要有边界,三是错误是否会导致不可逆转的后果。. 所以,在人工智能落地的方向,也可以根据这些维度进行检测。在我看来,L5级别的自动驾驶并不是一个值得追求的方向,因为它没有三大要素。但在金融、医疗、工业、政务等领域,值得探索。我个人认为,任何与流程自动化相关的工作,其实都是一个值得探索的方向。这是我的考虑。我个人认为,任何与流程自动化相关的工作,其实都是一个值得探索的方向。这是我的考虑。我个人认为,任何与流程自动化相关的工作,其实都是一个值得探索的方向。这是我的考虑。
许增林:学术界对人工智能的关注可能与工业界不同。我们关心的技术可能暂时还不能实现,但是它们具有很大的研究价值,比如认知启发神经网络和量子启发神经网络是解决当前深度学习对大数据的依赖的重要途径。数据和海量计算资源。我同意鲍杰老师关于AI边界的观点,AI确实需要专注于赛道和场景。在技术层面,由于现在是基于5G和互联网基础设施(包括边缘计算和云计算),再加上人工智能+增强现实算法的结合,技术上可能会有一定的突破。如果我预测未来一个AI爆品领域,我个人认为可能会出现在医疗健康领域。未来AI会越来越懂医生,医生也会逐渐变成AI。
周超:腾讯云AI帮助各类企业做生意。首先关注的是,人工智能可以帮助企业在进入市场后降低成本。第二个担忧是AI的替代可以提高企业的效率。第三,换人本身就具有创新性。. 从这个原理来看,腾讯云的AI已经在医疗、教育、政务、文旅、金融、能源等多个行业深度落地。腾讯云提供的所有人工智能解决方案都可以应用和实施,以改善行业和企业的业务流程。在这个过程中,腾讯云不会面面俱到,而是通过提供开放的基础能力,与合作伙伴深度共建,共同探索。
陆立:我个人认为语音识别技术还远远不够成熟,单看准确率目前意义不大。这背后的逻辑其实有两个原因。一是不能覆盖所有场景,二是不能覆盖所有人。在使用场景、用户群体、地区口音和方言等因素的综合影响下,语音识别技术还有很长的路要走。我们未来努力的方向是覆盖更多的场景和更多的人,让更多的场景和更多的人可以轻松使用语音识别技术来提高效率。
刘谦:在AI产品落地的过程中,发达首先考虑的是围绕合同进行产品规划。在了解了这个产品的逻辑和实际痛点之后,我展开它,发现用户的需求是不断变化的,从简单的电子合同签订到管理诉求到分析诉求,这反过来又给我们带来了收益产品开发规划,因为我们找到了真正的客户价值。与腾讯云的合作,给了我们非常强大的模型调优能力和数据处理的准确性,大大提升了产品效果,客户也非常信任。这是法律、商业和公司的双赢局面。
在圆桌讨论环节,多位嘉宾还就人工智能创业方向的选择、学术研究方向等话题进行了精彩的讨论。本次闭门会议的主持人腾讯云AI语音语义与应用平台产品中心专家产品经理王田也对未来AI落地趋势给出了判断:
结语
人工智能60年来一直在寻找价值,必须从实践中去追求。
本次由TVP组织的AI技术闭门会议,聚焦计算机视觉和AI语音语义两大热门技术趋势。只是用尽了AI技术跨越概念鸿沟落地的可能性。
在这场技术交流与商业思维碰撞的盛宴上,我们看到了计算机视觉的新应用,看到了AI语音语义的发展,看到了从灵感到产品落地的创业故事,看到了技术的永恒奋斗。不屈不挠的探索精神。
时代赋予技术一个风口,商业赋予技术一个舞台,开发者赋予技术无限可能。
TVP技术闭门会议
TVP,即腾讯云Valuable Professional声音识别算法源代码,是腾讯云授予云计算领域技术专家的奖项。TVP计划致力于打造与行业技术专家的交流平台,构建云计算技术生态系统,实现“用科技影响世界”的美好愿景。
TVP技术闭门会议是TVP专属的技术闭门研讨会。旨在为TVP提供一个开放、平等、无所不知的交流环境,就热点技术、前沿技术、技术管理等话题展开讨论。深入讨论。
请登录后发表评论
注册
社交帐号登录