语音语义技术牛?微软小冰属于聊天机器人,你知道吗?

从 1945 年到 2015 年,关于人工智能的话题讲述了许多美丽的故事,模仿游戏就是其中之一。但春暖花开,在人工智能的世界里,人们的幻想就像一个小球,高高抛起,注定会落得惨不忍睹(1974年和1987年的两个人工智能冬天)。

这一次,人工智能的幻想被抛得更高。经常有人认为,强大的人工智能和机器会摧毁人类。但这更像是先知的陈述,更像是一种阴谋论。现在的人工智能还是基于逻辑和数据,没有直觉,谈不上对情绪的理解和创造力。

当球被高高抛起时,它必然会落得惨不忍睹,甚至粉碎。不过工程人员比较谨慎,想在这个球上系一根绳子。这条绳索是“从实际应用出发,从用户的角度出发”。

语音语义的现状可以大致描述人工智能在工程界的应用。拥有独立语音和语义技术并可以在中国使用其服务的几家公司包括:出门问问、科大讯飞、云之声、SPIQI、百度(杜米)、腾讯(腾讯小鲸)和谷歌(Google Now)、微软(XiaoIce、Cortana) , 苹果 (Siri)。

哪种语音语义技术最好?

微软小冰是一款专注于人机对话的聊天机器人,每周例行解锁一款玩法。但是微软小冰不能提供太多实质性的服务,比如查询机票、查询火车票、叫车,但是可以通过询问来完成。

如何客观评价技术的优劣?在这个信息交流特别频繁的时代,使用的人工智能算法大多来自学术界的公开成果,一个公司很难拥有不属于这个时代的技术。从语音识别来看,各个公司的识别率大多在90%以上(这个问题其实比较复杂,比如方言识别率、生僻词识别率等等,说法比较多)。当一家公司的技术只比别人好5%或1%时声音识别算法源代码,用户很难感受到优劣,技术应用的场景成为重要的区别。

人工智能语音语义系统的基本实现方法

这些公司的语音和语义技术都离不开“云”。人工智能系统根据一套逻辑推理程序,在海量数据中寻找最正确的答案。这意味着,正在使用的 AI 系统覆盖的区域越广,对数据和计算能力的渴求就越大。手机、家用电脑等小型离线设备无法满足此类需求。解决的办法就是搭建一个拥有超强处理能力和海量数据的“计算机集群”,并连接到网络上,也就是我们所说的“云”。构建AI语音语义系统的云就是AI语音语义云,就是这些AI公司的基础设施。

智能云搭建完成后,还需要一个合适的语音输入端口。这个端口可以来自公众号、APP等软件,也可以来自音箱、可穿戴智能手表等硬件。

如何正确看待市面上知名的语音语义系统?

虽然人工智能系统的概念很宽泛,但语音语义的概念还是很宽泛的,所以这么多相似但不同的人工智能公司都在不同的方向深耕。从用户的角度来看,这些产品是完全不同的。

擅长搜索和查询新闻的个人助理包括腾讯小京和出去问问

1、腾讯小鲸目前披露的信息较少,主要嵌入在TOS系统中。与 TICwear 类似,TOS 系统搭载在智能手表中。不过小鲸鱼的功能和其他语音助手差不多。可以设置闹钟和查询信息,但不能直接叫车,也不能像出去问一样点咖啡。

资料显示,曾在 GoogleBrain 工作过的工程师创办了一家名为 ScaledInference 的公司。该公司的种子轮投资者包括腾讯首席探索官大卫沃勒斯坦和腾讯本身。此外,据悉,腾讯并未停止其他视觉识别产品的研发。

这有点像当年的微信研发。

2、出去问问主要做2C(面向消费者)硬件产品,其智能手表TIcwatch是一款全交互智能手表,在国内销量很高。出门问问的人工智能语言交互技术自成体系,包括语音识别、语音合成(TTS)、语义理解、垂直搜索、智能推送五个部分。它最大的特点是可以通过语音呼叫本地化的生活服务。通过手机APP或手表即可实现导航、看新闻、查询天气等。

近日,出门问问推出了“魔问”内测版,旨在提升人工智能从查询信息——比如“今天有什么电影”——到提供完整的服务,比如直接帮助用户预订电影票。这是其他智能系统无法做到的。

擅长连续对话的“聊天机器人”包括图灵机器人和杜比

3、图灵机器人主要从事2B业务。它的语音语义系统与小冰非常相似,是一个持续对话的机器人。图灵可以嵌入到微信公众号、APP、网站或智能硬件中。用户可以让它讲笑话,玩游戏,并用它来查看快递和新闻。近日,图灵机器人接受了奥飞动漫的投资,走上了智能儿童玩具的道路。

4、度米是百度推出的类似小冰的连续对话机器人。此外,用户可以边说话边查询“谁是图灵”等信息——这是借助百度搜索引擎。近日,百度推出了嵌入“度蜜”的实体机器人“小度”。

还有一类人工智能系统,既不是助手也不是聊天机器人,而是用于智能语音交互解决方案。

5、科大讯飞“讯飞语音云”包括语音合成、语音识别与搜索、语音听写等技术。云对方言和生僻词的语音识别率很高。科大讯飞语音输入法就是基于这个云开发的。科大讯飞“主要”做的是2B(面向企业用户)服务,将自己的人工智能服务授权给其他企业。

此外,科大讯飞近年来也开始开发2C(面向消费者)产品,如智能音箱、录音笔、录音笔等硬件。可以看出,科大讯飞的大部分产品都是智能传统产品,而不是个人助理或聊天机器人。此外,科大讯飞更喜欢专注于“语音识别”,而不是持续对话。

6、云智盛主要从事2B业务,方向是智能家居和车载市场。这里有一个类似于“走出去”的“软硬融合”概念。

与“可穿戴设备、手机和电脑上的智能语音语义系统”不同,智能家居语音系统的声源可能很远,周围有噪音。也正因如此,云之声将推广的重点放在“声源识别、噪声抑制、回声消除”和指令的识别上,而不是对用户意图的理解(语义理解)。

值得一提的是,当京东与科大讯飞宣布“合作”时,阿里巴巴与云智升达成合作。不过,最近一直没有相关消息。

7、Speech 和云智声在方向上颇为相似,为企业客户提供智能硬件语音交互解决方案,例如通过语音控制智能硬件的切换。Spirit在车载领域的合作比较多,比如车萝卜。近日,Spirit宣布完成融资声音识别算法源代码,将在“将智能语音融入硬件”的道路上更进一步。

8、XiaoIce、Cortana、Siri 和 Google Now

Cortana、Siri 和 Google Now 都是聊天机器人和个人助理。

微软小冰和微软 Cortana 都是基于 Bing 搜索和深度神经网络技术的 2C 产品。Microsoft Cortana 现在可在 iOS、Android 和 Window 10 系统上使用。她更像是一个秘书,可以打电话、发短信、发邮件,还可以查看曼联上一场比赛的比分。不过微软小娜在国产手机中的功能要少得多,语音响应也很慢。

微软小冰作为对话系统驻留在微信、微博等应用或Windows 10系统中,还可以查询各种信息。与小娜不同的是,小冰不能调用电话等应用程序。她更像是一个可以与用户聊天(持续对话)和玩游戏(基于图像识别等人工智能技术)的虚拟角色。

总体来说,微软小娜和小冰代表了微软的两个方向:小冰持续对话能力强,便携性强,可以嵌入微信、微博、美拍等应用。Cortana 是 Window 10 的人工智能系统,可以调用 Windows 10 中的各种应用程序和数据,被视为个人助理。

Siri 对每个人都很熟悉。它是一个可以调用应用程序的聊天机器人。今天的 Siri 除了设置闹钟和发短信外,还可以搜索照片、播放音乐和提供建议。它可能不是最强大的,但它更面向用户。

Google Now在中国用不好,中文的识别效果很差,中文版的能力也很弱。但作为谷歌的产品,它与生俱来就拥有比其他人工智能产品更多的数据和更好的数据挖掘能力,这使得谷歌Now成为了一款具备强大“主动推送”能力的助手产品。

Google Now 与 Chrome 浏览器、Gmail、Google 日历和 Android 系统等 Google 应用程序的“亲密关系”,使其能够完成许多其他产品无法做到的事情。比如语音解锁,在任意界面用“OK,Google”唤醒,主动推送喜欢和需要的“即时消息”。有人称赞:

“早上醒来,惊讶地发现 Google Now 直接告诉我需要多长时间才能找到我的兼职工作。但我没有设置它,这不是我实际工作的地方。”

如您所见,Google 从用户的地理和实用信息中了解用户的兼职工作时间和地点。但仍需要强调的是,Google Now 在中国的功能很少,而且要实现一些即时功能,用户必须将个人数据交给 Google。

作为巨头推出的产品,Cortana、Siri 和 Google Now 经常被媒体拿来比较,但这种比较有些不妥。一方面,在几款产品中,只有Siri的易用性在中国是好的。另一方面,为了让人工智能系统了解用户的意图,它必须获取数据——越多越好。因此,人工智能系统必须进入更多的软件或平台,获得更高的权限。虽然小娜已经入驻了安卓和iOS,但她仍然是微软的产品,在Windows 10上有更好的可用性。同样,Google Now和Siri分别是安卓阵营和iOS阵营的产品。前者擅长挖掘数据和主动推送,后者擅长聊天和被动建议。

可以看出,这些语音领域的人工智能公司有业务2B或2C,选择软硬结合或仅软件解决方案,深耕智能家居或智能穿戴。这些选择没有对错之分。但总的来说,人工智能仍然没有认知能力,人机对话涉及情感参与——这是一个超出自然科学范围的问题。用户对智能家居的认知度不够高,相关产品不够成熟,价格不够亲民。这么看,搞像智能家居系统这样的生态,似乎有点过头了。

因此,人工智能在普通消费者身上的落地能否先“一点”引爆,比如人工智能系统作为助手,可以从只查票务信息升级为提供票务服务。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 共1条

请登录后发表评论