华为NPUAI专用处理单元和HiAI移动计算平台亮相华为上海发布会

10月下旬,华为NPU AI专用处理单元和HiAI移动计算平台在华为上海发布会上亮相,引起了广泛关注。发布会上,余承东通过微软为华为开发的微软翻译的AI离线翻译功能,介绍了AI专用芯片NPU和HiAI移动计算平台。随后,我们与微软全球技术院士黄学东进行了交谈,详细讲述了这款应用的诞生,其中包括全球首个能够在智能设备上进行离线推理的自然语言处理神经网络。

微软翻译是一款部署在 iOS 和 Android 平台上的应用,支持英语、中文等 60 多种语言之间的翻译。

其翻译模式按输入类别可分为三种,即文字翻译(text)、图像翻译(photo)和语音翻译(voice)。其中,图像翻译使用OCR技术读取图片中的文字然后进行翻译,语音翻译使用语音识别技术。

根据翻译中使用的模型类型微软翻译不能保存离线语言,可以分为在线 NMT 模式和离线 SMT 模式。

NMT是指神经机器翻译,它以神经网络为基础,以句子为单位进行整体翻译。它是当前最好的模型(最先进的模型)。然而,神经网络模型通常规模较大,需要大量计算资源,因此只能部署在云端。

SMT 以单词和短语为单位进行翻译。它是 NMT 出现之前上一代最好的模型。主要依靠大量语料的统计来找出规律。与 NMT 模型相比,SMT 模型规模更小,可以本地存储。以微软翻译的iOS版为例,一个简体中文离线包大小为205MB。

这款专为华为开发的微软翻译器的特殊之处在于其文本翻译和图像翻译模式均采用离线神经机器翻译模型。

这个部署在微软云端,只能通过微软认知服务API调用的神经机器翻译系统,使用了一个由传统的多层LSTM编码器、注意力算法和解码器组成的系统。

图:LSTM编码器+注意力模型+解码器系统演示

这类复杂的神经网络通常有数百万个参数,每个解码过程都需要大量计算,通常在云端的 CPU 或 GPU 上进行。例如,谷歌翻译使用 GPU 进行推理,有道翻译使用 CPU 进行推理。开发神经机器翻译系统的最大障碍之一是推理速度。谷歌和有道工程师都曾表示,在开发初期,虽然模型准确率很高,但翻译一个句子需要 10 秒甚至更长时间。这使得系统完全无法使用。在部署在云处理器上的系统可用之前,工程师们在不影响效果的情况下对模型进行了大量的修改和简化。这次,

微软将模型中计算成本最高的 LSTM 编码器替换为深度前馈神经网络,并将其转化为计算难度低的大量并行计算,充分利用华为 NPU 进行大规模并行计算的能力. ,让NPU在神经网络的每一层同时通过ReLU激活函数计算神经元的原始输出和非线性输出。由于 NPU 有足够的高速存储空间微软翻译不能保存离线语言,这些计算可以免除 CPU 和 NPU 之间数据交换的延迟。,并直接并行得到结果。

图:替换后的翻译模型

最新Mate 10系列搭载的麒麟970芯片及其内置的AI专用处理单元NPU,是华为首次在移动设备层面将机器学习硬件计算加速能力叠加到芯片中。成为全球消费者获得的第一款配备专用于人工智能计算的处理单元的手机。

黄学冬表示,从手机CPU到NPU,都有近300%的计算加速。正是这种加速,使得神经网络在终端设备上的离线推理超过了阈值,从不可能变为可能。

在 CPU 时代,离线操作不得不遭受巨大的性能损失,在线服务也离不开对网络的依赖。尤其是像翻译这样的服务,很多应用场景都没有稳定的网络支持,需要强大的离线功能。华为手机的用户大部分是商务人士,很多应用场景在国外。网络条件无法保证,离线功能可以说是缺一不可。

因此,微软工程师和华为工程师从层级、模型结构、工程实现方式等方面对现有的神经翻译模型进行了优化,可以大大减少使离线模型具有可比性所需的计算量。在线模式下,“人们不应该感觉到两者之间的区别,”黄学冬说。它还研究了如何更好地同时使用 NPU 和 CPU:使用 NPU 进行推理工作,并使用 CPU 辅助程序所需的其他操作。

图片[1]-华为NPUAI专用处理单元和HiAI移动计算平台亮相华为上海发布会-老王博客

选择神经机器翻译作为“第一个吃螃蟹的AI”主要是出于两方面的考虑。一是翻译是一个非常明确的需求痛点,二是神经机器翻译模型的简化和提速相比语音模型更容易。

黄学冬非常看好神经网络处理单元在移动端的前景:“未来会有更多带有神经网络处理单元的手机。比如苹果iPhone X如果需要人脸识别解锁,手机必须具备离线运行深度神经网络的能力,另外,iPhone X 的拍照功能中的三维光照也需要大量的计算,未来这样的需求会越来越多,所以一个需要专门的处理单元。”

对于微软来说,下一步可能是开发一个线上和线下相结合的混合系统,可以在网络条件好的时候自动调用性能更好的在线模型,在网络条件不充分的时候进行离线推理。这是对以认知服务为代表的微软云服务的自然延伸,增加了终端的适用性。

同时,微软的PowerPoint实时翻译功能也可以在华为手机上使用,可以在演讲和课堂上提供实时帮助。当演讲者在舞台上时,PowerPoint 的自动翻译插件会识别语音,将其转换为文本,并提供 60 多种语言的同声传译。观众中的每个人都可以通过手机获得所需语言的翻译。”

“我们的最终目标是消除语言障碍。” 黄学东说:“我们想把人聚在一起。当年我带着美式英语基础去爱丁堡大学留学,为教授的苏格兰口音吃了不少苦头。爱丁堡大学的教授们下载了Presentation Translator,每个留学生手里都有一部华为Mate 10手机,不用再忍受我过去的痛苦了。希望通过这次与华为的合作,可以帮助更多的用户破解语言障碍。”

最后,让我们通过一组截图感受一下NPU和神经网络的强大。以下所有截图均来自华为 Mate 10 Pro。

主屏界面:

可以看出有四种翻译模式:文本、图像、语音和对话。用图标代替文字描述也体现了“消除语言障碍”的目标。

文本翻译模式英文到中文:

我们选择了机器之心对克里斯托弗·曼宁的独家专访的开篇:

“深度学习浪潮已经席卷计算语言学的海岸好几年了。但 2015 年似乎是海啸全面冲击主要自然语言处理 (NLP) 会议的一年。” 两年前,Christopher Manning 以这种方式开始了关于 ACL2015 的演讲。

复制完文档内容后,打开微软翻译器,可以看到屏幕右侧有一个粘贴快捷方式。

粘贴后不到一秒翻译完成,效果如下:

您可以以全屏模式显示其他人:

或双击复制内容:

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论