手写输入曲线在手写识别中的新型手写字符识别背后的故事

作为与设备交互的重要方式,手写输入一直受到各家厂商的重视,尤其是对于更喜欢手写输入而非键盘输入的中老年朋友而言。此外bp神经网络原理及其在字符 1 识别中的应用,对于一些复杂的语言、交互演示场景、试听教学等,手写输入起着不可或缺的作用。

2015年谷歌推出支持82种语言的手写输入,去年又升级到100种语言。但随着机器学习的飞速发展,研究人员也在不断重构之前的方法,为用户带来更快、更准确的体验。

以前的模型基于人工设计的方法,将输入笔画分割成单个字符,并利用相应的解码器来理解它们。为了提高准确性和速度,研究人员开发了一种基于循环神经网络的端到端手写识别系统。通过将输入笔画转化为贝塞尔曲线序列进行分析处理,利用RNN获得更高准确率的识别结果。在本文中,研究人员以拉丁字母为例解释了新手写字符识别背后的故事。

接触、曲线和循环神经网络

任何手写字符识别系统都需要识别手指/输入设备的触摸点。我们在屏幕或平板电脑上输入的笔画可以看作是一系列带有时间戳的非接触序列。考虑到输入设备的大小和分辨率各不相同,研究人员首先对输入的接触坐标进行了归一化处理。然后用三次贝塞尔曲线来描述接触序列,这样RNN就可以更好地理解笔画序列的形状。

贝塞尔曲线在手写识别中的应用历史悠久。基于贝塞尔曲线,可以更连续地表达输入数据,并且对不同的采样率和分辨率具有更强的鲁棒性。在贝塞尔曲线表示中,每条曲线都可以表示为起点、终点和两个控制点的多项式,用较少的参数来准确表达输入笔画。

这种方法取代了谷歌之前基于分段解码的解决方案,该解决方案需要将输入笔画分割成单个字符,然后使用解码来找到最可能的字符。使用贝塞尔曲线表示输入笔画的另一个优点是可以更紧凑地表示输入接触序列,这将有助于模型从输入中提取输入的时间依赖关系。上图展示了用贝塞尔曲线拟合“go”字符的过程。原始输入点集包含 186 个接触坐标。对于字母g,图中的黄色、蓝色、粉色和绿色的点可以用来表示4条三次贝塞尔曲线的序列,而对于字母o,橙色,用翠绿色和白色表示的3条贝塞尔曲线的序列描绘了。

基于由一系列贝塞尔曲线表示的输入,我们需要对该序列进行解码以获得表示的字符。RNN 是一种处理序列输入的有效方式,因此研究人员使用多层 RNN 对序列数据进行解码,并生成一个矩阵,表示它代表的字母对于每个输入序列的可能性,从而计算手写笔画所代表的字符。

在实际过程中,研究人员选择了一个双向的准循环神经网络作为处理模型。该模型具有交替的卷积和回归层,理论上具有并行处理的可能性。在少数情况下维护模型的能力。由于手写字符识别更经常在移动设备上完成,因此小尺寸模型是保持速度的关键。

为了解码曲线序列并识别相应的字符,RNN 生成一个表示字母可能性的解码矩阵。矩阵的每一列代表一条贝塞尔曲线,每一行代表输入曲线对应的字母似然度。在上图中的解码矩阵中,对于每一列,我们可以看到它与前面的序列一起,在 26 个字母上形成了对应的概率分布。第一条到第三条曲线序列对应空白(表示字符还没有被识别,来自CTC算法),当到达第四条曲线时,网络在字母g处得到更高的概率,这意味着RNN开始于 字母 g 在前四条曲线中标识,在后面的第八条曲线上,我们可以看到,字母o对应的位置概率更高。可以通过序列处理将曲线解码为相应的字符。

此外,还有两个有趣的现象值得注意。对于字母 g 的识别,第四列中字母 y(倒数第二个)对应的激活也较高,因为 g 和 y 看起来很相似。对于字母o的识别,每条曲线输入后对应o的概率不断增加,这也符合我们的直觉。用o表示的圆画得越完整,它是o的可能性就越大。

此外,研究人员还引入了有限状态语言模型解码器来组合网络的输出。对于一些常见的字符组合,会有更多可能的输入,从而可以将解码后的字符快速转换成单词输出。

综上所述,新方法分为三个主要步骤。首先将接触序列转换为紧凑的贝塞尔曲线,然后使用 QRNN 进行解码,最后使用字符结果组合对应的单词。虽然看起来很简单,但是这种方法比原来的方法降低了20%-40%的识别错误率!

关于模型训练

图片[1]-手写输入曲线在手写识别中的新型手写字符识别背后的故事-老王博客

模型的训练分为两部分,一部分是基于连接时间分类(CTC)损失的模型训练,另一部分是基于贝叶斯优化的解码器参数调整。训练数据主要包含三个数据集,分别是IAM-OnDB在线手写字符数据集、IBM-UB-1英文数据集、ICDAR 2013的中文孤立字符数据集和ICFHR2018的越南语数据集。详细的数据集链接请参考文末的参考资料。

设备部署

对于手写识别,没有速度保证的精确模型对于用户来说是难以忍受的。为了减少手写输入的延迟,研究人员在tensorflow Lite上实现了模型,并通过量化等一系列手段成功减小了模型和最终应用安装包的大小。一个完整的模型加上一个小的实现将使手机更容易阅读我们的笔迹。更多详情请参考原文:

从 Google AI 编译 TR

参考:

纸:

数据库:

我是:

IBM::hwdata

ICDAR2013:

ICFHR2018:

四氯化碳:

-结束-

江门是一家以科技创新为切入点的早期创新发现机构。旗下拥有江门创新服务、江门科技社区和江门投资基金。

江门创新服务专注于让创新技术落地实际应用场景,激活和实现新的商业价值,服务行业领先企业和科技创新创业公司。

江门科技社区专注于帮助科技创新型初创企业提供产、学、研、创新领域核心技术专家的技术分享和学习内容,让创新成为可持续的核心竞争力。

江门投资基金专注于投资通过科技创新激活商业场景、实现商业价值的初创企业,重点关注机器智能、物联网、自然人机交互、企业计算等技术领域。近两年,江门投资基金投资了数十家具有高增长潜力的科技型创业公司,包括量化、码隆科技、禾赛科技、宽拓科技、山数科技、迪影加科技等。.

如果你是一家科技领域的初创公司,你不仅想获得投资bp神经网络原理及其在字符 1 识别中的应用,还想获得一系列持续的、有价值的投后服务,欢迎发送或推荐项目给我:bp@thejiangmen。 com

点击右上角,把文章放到朋友圈

江门创投

让创新得到认可!

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论