人工智能有三大马车,你知道吗?(上)

一、三驾马车

近年来,大家经常听说人工智能有三大马车,分别是:数据、算法和算力。事实上,这是拆解任何人工智能项目或问题的一种非常有效的方法。大家一定要记住这三个要素缺一不可,我们会在后面的实战章节中反复验证和使用。接下来,我们从基础理论看这三个要素的构成。

1. 数据组成

数据:任何 AI 模型训练都需要数据,而 AI 深度学习模型不能无中生有。包括我们人类在内的高级智能学习也需要输入输出,因此数据是人工智能模型的重中之重。

数据按用途可分为训练集、验证集和测试集。

训练集占所有数据集的绝大部分,数量从10000到10000000甚至更多。对于算法模型,数据越多,算法模型越好,也就是可以理解为算法遵循的人就像“见多识广”一样,看到的数据越多,自然模型就越健壮和强大.

验证集主要用于调整模型参数以选择最优模型。验证集可以理解为我们学习时的参考书,用来验证我们是否掌握了所学的知识;但它最终用于评估模型的优劣。不好的是测试集。这部分数据对于之前的模型来说必须是“秘密”的。模型需要“考试”是可以理解的。

考试范围包括之前训练集的“知识点”,看训练集:validation set: test set = 6:2:2;验证集不是必须的,所以训练集与测试集的比例一般为8:2。

数据按来源可分为:公开数据集和自建数据集;

人工智能的快速发展与其开源氛围密不可分。许多大型组织和机构愿意将其最新研究成果的数据开源,供他人共同研究,促进学术进步。

比如海外google数据集搜索、kaggle、data.gov(美国政府),国内外各种赛事主办方都会开源数据集,包括一些专业公司做公共数据集聚合业务。

对于自建数据集,分为两部分:一是通过互联网爬取,二是自己收集。除了组织同事进行小规模的数据采集和通过现有的产品嵌入点返回数据外,还可以通过寻找专业公司来组织大规模的采集。

构建自建数据集,需要产品经理和算法同学一起构建数据集的规范规范,即通过对目标任务的分析和拆解,MECE(相互独立和完全详尽)对数据集的组成进行了分解。为了更好的拆解,建议大家可以通过构建思维导图的方式来创建。如图1所示:

人脸关键点数据集的构建要求

数据集需求完成后,即可进行数据集的试采集。通过对一个完整主题的试采集,可以估算出采集项目的完整周期。如果时间远远超出预期时间,是否可以考虑简化?数据集的标准化,多采集设备的并行化,或者采集人数的减少,数据采集项目分为两个阶段。

由于深度学习需要结构化数据进行训练,因此我们收集的数据必须同时进行标记。数据标签的种类很多,例如分类、拉框、注解、标记(画点)等。标注的结构化数据只能通过输入深度学习模型进行训练。

很多同学可能会觉得这样的操作前期成本太高。不打分就可以训练吗?比如最近大火的自监督学习,自监督学习的核心是如何为数据自动生成标签。比如输入一张图片,将图片旋转任意角度,然后将旋转后的图片作为输入,将随机旋转的角度作为标签。

再举个例子,将输入图像平均分成3*3的网格,每个网格中的内容作为patch,随机打乱patch的排列顺序,然后将打乱的patch作为输入,排列正确命令。订单作为标签。这种自动生成的注释根本不需要人工干预。

但是,目前大多数任务都需要人类标记大量数据,然后再将其发送给机器进行学习。所以很多人都提到人工智能都是“人造的”,这个说法是相当正确的。

但实际上,很多互联网数据都是用自己的标签生成的。比如近年流行的图片社交网站Instagram,在用户上传图片和视频的时候会增加很多等,这些其实都是用户自己手动标注图片或者视频的过程,省去了统一标注的流程. Instagram 的后端模型可以利用用户每天上传和分享的海量数据对图片和场景进行分类。检测、识别,甚至模型都能理解这张图片代表什么,看图说话。

反之亦然,可以根据用户的句子整理相应的素材,一句话编成电影,图文成电影等等。这就是使用众包的思路。其实除了社交媒体之外,当你登录网站输入验证码时,会被要求选择下面哪个图片包含“自行车”?事实上,这也是一个人工标签不断帮助模型训练的过程。类似的想法可以借鉴并融入到自己的产品设计中。

2.算法

首先定义人工智能、机器学习和深度学习之间的关系。

机器学习直接来自人工智能的早期领域。机器学习可以定义为实现人工智能的一种方法。传统算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等。在学习方法上,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学习、深度学习和强化学习。

深度学习是一种实现机器学习的技术,即人工智能>机器学习>深度学习。原来的深度学习是利用深度神经网络解决特征表达的学习过程。

深度神经网络本身并不是一个新概念,大致可以理解为包含多个隐藏层的神经网络结构。为了提高深度神经网络的训练效果,人们对神经元的连接方式和激活函数进行了相应的调整。

说到算法,我们先来了解一下,计算机视觉任务的分类包括以下几类:

对于深度学习的分类,更多的是基于模型的架构之间的区别,包括监督学习和无监督学习:

监督学习包括循环网络RNN、CNN、DNN。

RNN适用于与序列相关的任务,比如时间序列,预测股票行情,比如文本序列,其衍生品被广泛应用于自然语言处理领域,其中LSTM在该领域广为人知NLP 的。

CNN的C代表卷积,是一种降低目标图像维度的数学运算。主要用于提取特征,所以很多图像分类任务被广泛使用。

DNN 将应用于搜索并可以估计转化率。该数据是互联网产品应用频率最高的指标,转化率估计对应的输入特征包括不同领域的特征。

如用户域、宝贝域、查询域等,各种特征的维度可以高达千万甚至上亿。如何处理模型中的超高维特征成为亟待解决的问题。考虑到多维高阶信息,同时兼顾计算量和效率,DNN是一种非常合适的方法。

深度神经网络构造稀疏id特征的密集向量表示,使模型可以有更好的泛化。网络的最后一层增加了商品id特征、id组合特征和实时统计特征,使整个网络同时兼顾泛化和实时的特点。

无监督学习再提一下最近非常流行的GAN(Generation Adversarial Network),它通过无监督学习同时训练两个模型,其内部原理可以转化为西方博弈论或东方道家。我还记得,在我上第一堂信息对抗课上,老教授讲了《道德经》里的“反作用,用弱者”。读者可以细细琢磨这其中的内涵。

简单地说,GAN 训练两个网络:

具体方法可以参考下图:

GAN网络结构示例

3.算力

根据模型的大小和最终的实际应用场景,深度学习算法会选择部署在设备端、云端还是端云结合。

随着智能手机的不断发展,终端侧的计算能力也在不断提升。比如最新的高通骁龙888处理器,算力可以达到26TOPS。 TOPS是计算能力的单位,即每秒1T(10的12次方)运算。

而且大家还有印象,几年前的NVIDIA显卡还是2000G算力,也就是2TOPS左右。由此可见,摩尔定律发展下半导体工艺的进步直接影响着深度学习的计算能力。进展。

例如,在自动驾驶方面,每辆特斯拉汽车都配备了一个计算能力为 144TOPS 的超级计算中心,可以实时处理各种复杂的路况、路标、检测人和各种车辆。这些是机器视觉算法,依靠强大的计算能力来支持它们。

综上所述电子计算器上的gt是什么意思,我们可以看到端侧的计算能力具有良好的实时性和良好的安全性(离线),但很大程度上取决于半导体加工工艺和能源效率的利用。

例如,手机不太可能配备计算能力巨大的超级计算中心。核心方面是权力是有限的。计算能力越高,能耗越高。能耗大对应需要配备更大的电池和计算单元,不太适合人们日常随身携带的物品的设置;

于是人们把这个算力单元放在了汽车上,尤其是新能源有轨电车上。它有充足的电力,足够的空间,并且身体配备了许多传感器。通常,您可以收集数据并输入算力单位进行快速计算。 ,还有一位经验丰富的“老司机”来教。

我们平时的驾驶行为:打方向盘、踩刹车、加速、变道、雨天怎么开车、晚上怎么开车、下雪天、雾霾天等等都是人为的”标记”为深度学习模型一次又一次。在监督训练的过程中,这样一来,汽车的“智能体”就会不断迭代进化,直到可以代替人类完成自动驾驶。

而以上是特斯拉AI高级总监Andrej Kaparthy在2019年特斯拉大会上提到的“影子模式”。知道了这背后的原理,不禁感叹特斯拉机器视觉的深度学习和深度学习能力学习发挥得淋漓尽致,商业模式也很巧妙。数据、计算能力和算法在一辆汽车中形成一个闭环。关键是这辆车还能进化,开得越多,它就变得越“聪明”。

顺着这个思路思考,如果未来手机的算力和算力已经到了天花板(因为重量一般在200g左右,屏幕尺寸在6-7英寸左右,上限算力和能耗可以知道),而算力和能耗的上限可以知道。它是离我们最近的算力单元。未来,真正懂你的是车。它可以存储你日常行为的数据,并具有强大的计算能力来不断优化模型。手机只是汽车中央的一个扩展传感器吗? ,离你最近的那个。

这很好地解释了为什么苹果和中国的华为等主要手机制造商选择低头参与“造车运动”。未来,如果手机不包含特斯拉,或者手机厂商颠覆特斯拉,我更看好前者。

说完终端的算力,我们再来看看云端的算力。云一般指的是大型服务器及其集群,也就是我们通常所说的“机房”。从上面提到的体积和能效来看,云完全没有这样的限制,甚至可以理解为一个理论上无限算力的算力平台,只要有足够的机器。云通常用于模型训练,端到端测试用于模型部署和推理。

当然,云端也可以进行模型部署和推理。比如一些对算力要求比较高的算法会跑到云端,比如常用的语音助手,需要在联网状态下使用。云的优势在于计算能力强大、部署迭代容易、训练推广一体化。产品化非常方便无缝,非常适合互联网的“快速迭代”模式。

但是缺点也比较显着,比如对网络的依赖性强,安全性和隐私保护一般。

而这本质上是一个暴力美学的过程,通过量变导致质变。例如,近年来被广泛讨论的 GPT-3 是一个具有 1750 亿个参数的自然语言模型。该模型经过了 45TB 的数据预训练,无需微调,即可在多个 NLP 基准上实现最先进的性能。训练这个模型需要 355 个 GPU 年,花费数百万到数百万美元。

图片[1]-人工智能有三大马车,你知道吗?(上)-老王博客

而能够提供这些资金和计算能力的,一定是领先的厂商。不禁感叹,人工智能的世界和模型更加扑朔迷离。

GPT-3 出现后,神经网络之父 Geoffrey Hinton 曾感慨地说:“生命、宇宙和万物的答案其实只是 4.398 万亿参数。”

p>

正如《新约马太福音》所说,“凡有的,加倍分给他,使他多余;没有的,将剩下的拿去。”

说完云模式,市面上还是普遍存在设备端和云结合的部署方式。也就是利用各个公司的优势,在设备端对模型进行预处理,然后传递需要大量计算的复杂任务。上云端,云计算完成后返回设备端。

这种方法有效解决了信息隐私问题,因为上传到云端的数据可以是特征提取后的数据,对人类没有意义,但可以用于机器的后续计算。同时也解决了云模型不断迭代不平衡、端到端推理迭代慢的问题。

本书第四、五章将结合实际案例对端端模型、云端模型、端云结合模型进行讲解。

二、常用术语1.概括能力

泛化能力是指机器学习算法对新鲜样本的适应性,简而言之,在原始数据集上加入新的数据集,通过训练输出合理的结果。学习的目的是学习隐藏在数据背后的规律。对于具有相同规律的学习集以外的数据,经过训练的网络也可以给出适当的输出。这种能力称为泛化能力。

2.过拟合

在机器学习中,模型的典型输出过程是在训练集上训练机器学习算法,希望得到的模型在训练过程中不可见的验证集上表现良好。当与数据集相比引入的参数过多,或者使用与数据集相比过于复杂的模型时,就会出现过拟合电子计算器上的gt是什么意思,违反了奥卡姆剃刀原则。

过度拟合的负面后果之一包括上述较差的泛化能力。与之相反的是欠拟合(主要是数据量少)。

3.稳健性

鲁棒性,又称鲁棒性、鲁棒性、鲁棒性,是系统的鲁棒性。它是系统在异常和危险情况下生存的关键。它是指系统的参数在一定的扰动下(结构、尺寸)下降,保持一定的性能特征。

4.超参数

超参数是在开始学习过程之前设置其值的参数(初始参数)。而是通过训练推导出其他参数的值。

5.主干

主干网络,用于特征提取的网络,代表网络的一部分,一般用于在前端提取图像信息,生成feature map特征图,供网络后期使用。

6.纪元

Epoch,一个完整的数据集通过神经网络一次,返回一次,这个过程称为一个epoch/epoch。即所有训练样本在神经网络中都经过一个前向传播FP(前向传播)和一个反向传播BP(反向传播)。简而言之,一个epoch就是对所有训练样本进行一次训练的过程。

7.批处理

batch size 是一个超参数,它定义了在更新内部模型参数之前要处理的训练数据集样本的数量。训练数据集可以分为一个或多个Batch(组)。

8.舞台

在stage上,一般网络分为一级和二级;即一个阶段或两个阶段;比如一张图片直接生成分类结果和bounding box,这是一个阶段;

比如输入一张图片,先建议区域,然后对选中的区域进行分类,然后分成两阶段,整个任务由两个网络完成,下一个网络的输入是以前的网络结果;当然,根据实际任务,也会有三阶段的整体网络设计。

9.准确度

对于分类任务,我们对分类结果有以下表示/定义。

那么准确率ACC=(TP+TN)/(TP+TN+FP+FN)。

10.精度

P=TP/(TP+FP),表示归类为正例的例子与实际为正例的比例。

11. 召回

召回=TP/(TP+FN)。

12.综合评价指标(F-Measure)

P和R指标有时会出现矛盾,需要综合考虑。最常用的方法是 F-Measure(也称为 F-Score)。 F-Measure是Precision和Recall的加权调和平均值:

F=(α^2+1)*P*R/α^2(P+R)

我们通常使用的是当α=1时,即F1=2*P*R/(P+R);

13.ROC(接收器工作特性)

ROC曲线是以误报率(FP_rate)和真实率(TP_rate)为轴的曲线。 ROC曲线下的面积称为AUC,如下图:

ROC曲线

(1)曲线和FP_rate轴(记为AUC)围成的面积越大,性能越好,即图中L2曲线对应的性能优于性能对应于曲线L1,即:曲线越靠近A点(左上),性能越好,越靠近B点(右下),曲线性能越差.

(2)A点是最完美的表现点,B点是最差的表现点。

(3)CD线上的点表示算法性能与随机猜测相同——如点C、D、E。CD上方的点(即曲线位于白色范围内)三角形)表示算法性能良好 对于随机猜测——比如点 G,在 CD 下方(即曲线位于灰色三角形内),算法的性能比随机猜测——比如点 F 差。

(4)虽然ROC曲线比Precision、Recall等衡量指标更合理,但在高不平衡数据条件下的表现还是过于理想,无法很好的展现实际情况。

14.GT 基准测试(基本事实)

在监督学习中,数据被标注并以 (x, t) 的形式出现,其中 x 是输入数据,t 是标注。正确的 t 注释是基本事实。基本事实是人类根据某些标准定义的基准。

15.IOU(联合交叉口)

IOU = 两个矩形的交点面积/两个矩形的并集面积,常用于物体检测(物体、人脸、人体等)来衡量模型检测的准确率。

16.功能

为了让计算机掌握人类所理解的知识,需要构建一个由简单概念组成的多层连接网络来定义复杂的对象。经过这个网络的迭代计算和训练,计算机可以掌握物体的特征。这种方法叫做深度学习,网络学习的东西叫做特征。特征是数据的一种表达方式。

对特征的要求是信息性(informative)、判别性(discriminative)和独立性(independent)。

Feature有很多特征和分类:Feature可以是Linear(线性)或Non-linear(非线性);特征可以是Fixed(固定)或Adaptive(自适应变化),甚至特征也可以是非数字的。

17.损失函数或损失

损失函数用于估计模型的预测值f(x)和真实值Y的不一致程度。它是一个非负的实值函数,通常用L(Y,f (X))。损失函数越小,模型越健壮。我们模型训练的过程应该是一个逐渐减小损失函数的过程,这样模型才能不断收敛。

作者:大先河微信ID:大先河知识学校。专注于分享对人工智能产品、智能硬件和理念的思考。

本文由@大仙河原创发布,原创大家是产品经理,未经允许,禁止转载

标题图片来自Unsplash,基于CC0协议

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论