四大会计师事务所之一解读机器学习基础的图表编译和拆分

机器学习在进步,我们似乎越来越接近我们心目中的 AI 目标。语音识别、图像检测、机器翻译、风格迁移等技术已经开始应用在我们的现实生活中,但是机器学习的发展还在继续,甚至被认为有可能彻底改变发展人类文明乃至人类自身的方向。. 但是你了解现在正在发生的变化吗?四大会计师事务所之一的普华永道(PwC)最近发布了几张解释机器学习基础的图表,其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常用算法。为方便读者,Heart of Machine 对这些图表进行了编译和拆分,并分三个部分呈现。还添加了一些扩展链接,希望能帮助您进一步扩展阅读。

一、机器学习概述

1. 什么是机器学习?

机器通过分析大量数据来学习。例如,可以通过使用图片来训练它们来概括和识别特定对象,而不是被编程来识别猫或人脸。

2. 机器学习与人工智能的关系

机器学习是一类研究和算法,专注于在数据中发现模式并使用这些模式进行预测。机器学习是人工智能领域的一部分,与知识发现和数据挖掘相交叉。更多解释请参考“”。

3. 机器学习的工作原理

①选择数据:将您的数据分为三组:训练数据、验证数据和测试数据

②模型数据:使用训练数据构建使用相关特征的模型

③验证模型:使用您的验证数据访问您的模型

④测试模型:使用您的测试数据来检查验证模型的性能

⑤使用模型:使用经过充分训练的模型对新数据进行预测

⑥调优模型:使用更多的数据、不同的特征或调优的参数来提高算法的性能

4. 机器学习的所在

①传统编程:软件工程师编写程序来解决问题。首先有一些数据 → 为了解决一个问题,软件工程师写了一个过程告诉机器该做什么 → 计算机遵循这个过程并得出一个结果

②统计:分析师比较变量之间的关系

③机器学习:数据科学家使用训练数据集教计算机做什么,然后系统执行该任务。首先是大数据→机器学习使用训练数据集进行分类并调整特定算法以实现目标分类→计算机学习识别数据中的关系、趋势和模式

④智能应用:利用人工智能进行智能应用得到的结果,如图是一个精准农业的应用案例,应用基于无人机采集的数据

5. 机器学习的实际应用

机器学习有很多应用场景,这里有一些例子,你会怎么用呢?

二、机器学习的演进

几十年来,人工智能研究人员的各个“部落”一直在争夺主导地位,请参阅机器之心文章。这些部落是时候联合起来了吗?他们可能也必须这样做,因为协作和算法融合是实现真正的通用人工智能 (AGI) 的唯一途径。这是机器学习方法的演进路径以及未来可能的样子。延伸阅读“”。

1. 五所学校

①符号化:用符号、规则和逻辑来表示知识并进行逻辑推理,喜欢的算法有:规则和决策树

②贝叶斯:得到概率推理的发生概率,最喜欢的算法是:朴素贝叶斯或马尔可夫

图片[1]-四大会计师事务所之一解读机器学习基础的图表编译和拆分-老王博客

③ 联结主义:使用概率矩阵和加权神经元来动态识别和概括模式,最喜欢的算法是:神经网络

④进化论:产生变化,然后为特定目标获得最好的变化。我最喜欢的算法是:遗传算法

⑤Analogizer:根据约束优化函数(尽可能走高,但同时不要离开路),最喜欢的算法是:支持向量机

2. 进化阶段

1980 年代

1990 年代至 2000 年代

2010 年代初至中期

3. 这些流派有望合作并将各自的方法结合在一起

2010 年代后期

2020年代+

2040年代+

三、机器学习算法

您应该使用哪种机器学习算法?很大程度上取决于可用数据的性质和数量以及您在每个特定用例中的训练目标。不要使用最复杂的算法,除非结果值得昂贵的开销和资源。以下是一些最常见的算法,按易用性排序。更多信息请参考机器之心的文章“”和“”

1. 决策树:典型的决策树分析在逐步响应过程中使用层次变量或决策节点,例如,将给定用户分类为可信或不可靠。

2. 支持向量机:基于超平面算法的基本概念选择题,支持向量机可以对数据组进行分类。

3. 回归:回归概述了一个因变量和一个或多个因变量之间的状态关系。在此示例中,区分垃圾邮件和非垃圾邮件。

4. 朴素贝叶斯分类:朴素贝叶斯分类器用于计算可能条件的分支概率。每个独立特征都是“幼稚的”或条件独立的,因此它们不会影响其他对象。例如,一个罐子里一共有 5 个黄球和红球,连续得到两个黄球的概率是多少?从图中最上面的分支可以看出,来回抓两个黄球的概率是1/10。朴素贝叶斯分类器可以计算多个特征的联合条件概率。

5. 隐马尔可夫模型:显式马尔可夫过程是完全确定的——一个给定的状态通常伴随着另一个。红绿灯就是一个例子。相反,隐马尔可夫模型通过分析可见数据来计算隐藏状态的出现。随后,在隐藏状态分析的帮助下,隐藏马尔可夫模型可以估计未来可能的观察模式。在这个例子中,高气压或低气压(这是一种隐藏状态)的概率可以用来预测晴天、下雨天、阴天的概率。

6. 随机森林:随机森林算法通过使用具有随机选择的数据子集的多棵树来提高决策树的准确性。这个例子在基因表达的水平上检查了大量与乳腺癌复发相关的基因,并计算了复发的风险。

7. 循环神经网络:在任何神经网络中,每个神经元通过 1 个或多个隐藏层将许多输入转换为单个输出。循环神经网络(RNNs)将值进一步逐层传递,使得逐层学习成为可能。换句话说,RNN 具有某种形式的内存,允许先前的输出影响后续的输入。

8. 长短期记忆(LSTM)和门控循环单元神经网络(gated reverse unit nerual network):早期的RNN形式会有损失。尽管这些早期的 RNN 只允许保留少量的早期信息,但最近的长期短期记忆 (LSTM) 和门控循环单元 (GRU) 神经网络同时具有长期和短期记忆。换句话说算法的基本概念选择题,这些最近的 RNN 对内存有更好的控制,允许在需要处理许多系列步骤时保留或重置较早的值,从而避免“梯度衰减”或值在层与层之间传递最终退化。LSTM 和 GRU 网络允许我们使用称为“门”的内存模块或结构来控制内存,它们在适当的时候传递或重置值。

9. 卷积神经网络:卷积是来自后续层的权重的融合,可用于标记输出层。

原链接1、原链接2、原链接3

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论