随机森林之前不得不提到决策树，那什么是决策树呢？-老王博客

在说随机森林之前，不得不提一下决策树，那么什么是决策树呢？

决策树

01 算法描述

决策树是监督学习的算法之一（什么是监督学习机器学习防止过拟合，详见机器学习干货：监督学习和无监督学习）算法，是一种简单高效的非线性模型，主要用于解决回归和分类问题一般是从上到下生成的。每个决定或事件都可能导致两个或多个事件，从而导致不同的结果。将此决策分支绘制为图形与树的分支非常相似。一般来说，与下图中的情况类似。

每天早上你从树的顶部（根节点）开始，检查你是否睡得晚，如果是你肯定不会跑步，等等。从这个例子中，算法必须考虑四个特征：你是否去前一天睡得晚，6点前是否起床，是否下雨，是否累。现在的问题是如何基于这些特征构建决策树。比较常用的算法有：ID3、C4.5和CART算法。下面介绍一些相关知识。

1.1 信息熵

假设一个样本数据集 D 包含 c 个类别，那么信息熵可以表示为：

其中，表示第i个类别样本数据占整体的比例（概率）。

1.2 特征熵

Given a sample data set D, when feature A is selected as the decision node of the decision tree, its entropy under the condition of feature A is the feature entropy, and its expression is:

其中，k表示将样本数据D分成k份。

1.3 信息增益

信息增益（information gain）表示在已知特征A的信息后，D的不确定性降低的程度，记为：

通常，减少越大越好，即信息增益越大越好。

1.4 信息增益率

1.5 基尼系数

02 算法思维

2.1 ID3算法

ID3算法构建决策树的具体方法是从根节点开始，计算该节点所有特征的信息增益，选择信息增益最大的特征作为决策树节点，根据特征的不同值；递归调用上述算法生成新的子节点机器学习防止过拟合，直到所有子集都包含相同的类别或没有可拆分的特征。

算法优势：构建决策树的速度快，算法简单，生成的规则易于理解。

算法的缺点：在特征选择中，可能值较多的特征往往会被选为分割特征，而这些特征不一定是最好的；没有剪枝过程，所以生成的决策树无法优化，算法生成的决策也无法优化。树可以过拟合；无法处理具有连续特征值的特征；只能用于分类。

2.2 C4.5 算法

C4.5算法在ID3算法的改进基础上，没有直接使用信息增益，而是引入了“信息增益率”指标作为选择最优划分属性的依据。利用信息增益率使得C4.5算法消除了ID3算法选择多值特征的问题。如果特征的值很多，则特征的信息熵越大，特征熵越大，因此信息增益率会降低。小，从而在一定程度上消除了对特征值范围的影响。

算法优缺点：可以处理连续的数据，解决了ID3的不足；可以修剪；它只能用于分类。

2.3 CART算法

CART算法采用二元递归分割技术，将当前样本分成两个样本集，使得生成的非叶子节点有两个分支。因此，CART 实际上是一棵二叉树。CART 算法使用基尼系数进行分支。因此，在计算基尼系数时，需要为每个特征找到最小化基尼系数的最佳分割点。在生成树的时候，根据最优特征和最优分割点生成两个小节。节点，并根据特征将训练数据集分配给子节点。如果一个特征A上有三个类别，CART分类树在进行二分时会考虑{A1}/{A2,A3}, {A2}/{A1,A3}, {A3}/{A1,A2} 这三个分类方法，

算法优缺点：既可以处理离散数据，也可以处理连续数据，可用于分类和回归；它可以修剪。总结无论是ID3、C4.5还是CART，在做特征选择的时候，都是选择最好的特征来做分类决策，但是大部分的分类决策不应该是由某个特征来决定的。相反，它应该由一组特征决定。这样得到的决策树更加准确。我们不会在这里深入研究它的算法；如果样本稍有变化，就会导致树结构发生剧烈变化。这可以通过集成学习中的随机森林等方法来解决。

随机森林

01 算法思路

作为集成学习算法之一，随机森林具有非常好的特性。顾名思义，随机森林就是以随机的方式构建一个森林，森林中有多个决策树。与 Bagging 算法（只对训练集的行进行抽样，抽样时不抽样任何属性）不同，随机森林在构建每棵决策树时，抽样需要完全独立。) 有放回的随机抽样，允许重复抽样，这样抽样可以在一定程度上抑制过拟合问题。

02 平台实践

我想你应该对这些算法的想法了如指掌。如果基于此来实现这个算法，无疑会重复造轮子，影响我们宝贵的时间。接下来，我将向您展示如何通过我们的平台。实现这个随机森林分类算法和随机森林回归算法。

点击智能AI分析

文章版权声明 1、本站永久网址：https://www.9im.cn
2、本主题所有言论和图片纯属会员个人意见，与本网站立场无关。
3、本网站所有源码和软件均为作者提供和网友推荐收集整理而来，对提供的源码不拥有任何权利，其版权归原著者拥有。仅供学习和研究使用,下载后请24小时内删除。不得使用于非法商业用途，不得经营非法游戏或违反国家法律。一切关于该资源商业行为与老王博客无关。
4、如果您喜欢该程序，请支持正版源码、软件，购买注册，得到更好的正版服务。如有侵犯你版权的，请邮件与我们联系处理，本站将立即改正。
5、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

喜欢就支持一下吧