随机森林之前不得不提到决策树,那什么是决策树呢?

在说随机森林之前,不得不提一下决策树,那么什么是决策树呢?

决策树

01 算法描述

决策树是监督学习的算法之一(什么是监督学习机器学习防止过拟合,详见机器学习干货:监督学习和无监督学习)算法,是一种简单高效的非线性模型,主要用于解决回归和分类问题一般是从上到下生成的。每个决定或事件都可能导致两个或多个事件,从而导致不同的结果。将此决策分支绘制为图形与树的分支非常相似。一般来说,与下图中的情况类似。

每天早上你从树的顶部(根节点)开始,检查你是否睡得晚,如果是你肯定不会跑步,等等。从这个例子中,算法必须考虑四个特征:你是否去前一天睡得晚,6点前是否起床,是否下雨,是否累。现在的问题是如何基于这些特征构建决策树。比较常用的算法有:ID3、C4.5和CART算法。下面介绍一些相关知识。

1.1 信息熵

假设一个样本数据集 D 包含 c 个类别,那么信息熵可以表示为:

其中,表示第i个类别样本数据占整体的比例(概率)。

1.2 特征熵

Given a sample data set D, when feature A is selected as the decision node of the decision tree, its entropy under the condition of feature A is the feature entropy, and its expression is:

其中,k表示将样本数据D分成k份。

1.3 信息增益

信息增益(information gain)表示在已知特征A的信息后,D的不确定性降低的程度,记为:

通常,减少越大越好,即信息增益越大越好。

1.4 信息增益率

1.5 基尼系数

02 算法思维

2.1 ID3算法

ID3算法构建决策树的具体方法是从根节点开始,计算该节点所有特征的信息增益,选择信息增益最大的特征作为决策树节点,根据特征的不同值;递归调用上述算法生成新的子节点机器学习防止过拟合,直到所有子集都包含相同的类别或没有可拆分的特征。

算法优势:构建决策树的速度快,算法简单,生成的规则易于理解。

算法的缺点:在特征选择中,可能值较多的特征往往会被选为分割特征,而这些特征不一定是最好的;没有剪枝过程,所以生成的决策树无法优化,算法生成的决策也无法优化。树可以过拟合;无法处理具有连续特征值的特征;只能用于分类。

2.2 C4.5 算法

C4.5算法在ID3算法的改进基础上,没有直接使用信息增益,而是引入了“信息增益率”指标作为选择最优划分属性的依据。利用信息增益率使得C4.5算法消除了ID3算法选择多值特征的问题。如果特征的值很多,则特征的信息熵越大,特征熵越大,因此信息增益率会降低。小,从而在一定程度上消除了对特征值范围的影响。

算法优缺点:可以处理连续的数据,解决了ID3的不足;可以修剪;它只能用于分类。

2.3 CART算法

CART算法采用二元递归分割技术,将当前样本分成两个样本集,使得生成的非叶子节点有两个分支。因此,CART 实际上是一棵二叉树。CART 算法使用基尼系数进行分支。因此,在计算基尼系数时,需要为每个特征找到最小化基尼系数的最佳分割点。在生成树的时候,根据最优特征和最优分割点生成两个小节。节点,并根据特征将训练数据集分配给子节点。如果一个特征A上有三个类别,CART分类树在进行二分时会考虑{A1}/{A2,A3}, {A2}/{A1,A3}, {A3}/{A1,A2} 这三个分类方法,

算法优缺点:既可以处理离散数据,也可以处理连续数据,可用于分类和回归;它可以修剪。总结无论是ID3、C4.5还是CART,在做特征选择的时候,都是选择最好的特征来做分类决策,但是大部分的分类决策不应该是由某个特征来决定的。相反,它应该由一组特征决定。这样得到的决策树更加准确。我们不会在这里深入研究它的算法;如果样本稍有变化,就会导致树结构发生剧烈变化。这可以通过集成学习中的随机森林等方法来解决。

随机森林

01 算法思路

作为集成学习算法之一,随机森林具有非常好的特性。顾名思义,随机森林就是以随机的方式构建一个森林,森林中有多个决策树。与 Bagging 算法(只对训练集的行进行抽样,抽样时不抽样任何属性)不同,随机森林在构建每棵决策树时,抽样需要完全独立。) 有放回的随机抽样,允许重复抽样,这样抽样可以在一定程度上抑制过拟合问题。

02 平台实践

我想你应该对这些算法的想法了如指掌。如果基于此来实现这个算法,无疑会重复造轮子,影响我们宝贵的时间。接下来,我将向您展示如何通过我们的平台。实现这个随机森林分类算法和随机森林回归算法。

点击智能AI分析

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论