
一、什么是线性回归
线性回归是一种模拟因变量与一个或多个自变量之间关系的线性方法;对于模型,自变量是输入值,因变量是模型基于自变量的输出值,适用于x和y满足线性关系的数据类型的应用场景。
线性回归应用于数据分析的主要场景有两种:
模型数学形式:=0+11+22+⋯+
例如,衡量不同用户特征对满意度得分的影响r软件中多元线性回归,转换为线性模型的结果可能是:score=-2.1+0.56*age。
线性回归模型分为单变量线性回归和多元线性回归:区别在于自变量的个数。
二、线性系数的计算:最小二乘
我们知道模型的公式,那么模型的系数是怎么来的呢?我们使用最小二乘法来确定模型的系数——最小二乘法,它通过最小化误差的平方和来找到数据的最佳函数匹配。使用最小二乘法,可以得到一条直线,得到拟合数据和实际数据。误差的平方和最小。
将上面的模型公式简化成四点线性回归模型具体看:Score=-2.1+0.56*age
最小二乘法选择模型误差平方和=1+2+3+4最小的直线。生成直线后,就可以得到模型的自变量的系数和截距。
三、确定系数R-squared(R-squared)和调整后的R-squared
R 方(适用于单变量线性回归)。
R平方也称为决定系数,它的主要功能是衡量数据中的因变量可以被模型计算和解释的准确程度。
公式:
偏差平方和:表示因变量的波动,即因变量实际值与其均值之差的平方和。
误差平方和:表示因变量实际值与模型拟合值之间的误差大小。
因此,R平方可以说明因变量被模型拟合的百分比,即R平方可以衡量模型拟合数据的质量;R-square的取值范围是10
我们发现age的VIF远大于10,所以去掉age的变量,去掉后重新计算剩下的变量VIF发现都是4.计算调整后的R平方
5. 数据规范化
我们希望不同自变量的线性系数具有可比性r软件中多元线性回归,不受其取值范围的影响。
6. 拟合模型并计算回归系数
以共享单车评分为例,因变量为评分,自变量为年龄、组别、市区。线性回归的结果为:得分=5.5 + 2.7 *年龄+0.48 *对照组+0.04 *朝阳区+0.64 * 海淀区 + 0.19 * 西城区。
7. 生成分析见解 – 驱动程序
最终输出的是不同用户特征在用户研究得分上的驱动力排名——驱动力得分反映了每个变量的代表因素,目标变量得分的驱动力,驱动力得分的绝对值越大,目标变量对因子的影响值越大,值越小,驱动力得分为负表示该因子对目标变量的影响为负。
8. 根据回归模型进行预测
至此,回归模型已经建好,预测就不写了。可以将要预测的数据x自变量导入模型来预测y。
相信看完这篇文章,你已经对线性回归模型有了一定的了解。让我们开始将模型应用到您的实际工作中吧!
请登录后发表评论
注册
社交帐号登录