【知识点】一元线性回归模型研究(二):变量越多

基本审查

在单变量线性回归分析中,仅研究一个自变量对因变量的影响:

在实践中,通常有两个或多个自变量影响因变量。例如,影响产品单位成本的变量不仅是产量,还有原材料价格、人工价格、劳动效率和废品率等因素。建立这样一个多元模型的分析称为多元回归分析。

在多元回归分析中,如果因变量与多个自变量之间的关系是线性的,则属于多元线性回归。多元线性回归是单变量线性回归的扩展,其基本原理和方法类似于单变量线性回归分析。变量越多,计算过程就越复杂。本文重点介绍原理,可以通过统计软件进行计算。

多元线性回归

回归模型

多元线性回归模型类似于单变量线性回归模型,由几个部分组成:

回归方程

回归系数

通过代入样本值,可以得到回归系数a,b,…,g的点估计(不同样本得到的值不同),从而得到样本多元线性回归方程:

回归模型方差

随机变量的方差,即回归模型的方差,是由下图中的残差变化引起的。这个值可以通过样本数据的分散程度来估计。查看单变量线性回归分析,如下图所示:

计算公式如下:

图片[1]-【知识点】一元线性回归模型研究(二):变量越多-老王博客

回归系数计算

与单变量回归系数的计算一样,多元线性回归系数的估计值仍然是利用最小二乘法原理得到的,即将观测到的样本数据作为已知数据带入样本回归方程,然后 a, b, … , g 取偏导数(回想一下:最小二乘法)以获得它们的点估计。数值可以使用Excel和SPSS的统计软件进行计算。

相关性检验

正如一元(简单线性)回归方程的假设检验中所介绍的,检验回归方程相关性的方法有3种,效果相同,只需要选择其中一种即可(相关系数检验、回归方程检验、回归检验系数)。三个检验使用的统计量和检验原理与单变量线性回归的相关性检验相同,此处不再赘述。

需要重点检验多元相关系数

在多元回归中,决定系数(R平方)也称为拟合优度或多重决定系数(Multiple coefficient of determine),其计算公式与一元回归相同,即

参考上面的变化图。

R平方的值可以表明建立的模型与实际数据的拟合程度。值越接近1,拟合度越高。在单变量回归中,决定系数的平方根就是相关系数,表示两个变量之间的相关程度,可以是正的,也可以是负的(正相关或负相关);在多元回归中,涉及到正平方根,称为复相关系数,表示因变量。与所有自变量作为一个整体的相关程度。

决定系数(R平方)也称为拟合优度,因为当样本量相同且自变量数量相同时r软件中多元线性回归,它可以指示不同模型的拟合程度。当样本量不同或自变量个数不同时,需要用决定系数来比较拟合度,因为它们对决定系数的影响很大(回归计算公式)。

为了比较包含不同数量自变量的方程组的拟合程度,需要对R平方进行校正(去除自变量数量的影响),称为调整后的多重决定系数(Adjusted多重决定系数)。公式如下:

可以查看上面的变异函数以帮助理解。

区间估计和预测

与单变量回归分析一样,经过上述分析,1、可以对回归系数(a,b,…,g)进行区间估计;因变量的值是按区间估计的。

随着自变量个数的增加,回归分析的计算量也很大,需要借助分析软件来帮助计算。下一部分使用具体案例r软件中多元线性回归,通过Excel分析工具对计算结果进行计算分析,帮助大家掌握单变量(简单线性)回归分析和多元线性回归分析。

数据分析网(),中国领先的大数据门户网站,旨在帮助大数据从业者和爱好者提供大数据新闻、前沿技术和行业观点的信息平台。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论