吉江多重:怎么判断自变量之间存在多重共线性?(图)

作者:穿羽绒服的芒果 审稿人:环昌 封面:季江

多重共线性

在进行多元线性回归时,有一个隐含的假设,即自变量相互独立;如果自变量之间存在线性相关,则称为多重共线性。

如何判断自变量之间是否存在多重共线性?常用的评价指标有两种:容差和膨胀因子(VIF)。公差=1-Rj^2。其中 R 是当第 j 个自变量与其余变量回归时的决定系数。 orb 越接近 1,多重共线性越弱。通货膨胀系数:通货膨胀系数是球体的倒数。暴胀因子越接近1(暴胀因子的理论最小值为1),说明变量之间的多重共线性越弱。通常,如果暴胀因子>=10,则说明暴胀因子具有严重的多重共线性。

在SPSS中,您可以在回归分析时通过勾选“统计”选项卡的“共线性诊断”来自动计算公差和膨胀因子,以确定自变量是否高度相关以及是否存在多重共线性问题。

如何处理多重共线性

如果自变量之间存在多重共线性,则需要在进行回归分析之前对自变量进行处理。处理方法是主成分分析(PCA)。

2.1 个主成分分析

主成分分析是利用降维的思想,将一组高度相关的自变量转化为一组没有线性关系的自变量。转换后的变量称为主成分,可以反映原始数据的大部分。一般当自变量过多或相关性严重时,采用主成分分析来处理自变量,而主成分分析一般作为研究的中间环节。

2.2 常用统计数据

主成分分析中的几个统计:

特征根。主成分特征根的大小可以反映主成分的影响,表示该主成分平均能解释多少个原始变量。例如,如果特征根 λi=3.998,则表示主成分可以平均解释 3.998 个原始变量。如果特征根λi

主成分Zi的方差贡献率。主成分的方差反映了主成分中包含的原始变量的总信息量的百分比。

累计贡献率。按降序排列k个主成分的方差贡献率。累积贡献率是指前k个主成分的方差贡献率之和,反映了可以从前k个主成分中提取的原始变量的百分比。信息。在确定主成分个数时,一般选择累积贡献率达到70%-85%的前k个主成分。

2.PCA 的 3 种用途

PCA 的主要用途:

主成分评估

在进行多指标综合评价时,可以采用主成分分析法对指标进行浓缩,确定权重。 (即用于评估指标的研究)

主成分回归

在进行回归分析时,如果自变量之间存在高度相关性,可以使用PCA将自变量转化为相互独立的新自变量。

案例分析

第一步是数据标准化

(1)依次选择【分析】【描述性统计】【描述】,在“变量”对话框中选择变量y、x1、x2、x3,勾选“将标准化分数保存为变量”,点击确定。

数据中新增四列数据:ZY、ZX1、ZX2、ZX3,为标准化变量。

第二步,共线性诊断

选择【分析】【回归】【线性】

将ZY代入因变量,ZX1、ZX2、ZX3代入自变量

点击“统计”,勾选“共线性诊断”,点击“继续”,“确定”

结果解读:

决定系数R^2=0.992,说明由X1、X2、X3组成的回归模型可以解释Y的99.2%的信息,模型有高度契合。

方差分析结果spss主成分回归步骤,F=285.61,P

X1和X3的公差远小于1,膨胀系数远大于10,说明X1和X3存在严重的多重共线性。回归分析需要对自变量进行进一步处理。

第三步,主成分分析

SPSS没有专门的主成分分析模块,通过因子分析模块实现。

【分析】【降维】【因子分析】

图片[1]-吉江多重:怎么判断自变量之间存在多重共线性?(图)-老王博客

将ZX1、ZX2、ZX3放入变量中

描述标签

提取标签

乐谱标签

结果解读

变量的相关系数矩阵spss主成分回归步骤,越接近1,相关性越强。

“总”是上面提到的特征根,“分量”是主成分。可以看出,前两个主成分的特征值接近1,累积方差达到99.91%,即这两个主成分可以解释99.91 % 的原始变量的信息,所以我们可以选择提取两个主成分。

因为在上一步的“提取”选项卡中,我们选择了根据特征根>1来确定主成分个数,所以本表只显示了一个主成分。由于现在确定要提取两个主成分,所以可以重复分析,将提取方法改为固定数2,如下图。

新的合成矩阵,所以

第四步,线性回归

计算新变量。 【换算】【计算变量】

使用新变量 ZY、Z1、Z2 进行回归分析。

结果解读

决定系数R^2=0.988,模型拟合度高。方差分析表明该模型是有意义的,其中至少一个变量的偏回归系数不为零。 Tolerance=1,膨胀系数VIF=1,不存在共线性。 t检验表明该常数无统计学意义,Z1、Z2

的p值

因此,回归模型为:ZY=0.690Z1+0.191Z2

(以上计算)

根据,

恢复变量,最终得到y=-9.1057+0.0727X1+0.6091X2+0.1062X3

总结

在进行回归分析时,如果自变量之间存在多重共线性问题,可以采用主成分分析来处理。使用 PCA 生成新变量,使用新变量构建回归模型,然后将其还原。

共线性判断方法

如果公差远离1、膨胀系数VIF大于10,则可视为共线性。

主成分分析要点

主成分个数的确定方法:一般可以选择特征向量大于1的主成分,但不一定。如果一个主成分的特征值接近于1,也可以提取为主成分;或者选择贡献率达到70-85%的累积方差Top p主成分。

主成分计算公式:

(ZX为标准化变量,0.999等数字为分量矩阵中各个变量的系数,λ为各个主分量的特征根)

回复20180614获取今日数据~

温暖

提及==

显示

学校正在招聘内容作者、短视频创作者和课程讲师。详情请点击公众号下方菜单栏“招聘”!

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论