
作者:穿羽绒服的芒果 审稿人:环昌 封面:季江
多重共线性
在进行多元线性回归时,有一个隐含的假设,即自变量相互独立;如果自变量之间存在线性相关,则称为多重共线性。
如何判断自变量之间是否存在多重共线性?常用的评价指标有两种:容差和膨胀因子(VIF)。公差=1-Rj^2。其中 R 是当第 j 个自变量与其余变量回归时的决定系数。 orb 越接近 1,多重共线性越弱。通货膨胀系数:通货膨胀系数是球体的倒数。暴胀因子越接近1(暴胀因子的理论最小值为1),说明变量之间的多重共线性越弱。通常,如果暴胀因子>=10,则说明暴胀因子具有严重的多重共线性。
在SPSS中,您可以在回归分析时通过勾选“统计”选项卡的“共线性诊断”来自动计算公差和膨胀因子,以确定自变量是否高度相关以及是否存在多重共线性问题。
如何处理多重共线性
如果自变量之间存在多重共线性,则需要在进行回归分析之前对自变量进行处理。处理方法是主成分分析(PCA)。
2.1 个主成分分析
主成分分析是利用降维的思想,将一组高度相关的自变量转化为一组没有线性关系的自变量。转换后的变量称为主成分,可以反映原始数据的大部分。一般当自变量过多或相关性严重时,采用主成分分析来处理自变量,而主成分分析一般作为研究的中间环节。
2.2 常用统计数据
主成分分析中的几个统计:
特征根。主成分特征根的大小可以反映主成分的影响,表示该主成分平均能解释多少个原始变量。例如,如果特征根 λi=3.998,则表示主成分可以平均解释 3.998 个原始变量。如果特征根λi
主成分Zi的方差贡献率。主成分的方差反映了主成分中包含的原始变量的总信息量的百分比。
累计贡献率。按降序排列k个主成分的方差贡献率。累积贡献率是指前k个主成分的方差贡献率之和,反映了可以从前k个主成分中提取的原始变量的百分比。信息。在确定主成分个数时,一般选择累积贡献率达到70%-85%的前k个主成分。
2.PCA 的 3 种用途
PCA 的主要用途:
主成分评估
在进行多指标综合评价时,可以采用主成分分析法对指标进行浓缩,确定权重。 (即用于评估指标的研究)
主成分回归
在进行回归分析时,如果自变量之间存在高度相关性,可以使用PCA将自变量转化为相互独立的新自变量。
案例分析
第一步是数据标准化
(1)依次选择【分析】【描述性统计】【描述】,在“变量”对话框中选择变量y、x1、x2、x3,勾选“将标准化分数保存为变量”,点击确定。
数据中新增四列数据:ZY、ZX1、ZX2、ZX3,为标准化变量。
第二步,共线性诊断
选择【分析】【回归】【线性】
将ZY代入因变量,ZX1、ZX2、ZX3代入自变量
点击“统计”,勾选“共线性诊断”,点击“继续”,“确定”
结果解读:
决定系数R^2=0.992,说明由X1、X2、X3组成的回归模型可以解释Y的99.2%的信息,模型有高度契合。
方差分析结果spss主成分回归步骤,F=285.61,P
X1和X3的公差远小于1,膨胀系数远大于10,说明X1和X3存在严重的多重共线性。回归分析需要对自变量进行进一步处理。
第三步,主成分分析
SPSS没有专门的主成分分析模块,通过因子分析模块实现。
【分析】【降维】【因子分析】
将ZX1、ZX2、ZX3放入变量中
描述标签
提取标签
乐谱标签
结果解读
变量的相关系数矩阵spss主成分回归步骤,越接近1,相关性越强。
“总”是上面提到的特征根,“分量”是主成分。可以看出,前两个主成分的特征值接近1,累积方差达到99.91%,即这两个主成分可以解释99.91 % 的原始变量的信息,所以我们可以选择提取两个主成分。
因为在上一步的“提取”选项卡中,我们选择了根据特征根>1来确定主成分个数,所以本表只显示了一个主成分。由于现在确定要提取两个主成分,所以可以重复分析,将提取方法改为固定数2,如下图。
新的合成矩阵,所以
第四步,线性回归
计算新变量。 【换算】【计算变量】
使用新变量 ZY、Z1、Z2 进行回归分析。
结果解读
决定系数R^2=0.988,模型拟合度高。方差分析表明该模型是有意义的,其中至少一个变量的偏回归系数不为零。 Tolerance=1,膨胀系数VIF=1,不存在共线性。 t检验表明该常数无统计学意义,Z1、Z2
的p值
因此,回归模型为:ZY=0.690Z1+0.191Z2
(以上计算)
根据,
恢复变量,最终得到y=-9.1057+0.0727X1+0.6091X2+0.1062X3
总结
在进行回归分析时,如果自变量之间存在多重共线性问题,可以采用主成分分析来处理。使用 PCA 生成新变量,使用新变量构建回归模型,然后将其还原。
共线性判断方法
如果公差远离1、膨胀系数VIF大于10,则可视为共线性。
主成分分析要点
主成分个数的确定方法:一般可以选择特征向量大于1的主成分,但不一定。如果一个主成分的特征值接近于1,也可以提取为主成分;或者选择贡献率达到70-85%的累积方差Top p主成分。
主成分计算公式:
(ZX为标准化变量,0.999等数字为分量矩阵中各个变量的系数,λ为各个主分量的特征根)
回复20180614获取今日数据~
温暖
辛
提及==
显示
学校正在招聘内容作者、短视频创作者和课程讲师。详情请点击公众号下方菜单栏“招聘”!
请登录后发表评论
注册
社交帐号登录