对问题的分析研究者拟将变量归纳为某几项信息进行分析

1、问题和数据

公司经理拟招聘一名对工作热情、自主性、热情和责任感要求高的员工。为此spss主成分回归步骤,经理特意设计了一份包含25个相关问题的测试问卷,从315名申请者中寻找最合适的人选。

在25个相关问题中,Qu3-Qu8、Qu12、Qu13衡量工作积极性,Qu2、Qu14-Qu19衡量工作自主性,Qu20-Qu25衡量工作积极性,Qu< @1、Qu9-Qu11衡量工作责任感,每个问题有“同意”、“同意”、“未定”、“不同意”五个等级。

经理想根据这25个问题来判断申请人在这四个方面的能力,现收集申请人的问卷信息,部分数据总结如下:

2、问题分析

研究人员打算将多个变量汇总为某些信息进行分析,即降低数据结果的维度。在这种情况下,我们可以进行主成分提取,但首先需要满足两个假设:

假设1:观测变量为连续变量或有序分类变量,例如本研究中的测量变量均为有序分类变量。

假设2:变量之间存在线性相关。

经分析,本研究的数据符合假设1,那么如何检验假设2并进行主成分提取?

3、SPSS 操作

(1)在主页点击分析→降维→因子

会弹出下图

(2)将变量Qu1-Qu25放入Variables列

(3)点击Descriptive弹出下图

(4)点击Statistics列的Initial solution选项,然后点击Correlation Matrix列的Coefficients、KMO和Bartlett’s test of sphericity、Reproduced和Anti_image选项

(5)点击继续→提取

(6)点击显示列中的屏幕绘图选项

(7) 点击继续→旋转

(8) 点击 Method 列中的 Varimax 选项,然后点击 Display 列中的 Rotated solution 和 Loading plot(s) 选项

(9)点击继续→分数

(10) 点击另存为变量,激活方法列并点击回归选项

(11) 点击继续→选项

(12) 点击按大小排序和抑制小系数选项并在下面的绝对值列中输入“.3”

(13)点击继续→确定

假设检验

假设 2:线性相关

经过以上操作,SPSS输出相关矩阵表如下:

当变量很多时,变量之间的相关矩阵会很大。如本研究,相关矩阵是一个26*26的表格,为了在一个视野中呈现数据,我们只能列出部分结果。

此表主要用于判断变量之间的线性相关性,从而决定变量的选择,即如果一个变量与同组其他变量的相关性不强,我们认为这个变量为与其他变量有关。变量度量的内容不同,不应包含在主成分提取中。

一般来说,如果相关系数大于等于0.3,我们认为变量之间存在良好的线性相关。从本研究结果来看,工作热情(Q3-Q8、Q12、Q13)、工作自主性(Q2、Q14-19))、工作热情(Q20-2 5)与工作责任的测量(Q1,Q9-11),各组变量之间的相关系数大于0.3,说明各组之间存在线性相关的变量,表明假设 2 得到满足。

此外,对主成分分析的数据结构进行检验的方法有以下三种:用Kaiser-Meyer-Olkin(KMO)检验对数据进行整体分析,用KMO检验对每个变量进行个体分析,以及Bartlett 的球形检验)。接下来,我们将一一介绍这三种方法。

KMO检验对数据结构的整体分析

KMO检验主要用于主成分提取的数据情况。一般来说,KMO检验系数分布在0到1之间。如果系数值大于0.6,则认为样本满足合理数据结构的要求。但以往学者普遍认为,只有当KMO检验系数值大于0.8时,主成分分析的结果才具有较好的实用性,具体系数如下:

SPSS 输出以下结果:

即本研究的KMO检验系数为0.833。根据系数对应表,我们认为本研究的数据结构非常好(有功),具有相关性,满足假设2。

通过KMO检验对每个变量进行单独分析

SPSS输出的各个变量的KMO检验结果如下:

组织为:

与上面对整体KMO检验系数的介绍类似,单变量KMO检验的分析结果也分布在0到1之间。如果系数大于0.5,则单变量被认为符合要求;如果系数大于0.8,则认为单变量结果良好。本研究中任一变量的KMO检验结果均大于0.7,即各变量的结果一般,但仍满足假设2。

巴特利特检验

Bartlett检验的原假设是研究数据之间的相关矩阵是一个完美矩阵,即对角线上的所有系数都为1,非对角线上的所有系数都为0。

在这个完美矩阵的情况下,变量之间不存在相关性,即多个变量不能简化为几个分量,也不需要主成分提取。因此,我们要拒绝 Bartlett 检验的原假设,SPSS 输出如下:

本研究中,Bartlett检验的P值小于0.001,拒绝原假设,即认为研究数据可以通过主成分提取,假设2 满意。

4。结果解读

对主成分结果的分析主要从三个方面进行:公因子方差(communalities)、主成分的提取和主成分的强制提取。接下来,我们将一一为您介绍。

4.1 个公因子方差结果

SPSS输出公因子方差结果如下:

在这个阶段,与研究中的数据一样多的变量将输出尽可能多的组件。如果本研究中有 25 个变量,则对应的成分有 25 个。

在上表中,“初始”列表示当包括所有成分时,每个变量的解释变异度为1,即100%被解释。这是可以理解的,因为在这个阶段我们没有删除任何信息,数据的差异都可以解释。

“提取”列表示当我们只保留选定的组件时,解释变量变化的程度。这也很好理解,因为我们只保留了部分组件,所有变量的变化都在较小程度上得到了解释。

此表只是为了帮助您对主成分提取结果有一个初步的了解。接下来,我们将进入主分析阶段。

4.2 提取主成分

如上所述,由于研究中有许多变量,主成分的提取将产生尽可能多的主成分。我们的主要目的是通过选择主成分来降低数据的维度,但同时也要注意尽可能多地包含对数据变化的解释。

一般情况下,结果输出的第一个主成分包含的数据变异最多,其次是第二个主成分,后续主成分的变异程度依次减小。 SPSS输出结果如下:

上表的标记部分是对研究中所有主要成分的介绍。本研究共有25个变量,方差的总特征值为25,即每个变量本身的特征值为1。

Total 列表示各主成分对数据变异的解释程度。以第一个主成分为例,其特征值为6.730,占总方差的6.730/25×100 = 26.919%(% of Variance column) 同理,第二个主成分的特征值为3.342,占整体变异的13.369%,以此类推。

那么,我们应该如何提取主成分呢?

目前主要有四种方法可以帮助你确定提取的主成分个数,分别是:(1)特征值大于1,(2)解释数据变异的比例, (3)陡坡图测试,以及(4)解释能力判断,我们一一为大家介绍。

(1)特征值大于1

一般来说,如果一个主成分的特征值小于1,那么我们认为主成分对数据变化的解释程度小于单个变量,应该被剔除。本研究结果如下:

从上表可以看出,第五主成分的特征值为1.049,大于1;而第六主成分的特征值为0.951,小于1,即保留前五位。位的主成分,不包括余数。

这种方法的主要问题是,如果研究结果中某些主成分的特征值非常接近1,那么这种方法对提取的主成分个数的暗示作用就会变得不显着。例如,在一项研究中,第五主成分的特征值为1.002,第六主成分的特征值为0.998。虽然这个方法还是建议保留前五个主成分,但是我们会对是否也应该保留第六个主成分存有疑问,还需要其他方法来辅助判断。

(2)解释数据变化的比例

在根据主成分解释的数据方差的比例来判断提取的主成分个数时,我们主要依靠两个指标:单个主成分解释的数据方差的比例和总的数据方差被主成分解释的比例顶部的主成分。 SPSS输出结果如下:

首先,先前的研究表明,提取的主成分应解释至少 5-10% 的数据方差。根据这个指标spss主成分回归步骤,我们认为应该提取前四个主成分(第四个主成分解释了8.070%的数据方差,第五个主成分解释了4.196%的数据方差)。

同时,以往的学者也认为提取的主成分应该累计解释60-70%的数据变异。相应地,根据这个指标,我们认为应该提取前5个主成分(前4个主成分累计解释了59.949%的数据变异,前5个主成分累计解释了6个4.145 % 数据变化)。

这种判断方法的缺点是比较主观。我们可以提取60%或70%,这10%的比例不同往往会导致提取的主成分数量不同。

(3)碎石图测试

SPSS输出陡坡图如下:

陡坡图是基于每个主成分解释数据变化的程度的图。在图中,每个主成分都是一个点,我们通过“陡坡趋于平坦”的位置来判断提取的主成分个数。在本研究中,第五个主成分之后的数据趋于平稳,因此我们认为可以提取前四个主成分。

(4)解释能力判断

我们都知道我们提取主成分的目的是为了降低数据结构的维数,但同时我们也要注意提取的主成分应该具有一定的意义,即具有解释研究内容的能力。各主成分对对应变量的解释力(相关系数小于0.3的数据已剔除),如下表:

从上表可以看出,当我们提取前五个主成分时,数据结构还是比较复杂的,存在两个主成分同时解释一个变量的情况。例如,第一主成分和第五主成分同时解释 Qu18 变量;再比如,第二主成分和第五主成分同时解释Qu8变量。

在这种情况下,主成分提取的结果更难解释。例如,我们无法区分变量 Qu18 的信息是由第一主成分反映还是由第二主成分反映。因此,我们更倾向于提取对任何变量没有重复解释的主成分,即提取前四个主成分。

您应该已经注意到,不同方法建议的主成分提取量并不完全相同,这需要我们根据研究经验和目的做出自己的选择。总之,提取主成分的判断是一个比较主观的过程,没有最优的判断方法。每种方法的优缺点都是相对的。

对于本研究,我们认为应该提取前四个主成分。该结果与陡坡图检验的提示和解释力的判断相同,但与特征值大于 1 和解释数据变异比例的提示不同。根据实际情况综合判断。

4.3 强制提取主成分

由于SPSS自动输出的主成分提取结果主要是根据特征值大于1这个指标来判断的,不一定符合我们的实际需要,所以在实际中我们经常要进行主成分的强制提取工作。 ,SPSS操作如下:

(1)在主页点击分析→降维→因子

会弹出下图

(2)点击解压

(3)在Extract列中点击Fixed number of factors选项,在Factors to extract列中填写4

(4)点击继续→确定

经过上述SPSS操作后,我们得到的结构与上面提到的基本相同,只是提取的主成分个数固定为4个,而不是SPSS自动输出前5个主成分。 Total Variance Explained 表的输出如下:

表格显示前四个主成分对数据变异的累积解释率为59.9%,与上一个结果相同。可以看出,我们提取主成分后,只包含了原始数据信息的59.9%,不到60%,但每个提取的主成分解释了超过5%的数据变化.

Rotated Component Matrix table(不包括相关系数小于0.3的数据),提取后各主成分的解释如下:

在设计问卷时,研究人员打算用Qu3-Qu8、Qu12、Qu13衡量工作动机,Qu2、Qu14-Qu19衡量工作自主性,Qu20- Qu25衡量工作积极性,Qu1、Qu9-Qu11衡量工作责任。

从上表可以看出,每个主成分在提取前四位后所解释的变量信息与分类基本一致。相应地,第一主成分主要体现工作积极性,第二主成分主要体现工作自主性,第三主成分主要体现工作积极性,第三主成分主要体现工作责任感。可以看出,前四个主成分的提取对结果有很好的解释能力。

当然,为了更好的上报结果,我们需要填写相关系数小于0.3的数据。 SPSS的操作方法是在Factor Analysis界面的Coefficient Display Format栏中点击Sorted by size选项。如下:

重新运行主成分分析后,SPSS输出下表:

表中包含了提取后的所有主成分与变量的相关系数,但不容易观察主成分与变量的关系。为了便于理解,我们将大于0.3的相关系数进一步加粗,如下图:

5、写结论

本研究使用主成分分析通过 25 个问题调查 315 名候选人的工作能力。研究变量之间存在线性相关(每组变量之间的相关系数大于0.3),数据结构合理(KMO检验系数为0.833,单变量KMO检验系数均大于0.7,Bartlett检验结果为P

主成分提取结果表明,本研究前5个主成分的特征值均大于1,解释了26.9%、13.4%和8.1% 和 4.2% 总数据变化。但是,陡坡图的分析表明应该提取前四个主成分(图1),而可解释性的判断也表明前四个主成分的提取更符合研究的实际需要。

图 1 屏幕图

因此,本研究最终提取了前四个主成分。提取的主成分可以解释59.9%的数据变异,分别反映应聘者的工作热情、工作自主性、工作热情和工作责任感,如表1所示。

表 1. 具有四分量问卷的 Varimax 旋转的 PCA 旋转结构矩阵

后记:研究人员可以根据主成分提取的结果,计算出相应的主成分得分或直接将提取的主成分作为新生成的变量进行数据分析。在保留大部分原始信息的情况下,主成分提取主要用于降低数据维度,简化数据结构,帮助研究人员更好地解释研究内容和结果。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论