研究一个问题的过程,经常是从单变量的分析开始,然后进一步分析双变量之间的关系,然后拓展到分析多变量之间的关系。多变量分析与单变量分析最大的不同之处,就是客观事物之间的关联性开始展露出来。在统计学中,研究客观事物之间的相互关联的数量特征具有十分重要的理论意义和实践意义。
相关分析的基本概念
1、相关系数的含义
相关分析是研究变量间密切程度的一种常用统计方法。相关系数是描述相关关系强弱程度和方向的统计量,通常用r表示。
①相关系数的取值范围在-1和+1之间,即:–1≤r≤ 1。
②计算结果,若r为正,则表明两变量为正相关;若r为负,则表明两变量为负相关。
③相关系数r的数值越接近于1(–1或+1),表示相关系数越强;越接近于0,表示相关系数越弱。如果r=1或–1,则表示两个现象完全直线性相关。如果=0,则表示两个现象完全不相关(不是直线相关)。
④|r|≤|r|≤0.5,称为低度相关、0.5≤|r|≤0.8,称为显著(中度)相关、0.8≤|r|≤1,称为高度相关
⑤r值很小,说明X与Y之间没有线性相关关系,但并不意味着X与Y之间没有其它关系,如很强的非线性关系。
⑥直线相关系数一般只适用与测定变量间的线性相关关系,若要衡量非线性相关时,一般应采用相关指数R。
2.常用的简单相关系数
(1)皮尔逊(Pearson)相关系数:皮尔逊相关系数亦称积矩相关系数,1890年由英国统计学家卡尔•皮尔逊提出。定距变量之间的相关关系测量常用Pearson系数法。计算公式如下:
上图是样本的相关系数。计算皮尔逊相关系数的数据要求:变量都是服从正态分布,相互独立的连续数据;两个变量在散点图上有线性相关趋势;样本容量。
(2)斯皮尔曼(Spearman)等级相关系数:Spearman相关系数又称秩相关系数,是用来测度两个定序数据之间的线性相关程度的指标。
当两组变量值以等级次序表示时,可以用斯皮尔曼等级相关系数反映变量间的关系密切程度。它是根据数据的秩而不是原始数据来计算相关系数的,其计算过程包括:对连续数据的排秩、对离散数据的排序,利用每对数据等级的差额及差额平方,通过公式计算得到相关系数。其计算公式为:
上图中,rR为等级相关系数,d为每对数据等级之差,n为样本容量。斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。
(3)肯德尔(Kendall)等级相关系数:肯德尔(Kendall)等级相关系数是在考虑了结点(秩次相同)的条件下kendall相关系数公式,测度两组定序数据或等级数据线性相关程度的指标。它利用排序数据的秩,通过计算不一致数据对在总数据对中的比例,来反映变量间的线性关系的。其计算公式如下:
上述公式中,rk是肯德尔等级相关系数;i是不一致数据对数;n为样本容量。计算肯德尔等级相关系数的数据要求与计算斯皮尔曼等级相关系数的数据要求相同。
3、相关系数的显著性检验
通常,我们用样本相关系数r作为总体相关系数ρ的估计值,而r仅说明样本数据的X与Y的相关程度。有时候,由于样本数据太少或其它偶然因素,使得样本相关系数r值很大,而总体的X与Y并不存在真正的线性关系。因而有必要通过样本资料来对X与Y之间是否存在真正的线性相关进行检验,即检验总体相关系数ρ是否为零(即原假设是:总体中两个变量间的相关系数为0)。SPSS的相关分析过程给出了该假设成立的概率(输出结果中的Sig.)。
样本简单相关系数的检验方法为:
当原假设H0:ρ=0,n>=50时,检验统计量为:
当原假设H0:ρ=0,n
式中,r为简单相关系数;n为观测值个数(或样本容量)。
SPSS分析案例
某高校对学生的一些身体特征数据进行相关分析,数据格式如下图所示。一般认为,人的肺活量与身高、 体重之间有比较明显的相关性。为了验证命题是否成立。以下就对体重与肺活量进行两变量相关分析。
SPSS相关分析的步骤:
依次点击菜单”分析——相关——双变量”,执行双变量相关分析过程,其主要界面如下图:
在变量列表中选中肺活量与体重两个变量,并将其移入到分析变量列表,在“相关系数”设置栏中可选择需要计算的相关系数类型kendall相关系数公式,有三个选项:Pearson(默认)、Kendall的tau-b和Spearman。
“显著性检验”子设置栏可设置显著性检验的方式,有两种选择。“双侧检验”单选框表示双边检验(默认选项),当事先不知道相关的方向(正相关还是负相关)时选中此项;“单侧检验”单选框表示单边检验,当事先已经知道相关的方向时选中此项。无论选择哪一项,显著性检验的零假设都是总体中两个变量不相关的。
“标记显著性相关”复选框:勾选它后的输出结果中,相关系数在0.05的显著性水平上不为0时,右上角用“*”标识其比较显著;相关系数在0.01的显著性水平上不为零时,右上角用“**”标识其非常显著。
SPSS结果分析:
从Pearson相关系数集齐检验结果可以发现,体重与肺活量的相关关系系数为0.736,且在0.01水平上显著,而且从kendall与Spearman相关系数可以发现,均在0.01水平上显著,从而推断体重与肺活量之间存在明显的正相关关系。
温馨提示:需要数据文件的朋友请联系平台或添加微信号(spsskeyan)获取。
———END———
限 时 特 惠:本站每日持续更新海量各大内部创业教程,一年会员只需128元,全站资源免费下载点击查看详情
站 长 微 信:jiumai99