卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)
一、什么是卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
二、卡方检验的基本原理
1、卡方检验的基本思想
卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
2、卡方值的计算与意义
χ2值表示观察值与理论值之问的偏离程度。计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): H_0 计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。i水平的期望频数Ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1(计算Ei时用到的参数个数)个自由度的卡方分布。
作为学术界的领袖,Pearson先生当初发表在《哲学杂志》上的χ2论文题目为:On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling.
由卡方的计算公式可知,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越接近,两者之间的差异越小,χ2值越小;反之,观察频数与期望频数差别越大,两者之间的差异越大,χ2值越大。换言之,大的χ2值表明观察频数远离期望频数,即表明远离假设。小的χ2值表明观察频数接近期望频数,接近假设。因此,χ2是观察频数与期望频数之间距离的一种度量指标,也是假设成立与否的度量指标。如果χ2值“小”,研究者就倾向于不拒绝H0;如果χ2值大,就倾向于拒绝H0。至于χ2在每个具体研究中究竟要大到什么程度才能拒绝H0,则要借助于卡方分布求出所对应的P值来确定。
3、卡方检验的样本量要求
卡方分布本身是连续型分布,但是在分类资料的统计分析中,显然频数只能以整数形式出现,因此计算出的统计量是非连续的。只有当样本量比较充足时,才可以忽略两者问的差异,否则将可能导致较大的偏差具体而言,一般认为对于卡方检验中的每一个单元格,要求其最小期望频数均大于1,且至少有4/5的单元格期望频数大于5,此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求,可以采用确切概率法进行概率的计算。
三、卡方检验的类型
1、四格表资料的卡方检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1)专用公式:
若四格表资料四个格子的频数分别为at检验临界值,b,c,d,则四格表资料卡方检验的卡方值=
,自由度v=(行数-1)(列数-1)
2)应用条件:
要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。
2、行×列表资料的卡方检验
行×列表资料的卡方检验用于多个率或多个构成比的比较。
1)专用公式:r行c列表资料卡方检验的卡方值=
2)应用条件:
要求每个格子中的理论频数T均大于5或1
3、列联表资料的卡方检验
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
1)R×C 列联表的卡方检验:
R×C 列联表的卡方检验用于R×C列联表的相关分析,卡方值的计算和检验过程与行×列表资料的卡方检验相同。
2)2×2列联表的卡方检验:
2×2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根据卡方值计算公式的不同,可以达到不同的目的。当用一般四格表的卡方检验计算时,卡方值=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d),此时用于进行配对四格表的相关分析,如考察两种检验方法的结果有无关系;当卡方值=( | b − c | − 1)2/(b+c)时,此时卡方检验用来进行四格表的差异检验,如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R×C表的卡方检验相同。
四、卡方检验的用途
卡方检验最常见的用途就是考察某无序分类变量各水平在两组或多组间的分布是否一致实际上,除了这个用途之外.膏方检验还有更广泛的应用。具体而言,其用途主要包括以下几个方面:
(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。
(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。
五、卡方检验的应用条件
适用于四格表应用条件:
1)随机样本数据。两个独立样本比较可以分以下3种情况:
(1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
(2)如果理论数T<5但T≥1,并且1≥40,用连续性校正的卡方进行检验。
(3)如果有理论数T<1或n<40,则用Fisher’s检验。
2)卡方检验的理论频数不能太小。
R×C表卡方检验应用条件:
(1)R×C表中理论数小于5的格子不能超过1/5;
(2)不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
六、卡方检验应用实例
1.应用实例——适合度检验
实际执行多项式试验而得到的观察次数,与虚无假设的期望次数相比较,称为卡方适度检验,即在于检验二者接近的程度,利用样本数据以检验总体分布是否为某一特定分布的统计方法。这里以掷骰子为例介绍适度检验的方法。
【例1】
(1)假设掷一骰子120次,各点数共出现次数为a,b为各点数出现的期望值120×1/6=20,建立工作表文件,如图1所示。
(2)设置零假设解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): H_0 :观察分布等于期望分布。
(3)计算卡方检验统计量,如图2所示。
D2=(B2-C2)^2/C2
D8=SUM(D2:D7)
(4)确定自由度,(6-1)×(2-1)=5;选择显著水平α=0.05。
(5)利用Excel提供的CHIINV函数求临界值,在D9单元格中键入“=CHIINV(0.05,5)”按回车键,得临界值11.07。
(6)比较临界值和统计量,11.07>2.3,即临界值大于统计量,故差异不显著,接受H0。
2.应用实例2——独立性检验
卡方独立性检验是用来检验两个属性间是否独立。一个变量作为行,另一个变量作为列。下面一例便是介绍卡方独立性检验的方法。
【例2】某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法,结果分为“有关、无关、不好说,,三种答案,图3中县调查得到的数据。
下面是利用Excel解决此问题的步骤。
(1)零假设H0:性别与收入无关。
(2)确定自由度为(3-1)×(2-1)=2,选择显著水平α=0.05。
(3)求解男女对收入与性别相关不同看法的期望次数,这里采用所在行列的合计值的乘机除以总计值来计算每一个期望值,如图4所示,在单元格B9中键入“=B5*E3/E5”,同理(第一个等于号理解为在单元格中键入):
(4)利用卡方统计量计算公式计算统计量,在单元格B15中键入“=(B3-B9)^2/B9”,其余单元格依次类推,结果如图5所示。
(5)利用Excel提供的CHIINV函数计算显著水平为0.05,自由度为2卡方分布的临界值,在Excel单元格中键入“=CHIINV(0.05,2)”按回车键,得临界值为5.9915。
(6)比较统计量度和临界值,统计量14.32483大于临界值5.9915,故拒绝零假设。
3.应用实例3——统一性检验
检验两个或两个以上总体的某一特性分布,也就是各“类别”的比例是否统一或相近,一般称为卡方统一性检验或者卡方同质性检验。下面一例便是利用卡方统一性检验的例子。
【倒3】某咨询公司想了解南京和北京的市民对最低生活保障的满意程度是否相同。他们从南京抽出600居民,北京抽取600居民,每个居民对满意程度(非常满意、满意、不满意、非常不满意)任选一种,且只能选一种。将统计结果键入Excel工作表中,如图6所示。
下面是利用Excel解决此问题的步骤。
(1)零假设H0:南京和北京居民对最低生活保障满意程度的比例相同。
(2)确定自由度为(4-1)×(2-1)=3,选择显著水平α=0.05。
(3)求解卡方检验的l临界值,在Excel单元格中键入“=CHIINV(0.05,3)”,按回车键得临界值为7.81。
(4)计算北京和南京不同满意程度的期望值,在单元格B11和C11中分别键入“=$B$7*D3/$D$7”和“=$C$7*D3/$D$7”,选中B11:C11,按住C11右下角填充控制点,填充至C14。
(5)计算卡方统计量,在单元格B19中键入“=(B3-B11)^2/B11”,其余单元格依次类推,结果如图7所示。
(6)比较统计量和临界值,统计量1.3875小于临界值7.81,故接受零假设。
计数调整型抽样检验
一、什么是计数调整型抽样检验
计数调整型抽样检验是根据过去的检验情况,按一套规则随时调整检验的严格程度,从而改变也即调整抽样检验方案。计数调整型抽样方案不是一个单一的抽样方案,而是由一组严格度不同的抽样方案和一套转移规则组成的抽样体系。
因为计数调整型方案的选择完全依赖于产品的实际质量,检验的宽严程度就反映了产品质量的优劣,同时也为使用方选择供货方提供依据。
二、适用场合及目的
计数调整型抽样方案,主要用于连续批的检验,通过调整宽、严标准可促进厂方提高质量。
三、制定抽样方案的步骤
四、计数调整型抽样检验系统的构成与使用
五、计数调整型抽样检验的发展
美国军用标准MIL-STD-105D是较早使用的调整型抽样标准,也是应用最为广泛的调整型抽样标准。它是1945年由哥伦比亚大学统计研究小组为美国海军制定的抽样检验表。后经多次修改,由国际标准化组织(ISO)在1974年发布为国际标准ISO2859,我国参照这个标准制定了 GB/T 2828《逐批检查计数抽样程序及抽样表(适用于连续批的检查)》,在1981年首次发布,并于1987年发布了修订版。ISO后来对 ISO2859作了重大修订,将该标准作为一个统称为《计数抽样检验程序》的系列标准的第一部分,即《按接收质量限(AQL)检索的逐批抽样计划》,编号为ISO2859-1:1999。我国于2003年发布了与此等同的国家标准GB/T 2828.1-2003。
以GB/T2828.1--2003为代表的计数调整型抽样检验的主要特点有:
(1)主要适用于连续批检验
连续批是由同一生产厂在认为相同条件下连续生产的一系列的批。如果一个连续批在生产的同时提交验收,在后面的批生产前,前面批的检验结果可能是有用的,检验结果在一定程度上可以反映后续生产的质量。当前面批的检验结果表明过程已经变坏,就有理由使用转移规则来执行一个更为严格的抽样程序;反之若前面的检验结果表明过程稳定或有所好转,则有理由维持或放宽抽样程序。GB/T 2828.1是主要用于连续批的抽样标准。
与此相对应的,是孤立批检验,在某些情形,GB/T 2828.1也可用于孤立批的检验(该标准中的12.6),但一般的,对孤立批检验,应采用GB/T 15239。
(2)关于接收质量限(AQL)及其作用
在 GB/T 2828.1中,接收质量限AQL有特殊意义,起着极其重要的作用。接收质量限是当一个连续批被提交验收抽样时,可允许的最差过程平均质量水平。它反映了使用方对生产过程质量稳定性的要求,即要求在生产连续稳定的基础上的过程不合格品率的最大值。如规定AQL=1.0(%),是要求加工过程在稳定的基础上最大不合格品率不超过1.0%。AQL和过程能力指标也是有关的,如要求某产品加工过程能力指数Cp为1.0,则要求过程不合格品率为 0.27%,此时设计抽样方案可以规定AQL为0.27(%)。
在GB/T2828.1中,AQL也被作为一个检索工具。使用这些按 AQL检索的抽样方案,来自质量等于或好于AQL的过程的检验批,其大部分将被接收。AQL是可以接收和不可以接收的过程平均之间的界限值。AQL不应与实际的过程质量相混淆,在GB/T2828.1中,为避免过多批不被接收,要求过程平均质量比AQL值更好,如果过程平均不比AQL一贯好,将会转移到加严检验,甚至暂停检验。
接收质量限AQL可用不合格品百分数或每百单位产品不合格数表示,当以不合格品百分数表示质量水平时,AQL值不超过10%,当以每百单位不合格数表示时t检验临界值,可使用的AQL值最高可达每百单位产品中有1000个不合格。
在GB/T2828.1中AQL的取值从0.01至1 000共31个级别,它的数值和样本量一样都是根据优先数系的原则设计的。如果AQL的取值与表中所给数据不同,不能使用该抽样表,因此在选取AQL值时应和GB/T 2828.1抽样表中一致。
可靠性试验(Reliability Test)
一、可靠性试验概述
可靠性试验是对产品进行可靠性调查、分析和评价的一种手段。试验结果为故障分析、研究采取的纠正措施、判断产品是否达到指标要求提供依据。
可靠性试验一般是在产品的研究开发阶段和大规模生产阶段进行的。在研究开发阶段,可靠性试验主要用于评价设计质量、材料和工艺质量。在大规模生产阶段,可靠性试验的目的则是质量保证或定期考核管理。由于阶段不同,其目的和内容也不完全相同。
二、可靠性试验的目的
试验目的通常有如下几方面:
1. 在研制阶段用以暴露试制产品各方面的缺陷,评价产品可靠性达到预定指标的情况;
2. 生产阶段为监控生产过程提供信息;
3. 对定型产品进行可靠性鉴定或验收;
4. 暴露和分析产品在不同环境和应力条件下的失效规律及有关的失效模式和失效机理;
5. 为改进产品可靠性,制定和改进可靠性试验方案,为用户选用产品提供依据。
三、可靠性试验的分类
对于不同的产品,为了达到不同的目的,可以选择不同的可靠性试验方法。可靠性试验有多种分类方法.
1. 如以环境条件来划分,可分为包括各种应力条件下的模拟试验和现场试验;
2. 以试验项目划分,可分为环境试验、寿命试验、加速试验和各种特殊试验;
3. 若按试验目的来划分,则可分为筛选试验、鉴定试验和验收试验;
4. 若按试验性质来划分,也可分为破坏性试验和非破坏性试验两大类。
5. 但通常惯用的分类法,是把它归纳为五大类:A. 环境试验;B. 寿命试验;C. 筛选试验;D. 现场使用试验;E. 鉴定试验。
拟试验是通过一定方式的实验室试验,试验剖面要尽量符合使用的环境剖面,但不受场地的制约,可在产品研制、开发、生产、使用的各个阶段进行。具有环境应力的典型性、数据测量的准确性、记录的完整性等特点。通过试验可以不断地加深对产品可靠性的认识,并可为改进产品可靠性提供依据和验证。
现场试验是产品在使用现场的试验,试验剖面真实但不受控,因而不具有典型性。因此,必须记录分析现场的环境条件、测量、故障、维修等因素的影响,即便如此,要从现场试验中获得及时的可靠性评价信息仍然困难,除非用若干台设备置于现场使用直至用坏,忠实记录故障信息后才有可能确切地评价其可靠性。当系统规模庞大、在实验室难以进行试验时,则样机及小批产品的现场可靠性试验有重要意义。
这一天有你们真好,愿你们过得愉快。
您的关注是我最大的动力!
———END———
限 时 特 惠:本站每日持续更新海量各大内部创业教程,一年会员只需128元,全站资源免费下载点击查看详情
站 长 微 信:jiumai99