卡方检验是一种用途广泛的假设检验方法,用于分类数据的统计推断。简单来说就是检验实际的数据分布情况与理论的分布情况是否相同的假设检验方法。怎么理解这句话呢,拿一个群体的身高来说,理论上身高低于1米5的占10%,高于2.0米的占10%,中间的占80%,现在我们抽取了这个群体中的一群人,那么对应这三个身高段的人数比例关系是不是1:8:1呢?卡方分析就是解决这类问题的。
其基本思想是根据样本的观测值与期望值之间的偏离程度进行决策:观测值与期望值之间的偏离程度越大,卡方值就越大,说明观测值与期望值越不符合;反之,卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明二者完全吻合。下面我们通过两个例子来更好地理解卡方检验的应用。
例1:吸烟与咳嗽有关系吗?
大家都知道,吸烟是一种不良嗜好,可以诱发多种疾病。我们采用流行病学的调查方法,分析吸烟与咳嗽的关系。总共调查了2000人,结果如下:
有人会说,吸烟和不吸烟的人都有100人咳嗽,所以吸烟和咳嗽没有关系;也有人会说,吸烟的咳嗽的比例是12.5%(100/800),不吸烟的人咳嗽的比例是8.33%,吸烟的人咳嗽的比例高是很明显的。这两种观点都有问题,得出结论不能简单看比例,还要看样本量有多大,在统计学中,1/8和100/800是完全不同的,并且抽样都是有误差的,所以要得出比较可靠的结论,需要进行统计分析。
为了进行统计分析,我们需要建立假设:
原假设:吸烟与咳嗽相互独立(彼此不影响,或者说吸烟对咳嗽没有影响)
备择假设:吸烟与咳嗽不独立
我们假定原假设成立,看出现目前样本数据的概率是否足够小。如果概率足够小,我们就有足够的理由认为原假设(吸烟对咳嗽没有影响)是错误的,就可以做出拒绝原假设或者推翻原假设的结论,这就是反证法的思想。下面我们进行检验:
首先我们看Person卡方检验的结果。P值=0.002,这里的P值就是概率,说明如果原假设成立时,我们收集到这样的样本数据的可能性。P值太小了(一般看P值是否小于0.05),我们认为这种情况发生的可能性太小了,所以认为原假设是不成立的,得出的结论就是吸烟和咳嗽是有关系的。
得出了吸烟和咳嗽有关系的结论后,我们还想知道二者之间是什么关系?吸烟“致”咳嗽还是吸烟“治”咳嗽?此时要看单元格的内容。每个单元格中有3个数字,其中最上方的为观测计数,如吸烟的有100人咳嗽就是观测值;中间的数字为期望计数,下方的数字为卡方贡献。我们去找哪个单元格卡方贡献最大,结果是吸烟对咳嗽的单元格卡方贡献是5最大,说明观测值与期望值差别最大。这个单元格的观测计数为100,期望计数为80,得出的结论是吸烟的人咳嗽的多,得出的结论是吸烟“致”咳嗽。
例2:北京、上海、深圳对第二套住房贷款发放宽严程度是否有显著差别?
为了研究全国主要城市银行对第二套住房发放贷款宽严程度是否相同。调查了北京、上海和深圳三个城市的黄金商业区的四大银行贷款综合情况,记录了申请总数、批准数和未批准数:
检验结果如下:
首先,P值=0.000小于0.05,说明三个城市对第二套住房贷款发放宽严程度有显著差别;卡方贡献最大的是深圳的批准数,且观测值(实际批准数)为67,高于期望,47.24,说明深圳批准的多,比较宽松。卡方贡献第二大的为北京的批准数,且观测值为40,期望值为56.6,说明北京批准的少,审批严格。上海的批准数和未批准数的卡方贡献都很小,说明上海处于平均水平。
好了,卡方检验的应用就介绍到这里了,目测好像是原本就明白的自然明白,不明白的依然不明白。哈哈,好吧,如果有疑问,欢迎留言探讨或来电咨询。
|