开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2020.09.21
第1关:自由度是什么?怎样确定?
答:(定义)构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制——要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。
所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来,自由度少一个。
答:在正态分布检验中,这里的M(三个统计量)为:N(总数)、平均数和标准差。
因为我们在做正态检验时,要使用到平均数和标准差以确定该正态分布形态,此外,要计算出各个区间的理论次数,我们还需要使用到N。所以在正态分布检验中,自由度为K-3
答:t检验适用于两个变量均数间的差异检验,多于两个变量间的均数比较要用方差分析。
无论哪种类型的t检验,都必须在满足特定的前提条件下:正态性和方差齐性,应用才是合理的。这是因为必须在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。
第4关:统计学意义(P值)
答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。
P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联
我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)
在许多研究领域,0.05的P值通常被认为是可接受错误的边界水平。
答:在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。
实践中,最后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以往该研究领域的惯例。
通常,许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果0.05≥P>0.01被认为是具有统计学意义,而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。
答:并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡方检验。这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。
随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。
答:在假设检验中,由于随机性我们可能在决策上犯两类错误。
一类是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第一类错误;
一类是假设不正确,但我们没拒绝假设,这类错误是“取伪”错误,被称为第二类错误。
一般来说,在样本确定的情况下,任何决策无法同时避免两类错误的发生,即在避免第一类错误发生机率的同时,会增大第二类错误发生的机率;或者在避免第二类错误发生机率的同时,会增大第一类错误发生的机率。人们往往根据需要选择对那类错误进行控制,以减少发生这类错误的机率。大多数情况下,人们会控制第一类错误发生的概率。
发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。
在这个前提下,假设检验按下列步骤进行:
确定假设
进行抽样,得到一定的数据
根据假设条件下,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值
依据所构造的检验统计量的抽样分布,和给定的显著性水平确定拒绝域及其临界值
比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设
到这一步,假设检验已经基本完成,但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,我们无法知道那一个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率(即给定的显著性水平),而无法知道具体在多大概率水平上犯错。
计算P值有效的解决了这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。
而且通过这种方法,我们还可以知道在p值小于α的情况下犯第一类错误的实际概率是多少,p=0.03<α=0.05,那么拒绝假设,这一决策可能犯错的概率是0.03。需要指出的是,如果P>α,那么假设不被拒绝,在这种情况下,第一类错误并不会发生。
答:与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好
答:卡方分布主要用于多组多类的比较,是检验研究对象总数与某一类别组的观察频数和期望频数之间是否存在显著差异,要求每格中频数不小于5,如果小于5则合并相邻组。
二项分布则没有这个要求。如果分类中只有两类还是采用二项检验为好。如果是2*2表格可以用fisher精确检验,在小样本下效果更好。
第10关:如何比较两组数据之间的差异性
答:从三个方面来回答
1.设计类型是完全随机设计两组数据比较,不知道数据是否是连续性变量?
2.比较方法:如果数据是连续性数据,且两组数据分别服从正态分布和方差齐性检验,则可以采用t检验,如果不服从以上条件可以采用其他检验。
3.想知道两组数据是否有明显差异?不知道这个明显差异是什么意思?是问差别有无统计学意义(即差别的概率有多大)还是两总体均数差值在哪个范围波动?如果是前者则可以用第2步可以得到P值,如果是后者,则是用均数差值的置信区间来完成的。
统计描述
概率分析
关于“小样本”预测
(2)总体方差估计总体方差
样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布”,样本的均值就是随机变量。
中心极限定理:如果从一个非正态总体X中抽出一组样本,且样本极大(至少大于30)
如何求置信区间?
计算期望值,和方差——〉采用标准分变换,求出上下限,满足置信区间。
3.验证结果(假设检验)
选择检验统计量-->确定显著性水平alpha-->计算p值--〉做作判断
分类
常用的分类方法有两种:逻辑回归和判别分析(DiscriminantAnalysis)。
在判别分析中,先验知道两个或多个分组或类别(clusters),然后基于已测量的特征将1个或多个新观测对象分类到一个已知类别中去。判别分析在每个类别下分别对预测变量X的分布进行建模,然后使用贝叶斯定理将这些变量转换为给定X值的对应类别的概率估计。这些模型可以是线性的或者二次方的:
线性判别分析(LinearDiscriminantAnalysis)为每个观测值计算「判别分数」来判断它应该属于哪个类别。判别分数是通过寻找自变量的线性组合得到的。它假设每个类别中的观测值都来自于多元高斯分布,并且预测变量的协方差在响应变量Y的所有k个水平上都相同。
二次判别分析(QuadraticDiscriminantAnalysis)提供了一个替代方法。与线性判别分析一样,二次判别分析假设每个Y类别的观察值都来自于高斯分布。然后,与线性判别分析不同的是,二次判别分析假设每个类都有自己的协方差矩阵。换句话说,预测变量并未假设在Y中的所有k个水平上都具有共同的方差。
重采样方法(ResamplingMethods)
重采样是从原始数据中重复采集样本的方法。这是一种非参数统计推断方法。换句话说,重采样方法不涉及使用通用分布表来计算近似的p概率值。
重采样根据实际数据生成一个唯一的采样分布。它使用实验方法而不是分析方法来生成唯一的样本分布。它产生的是无偏估计,因为它是基于研究人员研究的数据的所有可能结果生成的无偏样本。为了理解重采样的概念,你需要理解术语Bootstrapping和交叉验证(Cross-Validation)。
Bootstrapping在很多情况下是一种有用的方法,比如评估模型性能、模型集成(ensemblemethods)、估计模型的偏差和方差等。它的工作机制是对原始数据进行有放回的采样,并将「没被选上」的数据点作为测试用例。我们可以这样操作多次,并计算平均得分作为模型性能的估计。
交叉验证是评估模型性能的一种方法,它通过将训练数据分成k份,使用k-1份作为训练集,使用保留的那份作为测试集。以不同的方式重复整个过程k次。最终取k个得分的平均值作为模型性能的估计。
子集选择(SubsetSelection)
最优子集法(Best-SubsetSelection)对p个自变量的所有可能组合分别做最小二乘法回归,查看最终的模型拟合效果。该算法分为2个阶段:
拟合所有包含k个自变量的模型,其中k是模型的最大长度;
使用交叉验证误差来选出最佳模型。
使用测试误差或者验证误差而不是训练误差来评估模型很重要,因为RSS和R2会随着变量的增加而单调增加。最好的方式是交叉验证并选择测试误差上R2最高而RSS最低的模型。
向前逐步选择(ForwardStepwiseSelection)使用一个更小的自变量子集。它从一个不包含任何自变量的模型开始,将自变量逐个加入模型中,一次一个,直到所有自变量都进入模型。每次只将能够最大限度提升模型性能的变量加入模型中,直到交叉验证误差找不到更多的变量可以改进模型为止。
向后逐步选择(BackwardStepwiseSelection)在开始时包含全部p个自变量,然后逐个移除最没用的自变量。
混合方法(HybridMethods)遵循向前逐步选择原则,但是在每次添加新变量之后,该方法也可能移除对模型拟合没有贡献的变量。
特征缩减(Shrinkage)
这种方法使用所有p个自变量拟合模型,但相对于最小二乘估计,该方法会让一些自变量的估计系数向着0衰减。这种衰减又称正则化,具有减少方差的作用。根据所使用的缩减方法,一些系数可能被估计为0。因此这个方法也用于变量选择。最常用的两种缩减系数方法是岭回归(Ridgeregression)和L1正则化(Lasso)。
岭回归(Ridgeregression)与最小二乘类似,但在原有项的基础上增加了一个正则项。和最小二乘法一样,岭回归也寻求使RSS最小化的参数估计,但当待估参数接近于0时,它会有一个收缩惩罚。这个惩罚会促使缩减待估参数接近于0。您无需深入数学海洋,仅需要知道岭回归通过减小模型方差来缩减特征就可以了。就像主成分分析一样,岭回归将数据投影到d维空间,然后对比低方差(最小主成分)和高方差(最大主成分)的系数进行剔除和筛选。
岭回归至少有一个缺点:它的最终模型中包含全部p个自变量。惩罚项会让许多系数接近于0但永远不为0。这一点通常对预测准确性而言并不是问题,但它可能会使模型更难解释。正则化克服了这个缺点,只要s足够小,它能强迫某些系数为0。S=1就是常规的最小二乘法回归,当s接近于0时,系数朝着0缩减。因此正则化也相当于进行了变量选择。
降维(DimensionReduction)
降维将估计p+1个系数减少为M+1个系数,其中M
主成分分析法识别最能代表预测变量X的线性组合。这些组合(方向)以无监督的方式被识别,响应变量Y并未用于帮助确定主成分方向,因此不能保证最能解释预测变量的方向在预测上也是最好的(尽管通常都这样假定)。
偏最小二乘法是主成分分析法的一种监督学习替代方式。它也是一种降维方法,首先识别一个新的较小的特征集,这些特征是原始特征的线性组合,然后通过对新的M个特征最小二乘拟合成线性模型。与主成分分析法不同的是,偏最小二乘法会利用响应变量来识别新特征。
1聚类分析
聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
1.定义
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
变量类型:定类变量、定量(离散和连续)变量
样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
2.性质分类
Q型聚类分析:对样本进行分类处理,又称样本聚类分析使用距离系数作为统计量衡量相似度,如欧式距离、极端距离、绝对距离等。
3.方法分类
系统聚类法:适用于小样本的样本聚类或指标聚类,一般用系统聚类法来聚类指标,又称分层聚类
逐步聚类法:适用于大样本的样本聚类
其他聚类法:两步聚类、K均值聚类等
2回归分析
1、线性回归在统计学中,线性回归是一种通过拟合因变量(dependent)和自变量(independentvariable)之间最佳线性关系来预测目标变量的方法。最佳拟合是通过确保每个实际观察点到拟合形状的距离之和尽可能小而完成的。最佳拟合指的是没有其他形状可以产生更小的误差了。
线性回归的两种主要类型是:
简单线性回归(SimpleLinearRegression):简单线性回归使用单一的自变量,通过拟合出最佳的线性关系来预测因变量。
多元线性回归(MultipleLinearRegression):多元线性回归使用多个自变量,拟合出最佳的线性关系来预测因变量。
1.一元线性回归分析
只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。
2.多元线性回归分析
使用条件:分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布
变量筛选方式
选择最优回归方程的变量筛选法包括全横型法(CP法)、逐步回归法、向前引入法和向后剔除法。
横型诊断方法
残差检验:观测值与估计值的差值要服从正态分布
强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法
共线性诊断:
a.诊断方式:容忍度、方差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、方差比例
b.处理方法:增加样本容量或选取另外的回归如主成分回归、岭回归等
3.Logistic回归分析
线性回归模型要求因变量是连续的正态分布变量,且自变量和因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况
分类:Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率
4.其他回归方法
非线性回归、有序回归、Probit回归、加权回归等
在统计学中,非线性回归是回归分析的一种形式,观测数据是通过一个或多个自变量的非线性组合函数来建模。数据用逐次逼近的方法进行拟合,下面是一些处理非线性模型的重要方法。
如果一个实数域上的函数可以用半开区间上的指示函数的有限次线性组合来表示,则它被称为阶跃函数(stepfunction)。换一种不太正式的说法就是,阶跃函数是有限段分段常数函数的组合。
分段函数是由多个子函数定义的函数,每个子函数应用于主函数域的某一个区间上。分段实际上是表达函数的一种方式,而不是函数本身的特性,但是加上额外的限定条件,它也可以描述函数的性质。例如,分段多项式函数是这样一个函数,它是每个子域上的多项式,但每个子域上可能是不同的函数。
样条曲线(spline)是由多项式分段定义的特殊函数。在计算机图形学中,样条是指分段多项式参数曲线。因为它们的结构简单,拟合简易而准确,可以近似曲线拟合和交互式曲线设计中的复杂形状,样条曲线是很流行的曲线。
广义可加模型(Generalizedadditivemodel)是一种广义线性模型,其中线性预测变量依赖于某些预测变量的未知光滑函数,侧重于这些光滑函数的推理。
3方差分析
使用条件:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等。
分类:
单因素方差分析:一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系
多因素有交互方差分析:一项实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
多因素无交互方差分析:分析多个影响因素与响应变量的关系,但是影响因素之间没有影响关系或忽略影响关系
协方差分析:传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素,使之影响了分析结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析,是将线性回归与方差分析结合起来的一种分析方法
4假设检验
1.参数检验
U验
使用条件:当样本含量n较大时,样本值符合正态分布
T检验
使用条件:当样本含量n较小时,样本值符合正态分布
单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0(常为理论值或标准值)有无差别
配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面极为相似
两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用
2.非参数检验
非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。
适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
虽然是连续数据,但总体分布形态未知或者非正态
体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下
主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。
5描述统计
1.集中趋势分析
集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。
例如被试的平均成绩多少?是正偏分布还是负偏分布?
2.离中趋势分析
离中趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。
例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。
4.推论统计
推论统计是统计学乃至于心理统计学中较为年轻的一部分内容。它以统计结果为依据,来证明或推翻某个命题。具体来说,就是通过分析样本与样本分布的差异,来估算样本与总体、同一样本的前后测成绩差异,样本与样本的成绩差距、总体与总体的成绩差距是否具有显著性差异。
例如,我们想研究教育背景是否会影响人的智力测验成绩。可以找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验成绩。用推论统计方法进行数据处理,最后会得出类似这样儿的结论:“研究发现,大学毕业生组的成绩显著高于初中毕业生组的成绩,二者在0.01水平上具有显著性差异,说明大学毕业生的一些智力测验成绩优于中学毕业生组。”
5.正态性检验
很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。
常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。
6信度分析(Reliability)
方法如下:
1.重测信度法编辑
2.复本信度法编辑
3.折半信度法编辑
4.α信度系数法
α信度系数是目前最常用的信度系数,其公式为:α=(k/(k-1))*(1-(∑Si^2)/ST^2)。其中,K为量表中题项的总数,Si^2为第i题得分的题内方差,ST^2为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。
分类有2种:
内在信度:每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度
7判别分析
1.与聚类分析区别
2.进行分类
以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类,适用于两类判别;以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类,适用于多类判别。
BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用。
BAYES判别分析法
Fisher判别分析法
聚类分析可以对样本逬行分类,也可以对指标进行分类;而判别分析只能对样本
聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类
聚类分析不需要分类的历史资料,而直接对样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类
8主成分分析
主成分分析首先是由K.皮尔森(KarlPearson)对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。
1.原理
设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
2.缺点
在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
9因子分析
1.与主成分分析比较
相同:都能够起到治理多个原始变量内在结构关系的作用
不同:主成分分析重在综合原始变适的信息,而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法
2.用途
减少分析变量个数
1.主要方法
4.特点
假定事物的过去趋势会延伸到未来
预测所依据的数据具有不规则性
撇开了市场发展之间的因果关系
5.扩展内容
市场现象过去和现在的发展变化规律和发展水平,会影响到市场现象未来的发展变化规律和规模水平;市场现象未来的变化规律和水平,是市场现象过去和现在变化规律和发展水平的结果。需要指出,由于事物的发展不仅有连续性的特点,而且又是复杂多样的。
11列联表分析
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。
1.简介
若总体中的个体可按两个属性A、B分类,A有r个等级A1,A2,…,Ar,B有c个等级B1,B2,…,Bc,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Ai和Bj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式作出列联表,称为多维列联表。
如在前例中,问题是:一个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假设可以表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估计(见点估计)分别为行和及列和(统称边缘和)为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假设检验),当h0成立,且一切pi>0和pj>0时,统计量的渐近分布是自由度为(r-1)(с-1)的Ⅹ分布,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,可以据此对h0作检验:若Ⅹ值足够大,就拒绝假设h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉之间存在某种关联。
2.注意点
若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,根据超几何分布(见概率分布),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的两个属性存在关联,从而拒绝h0。