![非参数统计:基于R语言案例分析](https://wfqqreader-1252317822.image.myqcloud.com/cover/277/25370277/b_25370277.jpg)
2.2 分位数检验与
的估计
二项检验可以用来检验有关随机变量分位数的假设,即所谓的分位数检验。二项检验只需要弱名义尺度来度量,度量尺度对于分位数检验而言至少是次序尺度。因为分位数几乎与度量的名义尺度没有关系。
若被检验的随机变量是连续的,检验的假设是:
H 0:X的P*分位数是指定的x*
根据分位数的定义,这就等价于
H 0:P(X≤x*)=p*
用p代表未知的概率P(X≤x*),则H0就可写成:
H 0:p=p*
检验统计量等于样本值小于或者等于x*的个数,可以用双边二项检验。
若被检验的随机变量不是连续的,此时零假设就变为:
H 0:X的P*分位数是x*
这就等价于
H 0:P(X≤x*)≥p*和P(X≤x*)≤p*
2.2.1 分位数检验
X 1,X2,…,Xn是一组随机样本,数据由Xi的观测值组成。假定这些Xi是随机样本,度量尺度至少是次序的。检验过程中用到两个检验统计量T1,T2。令T1等于观测值中小于等于x*的个数,T2等于观测值中小于x*的个数。那么当数据中没有严格等于x*的数时,则T1=T2,否则T1>T2。
检验统计量T1和T2的零分布是二项分布,参数n是样本量,p=p*和零假设相同。在二项分布表中给出了n≤20和选定p值时的零分布。对于其他n,p值,用正态分布逼近。
T的近似分位数xq为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_49_1.jpg?sign=1738845997-INeyj2OFKcuM6gE5wuYlEn8RfNpuJauP-0-28b7ced3d373adcd291b869484e451d8)
zp是标准正态随机变量的q分位数。
令x*,p*为指定的值,0<p*<1,则假设可能有以下双边检验、左边检验以及右边检验三种形式。
1.双边检验
H 0:第p*个总体的分位数为x*
这等价于H0:P(X≤x*)≥p*和P(X<x*)≤p*,其中X与样本中的Xi有相同的分布。
H 1:第p*个总体的分位数不是x*
拒绝域对应于T2其值太大,说明可能P(X<x*)>p*,或对应于T1其值太小,说明可能P(X≤x*)<p*。拒绝域可以通过二项分布表,样本量n以及假设概率p*得到。找到t1,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_49_2.jpg?sign=1738845997-8SAL3RRUpfABhFi9jDD4EnOh7IzmszGO-0-5284ad53d2f8c0849a9d3c0c4de8afa2)
Y服从参数为n和p*的二项分布,α1是显著性水平的二分之一。找到t2,使得P(Y≤t2)=1-α2。选α2使得α1+α2大约等于给定的显著性水平。若T1小于等于t1,或者T2大于等于t2,拒绝H0,否则不拒绝H0,显著性水平等于α1+α2。
对于n>20或者二项分布表中没有的p*值,分别令q=α/2,q=1-α/2,由(2-20)式求出t1=xα/2以及t2=x1-α/2。
p值是二项随机变量Y小于等于观测值T1,或大于等于T2的概率中较小值的两倍,当n≤20,p=p*时,可以从二项分布表中查出,对于n>20,用正态分布表,用
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_1.jpg?sign=1738845997-9M2iWQhNuAPAkgP2eJcSg6cG0vvaqBow-0-1dffa73e317669149f8a9162fbda16fc)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_2.jpg?sign=1738845997-PACY9k3LUybqo63terhH7etw6i90MI7A-0-802a30e55cdce883d9996fecc06b5f3f)
两式与0.5作为“对连续性的修正”,来改进正态对二项分布的逼近。
2.左边检验
H 0:总体的p*分位数不大于x*
这等价于H0:P(X≤x*)≥p*。
H 1:总体的p*分位数大于x*
这等价于H1:P(X≤x*)<p*。
T 1的值较小时,表示H0是假的,所以用样本量n和特定的概率值p*在二项分布表中得到t1,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_3.jpg?sign=1738845997-xkJGv9S3uiJICShJMNgw55aY9dA8ObBc-0-fc31bbed051f20d19944c0523efc33cc)
对于可以接受的水平α,其中Y服从参数为n和p*的二项分布。如果T1小于等于t1,则拒绝H0。如果T1大于t1,则接受H0。当n>20时,在(2-20)式中令q=α,得t1=xα。
p值等于二项随机变量Y小于等于观测值T1的概率,当n≤20,p=p*时,可以从二项分布表中查出;对于n>20,用(2-22)式,它可以从正态分布表中得到。
3.右边检验
H 0:总体的p*分位数大于等于x*
这等价于H0:P(X≤x*)≤p*。
H 1:总体的p*分位数小于x*
这等价于H1:P(X<x*)>p*。
由于较大的T2表示零假设是假的,在二项分布表中,把样本量n和假设的概率p*作为p,得到t2,使得
P(Y>t2)=α
对可接受的显著性水平α,它等同于
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_50_4.jpg?sign=1738845997-kErDEEJBKZ4DBXunVRWMLijnP5J40v4t-0-4bb2b891fd4980d80a6e956d8650636a)
如果T2大于t2,则拒绝H0。如果T2小于等于t2,则接受H0。对于n>20,在(2-20)中令q=1-α,得t2=x1-α。
p值是二项随机变量Y大于等于观测值T2的概率,当n≤20,p=p*时,它可从二项分布表中查出;对于n>20,用(2-23)式,它可从正态分布表中得到。
举例说明分位数检验的过程。表2-1显示了28位同学某门课程的成绩,请问80是否可以作为学生成绩的3/4分位数?显著性水平为0.01。
表2-1 学生成绩
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_1.jpg?sign=1738845997-ULGegNKx2kyz20JXEjY2KeiAdC9nWBw5-0-e23fa305663517c39cff49bcfdaeeb44)
假设检验的问题是:H0:3/4分位数是80。
备择假设是:H1:3/4分位数不是80。
用双边分位数检验。显著性水平为0.01的临界域可以通过二项分布表查到,此时n=15,p=0.75。此例中T1等于13,p的值是2·p(Y≤13)=0.002 2<α=0.01,因此拒绝零假设,认为3/4分位数不是80。
2.2.2 分位数的置信区间
数据由独立同分布的随机变量X1,X2,…,Xn的观测组成,X(1)≤X(2)≤…≤X(r)≤…≤X(s)≤…≤X(n)为次序统计量,1≤r≤s≤n。希望找到p*(未知的)分位数,p*是0到1之间的某个指定数。
1.假定条件
(1)X1,X2,…,Xn是随机样本。
(2)Xi的度量尺度至少是次序的。
2.小样本
对于n≤20可以用二项分布表来寻找r与s。在二项分布表中,令p=p*和样本量n,沿着p=p*的量向下找,直到有近似等于α/2的值,此时,1-α近似于给定的置信系数,称这个近似值为α1,相应的y值(远离α1左边)是r-1,加1得到r。然后继续沿着这列向下找,直到有近似等于1-α/2的值,成为1-α2。对应1-α2的y值,记作s-1,加1得到s。这样就得到了α1,α2,r,s。准确置信系数是1-α1-α2,区间估计量是X(r),X(s)之间的区间,而X(r),X(s)可以从数据中得到。那么,
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_2.jpg?sign=1738845997-BKe48nsMtku0NqBr5EqMh2j4lp5n7BmF-0-9fdbac6aee15f5cdd7c4d028d4743840)
给出了置信区间。如果假设未知的分布函数是连续的,那么,
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_3.jpg?sign=1738845997-MF30SZdevnQAZDfiE5UrNaZjpVOmYaiN-0-eea2e8542a57024c7caeeb37d8cb60f8)
3.大样本近似
对于n大于20,可以用基于中心极限定理的逼近计算
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_4.jpg?sign=1738845997-sjvTb20EGhwI1cVJmWGxWA5G2YykmoSD-0-2ac30f917a2390430ad38fb65b04b2e6)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_5.jpg?sign=1738845997-Mgqyi9EidTyzvyIC3aYxQ7D18X6yWDp9-0-4f402bcc2948a34fd142bbd5319a484b)
其中,分位数zq从正态分布表找出,1-α是给定的置信系数。一般地,r*,s*不是整数。令r和s是r*,s*向上取整的整数,则(2-31)式给出了近似置信区间,如果位置分布函数是连续的,则近似置信区间由(2-29)式给出。
如上所述,单边的置信区间可以通过只找r或s得到,单边置信区间为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_51_6.jpg?sign=1738845997-ik95NSuz2PUsiKDwLuZgkvhDjbxMNDLo-0-5d76f43df11a92ff4a52b93c339ef993)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_1.jpg?sign=1738845997-MyDp2nUg98ZuJmlwOZrlX57smhtEkcsJ-0-787034b7db3ccd26527801660c4116eb)
如果分布函数是连续的,则为
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_2.jpg?sign=1738845997-m4X0YoSD3wS2xeRDevgiKD2OXAhfL0Nr-0-77f5ca9757fb5d0e810b0b89231b0d92)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_3.jpg?sign=1738845997-QaS3USg557Vf9NDwt87d9tbjkIe6uPCi-0-585d6f484e981a97daf518ed1f29a92c)
首先考虑分布函数是连续的情况,这种情况比较简单。如果xp*是p*分位数,则有如下关系
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_4.jpg?sign=1738845997-Y5LxYbyVymmcfMEqucs3HNpbkQUPzciV-0-6e1bc2f3e3ea6475a5ca19bc7e192769)
其中,X的分布函数与随机样本的分布函数一样。
假设次序统计量X(1)大于某个确定的常数,只要样本中最小的数都大于这个常数,即只要样本中n个值都大于这个常数,X(1)就大于这个常数,选择xp*作为这个常数,可以得到
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_5.jpg?sign=1738845997-sHGCyvgfd09MbdZVjvMqwTsTKrDHC9Q5-0-9a8bd0e057a1364099a2290ecf2542b7)
因为Xi独立,它们有同样的p*分位数xp*。
如果xp*小于X(2),那么X(1)≤xp*<X(2)中,恰有n-1个观测值大于xp*,或者在xp*<X(1)<X(2)中,有n个观测值大于xp*,所以
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_6.jpg?sign=1738845997-c7ukONW8ZzBpn4jNkjOjqW4jO3eEz7CZ-0-296378c18fae806534f18c715822076d)
现在,(2-36)式中的概率由二项分布函数给出,因为每个Xi都有小于等于xp*的概率p*,且Xi是互相独立的,所以由上式可以得到
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_7.jpg?sign=1738845997-O7MFkQgCgb0oMontqV3SjqRHPK8bup9X-0-94565e5c17cd6cf56e834812dc462408)
在二项分布函数F(x)=P(X≤x)=∑i≤x(ni)piqn-i下,则之前的讨论可以做如下推广:
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_8.jpg?sign=1738845997-k2P0y8LuHWQpsuXYaua3XV5WcYi7gphu-0-9290f067958c2f9735f08b972c06838b)
置信系数由下式得出
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_9.jpg?sign=1738845997-haHKxHYIRtY1wFByNsRbaiWwZGTm77SZ-0-5a17f1154fba253bd5c8dd10e80af1a6)
从而,由(2-38)式和二项分布表可以得到r、s的值,使得
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_52_10.jpg?sign=1738845997-4skULsPKvtC2tMEWpPWneWj4hg58h1KK-0-c8f05e8a8066323a50b0ac2063a2dd29)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_1.jpg?sign=1738845997-V9aksrG1pkfE8zwagFjQyrT13iO6vcTD-0-b38eae4ec3e2e5a0b231ec6150e1bb94)
则置信系数是1-α1-α21-α。注意,因为假设分布函数是连续的,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_2.jpg?sign=1738845997-XzIN8qFsa1WzageovNNwFL0C112FhjvC-0-4e8f775543f4960506526efe01f6f18f)
因此,可以用二项分布表得到s。
如果X与Xi的分布函数都不是连续的,(2-42)式不成立。由离散随机变量的定义,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_3.jpg?sign=1738845997-fBn6mNbI4uRuQVIAYKjzcUUTgC1waWdv-0-1d30737ce096639fa2e748f53a539b75)
和
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_4.jpg?sign=1738845997-tpnDvsbOhS4bjalKrG51hahYZNTZR6K7-0-52dc34c8ef8ae7e8d9501ccbf519c4d9)
首先,我们考虑(2-43)式是如何影响(2-38)式,进而影响(2-41)式求r的方法的。因为(2-43)式成立,每个观测值大于xp*的概率小于当X是连续时的值,所以,每个次序统计量大于xp*的倾向,小于X为连续时的情形。即概率P(xp*≤X(r))小于X为连续时(2-38)式给出的值。所以一般情况下,下式成立
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_5.jpg?sign=1738845997-ulbxjqFZEtH2jMNDfGlMTFY1IKxySqCL-0-ff4d168efeb20082fa8e7350fe4c1336)
如果用上面介绍的方法从二项分布表中找r,那么
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_6.jpg?sign=1738845997-0VsYHwIyAuqduNlaKmv3ekCES8K6PUEk-0-46a7868a90490f2cf3996f20d8e05a76)
现在,我们考虑(2-44)式是怎样通过选择s的值来得到概率1-α2的。因为(2-44)式成立,每个观测值大于等于xp*的概率大于X为连续时的概率,所以观测值大于等于xp*的个数比X为连续时的多,xp*≤X(s)的概率大于X为连续时的情况。因此,(2-38)式可以改为适用于一般情况的式子
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_7.jpg?sign=1738845997-mQz5ZV9LqVGZ3Zq8ez0rALlQVSh44zK9-0-563ca55b394684ff66540edce33ad592)
所以,如果用先前的方式在二项分布表中找s,我们有
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_8.jpg?sign=1738845997-L1n2OlUGnTkzXCHfHYK4FDx1CvvTmpHY-0-69131b3bb8a161a10fbb46b48df966de)
对于任何分布都成立的(2-46)和(2-48)式,可以按如下方式使用
![](https://epubservercos.yuewen.com/B33976/13795736403467906/epubprivate/OEBPS/Images/9787566813206_53_9.jpg?sign=1738845997-GophJTS80W9XxBTYOgvATCtv6qiOXYV9-0-efa893e430f4e7b4e9dd544a519d016d)
所以,这种方法对于离散随机变量或有结点的有序数据是保守的。因此,求分位数的置信区间的方法,对于有二项分布函数的精确表可用的情形可是可行的。
用大样本方法求r和s是基于标准正态分布近似二项分布的想法,虽然关于怎样由r*,s*求得整数r,s的方法还有不同的争论,但是,此处给出的直接向上取整的方法是个很接近的近似。