二项分布参数的p-值检验
吕 佳1, 任芳玲1, 赵子墨2
【摘 要】首先利用正则不完全贝塔函数揭示二项分布与贝塔分布的关系,并利用相关结论获得了检验统计量.进一步给出二项分布参数的单侧显著性检验p-值的计算方法和计算公式.最后,结合实例对所给方法进行了演示. 【期刊名称】河南科学 【年(卷),期】2015(000)003 【总页数】3
【关键词】二项分布;单侧检验;p-值;Matlab
二项分布是数理统计中应用最广泛的离散型分布之一.其应用领域涉及工业实验、质量控制、生物医学研究等,此外,二项分布在非参数统计中也扮演着非常重要的角色.
然而,由于经典统计学主要在决策论的框架下利用Neyman-Pearson的方法理论来处理假设检验问题,因此,即使是对一些具体分布的参数检验也很少给出p-值的计算公式.另一方面,假设检验分为固定显著性水平的检验和p-值检验.在固定显著性水平α时,利用经典检验理论对离散型分布的参数做检验时,如果不采用随机化检验,则往往无法实现.二项分布是一种离散型分布,自然也存在这样的问题.
所幸的是,准确的p-值和固定显著性水平的随机化检验却是可以获得的.对相关的随机化检验有兴趣的学者可参看文献[1].虽然随机化检验方法在理论上是有意义的,但在实际应用中却是缺乏吸引力的.因此,本文主要研究二项分布参数的p-值检验,旨在给出单侧检验时二项分布参数检验的p-值.
1 检验中的p-值
p-值通常被学者们定义为在原假设成立的条件下,出现与样本观察值同样或更为极端的结果的概率.文献[2-3]都讨论过p-值的深刻含义,p-值在学术研究中也被称为观察到的显著性水平.事实上,要恰当地定义好p-值,需要说清楚什么是基于观测数据的极端区域.而极端区域较典型的表现是被样本观察值所界定出的某个分布的尾部.关于极端区域的适当定义需要按照位置参数的大小对样本空间给定一个随机序.这可以通过检验统计量来完成.因此,p-值的计算涉及合理选择检验统计量.
下面我们给出在p-值检验中所使用的检验统计量的定义:
定义1[4]一个统计量T(x)是样本x的实值函数,如果它同时满足下述两个性质:
①T(x)的分布与厌恶参数无关;
②T(x)的分布函数FT(t)=P{T≤t}在任意给定t时是参数θ的单调函数. 则称T(x)为参数θ的检验统计量.
如果一个假设检验问题中没有厌恶参数,即分布族中只有感兴趣的参数θ是未知的,除此之外别无其他未知参数,则只需考虑一个统计量T(x)是否满足性质b.性质b要求T(x)的分布函数是参数θ的单调函数,这使定义极端区域成为可能.为完善起见,在给出p-值定义式之前再引入下述定义.
定义2[4]对于检验统计量T(x),如果P{T>t}是θ的非降(增)函数,则称T关于θ是随机递增(减)的.到此为止,我们可以给出单侧检验的情形下p-值的定义式,下面分两种情况来陈述. ①对左侧检验:
当检验统计量关于θ随机递增时,其p-值定义式为: 当检验统计量关于θ随机递减时,其p-值定义式为: ②对右侧检验:
当检验统计量关于θ随机递增时,其p-值定义式为: 当检验统计量关于θ随机递减时,其p-值定义式为:
2 二项分布与贝塔分布的关系
设随机变量,其中n已知,θ表示成功概率.由二项分布的定义易知其概率函数为:
利用分布函数与概率函数的关系,以及不完全贝塔函数的性质,X的分布函数可写为:
其中是随机变量B的分布函数,而.二项分布的分布函数的上述形式在实际中非常有用,下文也将用到.
3 二项分布参数的假设检验
设随机变量,其中n为已知整数,参数θ表示成功概率,x为X的样本观察值,现要对其参数θ进行假设检验,本文只考虑单侧检验的情形.首先证明一个定理. 定理 设随机变量X~B( n,θ),则对任意x∈ℝ有: 其中FY是随机变量Y~Beta(,n-x+1) x的分布函数. 证明 由随机变量,可得:
由贝塔分布的定义,其中,于是定理得证.
为了获得计算p-值所需的检验统计量,现在注意若取T(X)=X,即统计量取为X自身,则T的分布为二项分布,满足定义1中的性质a;再由(5)式,根据分布函数的单调性立刻得知定义1中的性质b也是满足的.进一步,由定理1给
出的(6)式及定义2可知,此时T关于参数θ是随机增的.这样就可以进行假设检验了,下面依然分两种情形给出p-值的计算公式. 3.1 对左侧检验
其p-值的计算公式可推导如下: 即:
其中FY是随机变量Y~Beta( x,n-x+1)的分布函数. 3.2 对右侧检验
其p-值的计算公式可推导如下: 即:
其中FB是随机变量B的分布函数,而B~Beta(x+1,n-x).
4 实例
应用(7)、(8)两式对二项分布的参数进行检验时没有难度上的差别,因此我们仅就左侧检验的情形给出一个实例.
例:一项调查显示某城市老年人口比重不超过14.7%,该市老年协会为了检验该项调查是否可靠,随机抽选了400名居民,发现其中有57人是老年人.问调查结果是否支持该市老年人口比重为14.7%的看法.
解:为回答这一问题,令θ表示该市老年人口的比重,考虑下面的假设: 设X表示抽选400名居民中出现的老年人数,则显然有X~B( ) n,θ,而现在知道X的样本观察值为x=57.检验该假设的p-值为:
其中FY是随机变量Y~Beta( ) 57,344的分布函数,它在0.147处的函数值可方便地用MATLAB中的函数命令“betacdf”进行计算.对于本例,由于p=0.621 6是一个很大的概率,所以不能拒绝原假设,即可以认为本市老年人
口比重不超过14.7%. 参考文献:
[1] Ferguson T S.Mathematical statistics[M].New York:Academic Press,1967.
[2] 吕 佳,乔克林.关于假设检验中的P-值[J].统计与决策,2011(16):165-169.
[3] 朱新玲.假设检验:从P值到贝叶斯因子[J].统计新论,2008(5):17-18.
[4] Samaradasa W.Exact statistical methods for data analysis[M].New York:Springer-Verlag,1995:27. (编辑 康 艳)
基金项目:国家自然科学基金项目(11471007);陕西省教育厅专项科研计划项目(2013JK0576)
因篇幅问题不能全部显示,请点此查看更多更全内容