响应变量存在缺失时部分线性模型的
经验似然推断
杨宜平,薛留根,程维虎
(北京工业大学应用数理学院,北京100124)
摘要:考虑响应变量带有缺失的部分线性模型,采用借补的思想,研究了参数部分和非参数部分的经验似然推断,证明了所提出的经验对数似然比统计量依分布收敛到χ2分布,由此构造参数部分和函数部分的置信域和逐点置信区间.对参数部分,模拟比较了经验似然与正态逼近方法;对函数部分,模拟了函数的逐点置信区间.关键词:部分线性模型;借补;经验似然;缺失数据;置信区间中图分类号:O212.7文献标识码:A文章编号:1000-4424(2010)01-0043-10
§1引言
考虑如下部分线性模型
Y=XTβ+v(Z)+ε,
其中Y是响应变量,X是p维协变量,Z为标量协变量,v(·)是未知函数,ε为随机误差且
E(ε|X,Z)=0.
对模型(1.1)的研究已有许多文献,Engle等[1]在研究天气与电力需求的关系时首次引入该模型,随后得到了广泛的应用.Liang等[2]考虑了模型(1.1),其中协变量X含有测量误差,提出了参数β的修正估计,研究了估计的相合性和渐近正态性;Liang等[3]考虑了模型(1.1)中X随机缺失的情况,给出了β和函数v(·)的估计;Wang等[4]考虑了模型(1.1)中Y随机缺失,提出了Y的均值的几种估计;Liang等[5]考虑了响应变量带有缺失而协变量带有测量误差的部分线性模型,给出了基于观测数据下参数β的估计及总体均值E(Y)的估计;Wang和Sun[6]仍考虑了模型(1.1)中响应变量缺失的情况,对缺失数据借补后,给出了估计β和函数v(·)的方法及估计的性质.
本文感兴趣的是模型(1.1)中响应变量Y缺失的情形,即当δ=1时,表示Y能观测;δ=0时,表示Y缺失.本文的目的是估计模型(1.1)中参数部分和函数部分的置信域和逐点置信区间.注意到Y缺失,很自然的想到,当Y的缺失很大时,基于观测的数据估计参数β和函数v(z)会影响估计
收稿日期:2008-07-02
基金项目:国家自然科学基金(10871013);高等学校博士学科点专项科研基金(20070005003);北京市自然科学基金(1102008;1062001);北京市属高等学校人才强教计划资助项目
(1.1)
44高校应用数学学报第25卷第1期
的精度.为了处理缺失数据,本文采用了借补的思想.先对缺失值进行借补,然后估计参数β和函数v(z)的置信域和逐点置信区间.对参数β,文献[6]中定理2.1给出了参数β的估计的渐近正态性,但从该定理可看出估计的极限方差的形式很复杂且含有未知部分需要估计,基于正态性去构造置信区间会影响区间的精度.这促使本文考虑用Owen[7-8]提出的经验似然方法去构造参数β的置信区间,避免了估计极限方差且有较高的精度.对函数v(z),构造了函数的逐点置信区间.
§2方法论与主要结论
2.1
参数部分的经验似然推断
设(Yi,Xi,Zi,δi),i=1,···,n是来自模型(1.1)一个不完全随机样本,其中(Xi,Zi)可以完全观测.当δi=1时,Yi可以观测;当δi=0时,Yi缺失.在本文中,我们假定Y为随机缺失,即:
P(δ=1|X,Z,Y)=P(δ=1|X,Z)=π(X,Z),
是合理的[4,6].
TT
令Hi=δiYi+(1−δi)[Xiβ+v(Zi)],则当δi=1时,Hi=Yi;当δi=0时,Hi=Xiβ+v(Zi).在随机缺失机制下,有E(H|X,Z)=XTβ+v(Z).这暗含了
T
Hi=Xiβ+v(Zi)+ei,
(2.1)
其中π(X,Z)未知.(2.1)式表明了在给定X和Z的条件下,δ和Y条件独立.该假定在实际应用中
(2.2)
其中E(ei|Xi,Zi)=0.这刚好是部分线性模型.
记µ1(z)=E(X|Z=z),µ2(z)=E(Y|Z=z)=E(H|Z=z),由(2.2)式,可以引入一个辅助随机向量
ψi(β)={Xi−µ1(Zi)}{Hi−µ2(Zi)−[Xi−µ1(Zi)]Tβ},
注意到当且仅当β为真参数时,E[ψi(β)]=0.使用这个信息,可以定义一个经验对数似然比函数l(β)
l(β)=−2max
{n∑
i=1
log(npi):pi≥0,
n∑i=1
pi=1,
n∑i=1
}
piψi(β)=0.
l(β)不能直接应用于β的统计推断,因为它包含未知函数µ1(·),µ2(·)以及Hi,解决这个问题
的一个自然的想法就是用它们的估计去代替.考虑Hi的估计,
˜+vˆi=δiYi+(1−δi)[WTβH˜(Zi)],
i
˜v其中β,˜(Zi)分别为基于观测数据下β和v(Zi)的估计.记mx(z)=E(δX|Z=z)/E(δ|Z=
z),my(z)=E(δY|Z=z)/E(δ|Z=z),据文献[4]可知
(n)−1(n)∑∑˜=βδi[{Xi−mˆx(Zi)}{Xi−mˆx(Zi)}T]·δi[{Xi−mˆx(Zi)}{Yi−mˆy(Zi)},
i=1
i=1
˜v˜(z)=mˆy(z)−mˆx(z)β,这里mˆx(z)和mˆy(z)分别为mx(z)和my(z)的估计,即
nn∑∑Kh1(z−Zi)δiXiKh1(z−Zi)δiYii=1i=1
mˆx(z)=∑,mˆy(z)=∑,nnδiKh1(z−Zi)δiKh1(z−Zi)
i=1
i=1
其中Kh1(·)=K(·/h1)且K(·)为核函数,h1为带宽.
杨宜平等:响应变量存在缺失时部分线性模型的经验似然推断45
µ1(z),µ2(z)的核估计分别为
n∑
ωni(z)Xi,µˆ1(z)=其中ωni(z)=Mh2(z−Zi)/
n∑
i=1
µˆ2(z)=
n∑i=1
ˆi,ωni(z)H
ˆµ在ψi(β)中分别用H,ˆ1(·)和µˆ2(·)代替H,µ1(·)和µ2(·)得到一个估计的辅助向量,并记之
ˆi(β).则可以定义一个估计的对数似然比函数为ψ
{n}nn∑∑∑
ˆˆi(β)=0,l(β)=−2maxlog(npi):pi≥0,pi=1,piψ(2.3)
i=1
i=1
i=1
i=1
Mh2(z−Zi),Mh2=M(·/h2)且M(·)为核函数,h2为带宽.
ˆi(β)={Xi−µˆi−µ其中ψˆ1(Zi)}{Hˆ2(Zi)−[Xi−µˆ1(Zi)]Tβ}.
ˆ1(β),ψˆ2(β),···,ψˆn(β))所构成的凸集的内部,则ˆ对任意给定的β,假设0在点(ψl(β)存在唯
一的解.用Lagrange乘子法,ˆl(β)可以表示为
ˆl(β)=2
这里λ由下式确定:
n∑i=1
nˆi(β)1∑ψ
=0.ˆi(β)ni=11+λTψ
ˆi(β)},log{1+λTψ
(2.4)
(2.5)
对(2.4)式进行Taylor展开,并结合§4中的引理2和引理3,可得(参见定理1的证明)
)−1(()T()nnn∑∑∑11
ˆˆi(β)ˆi(β)ψˆT(β)ˆi(β)+op(1).n−2l(β)=n−2ψn−1ψψ
i
i=1
i=1
i=1
为了给出ˆl(β)的渐近分布,需引入一些记号:ˇ=X−E(X|Z=z),X˜=X−mx(z),σ2=E(ε2|X,Z),X
˜X˜T],Σ1=E[(1−π(X,Z))XˇX˜T],Σ0=E[π(X,Z)X
˜X˜Tσ2],V(β)=(Σ1+Σ0)Σ−1Γ(β)Σ−1(Σ1+Σ0).Γ(β)=E[π(X,Z)X00
n1∑ˆi(β)依分布收敛到均值为0,方差为V(β)的正态分布.进一步,由引由引理1可知,n−2ψ理2,n−1
i=1
n∑pp
ˆi(β)ψˆT(β)→ψΓ(β),其中→表示依概率收敛.因此,ˆl(β)不再渐近于标准χ2分布,i
i=1
而是依分布收敛到自由度为1的标准χ2分布的加权和.定理1将给出ˆl(β)渐近分布.
定理1假设在§4中的条件(C1)-(C8)成立,如果β是参数真值,则
L22ˆl(β)→ω1χ21,1+ω2χ1,2+···+ωpχ1,p,
22
其中→表示依分布收敛,ω1,ω2,···,ωp为Γ−1(β)V(β)的特征值,χ21,1,χ1,2,···,χ1,p为相互独立
L
的自由度为1的χ2随机变量.
利用定理1构造β的置信域需要估计权重ωi,这样会降低置信域的精度.下面给出一个调整的对数经验似然比,使得调整的对数经验似然比渐近于标准χ2分布.令
nnn∑ˆi(β))(∑ψˆi(β))T,Σˆ0=n−1∑δi[Xi−mSn(β)=(ψˆx(Zi)][Xi−mˆx(Zi)]T,
ˆ1=n−1Σ
i=1n∑i=1
n∑−1ˆi(β)ψˆi(β)T,ˆ(1−δi)[Xi−µˆ1(Zi)][Xi−mˆx(Zi)],Γ(β)=nψ
T
i=1
i=1
i=1
ˆ(β)=(Σˆ1+V
ˆ0)Σˆ−1Γ(ˆβ)Σˆ−1(Σˆ1Σ00
ˆ0).+Σ
46高校应用数学学报第25卷第1期
根据Rao和Scott[9]的结果,可以定义一个调整的对数经验似然比
ˆlad(β)=rn(β)ˆl(β),
ˆ−1(β)Sn(β))/tr(Γˆ−1(β)Sn(β)).定理2给出了ˆ其中rn(β)=tr(Vlad(β)渐近于自由度为p的标准χ2分布.
L
定理2假设在§4中的条件(C1)-(C8)成立,如果β是参数真值,则ˆlad(β)→χ2p.
2基于定理2,可以构造β的置信域,以χ2p(1−α)记χp的1−α分位数,0<α<1.由定理2可以
ˆα(β)={β:ˆ得到β的近似1−α置信域为Rlad(β)≤χ2p(1−α)}.
2.2非参数部分的经验似然推断
∗T
对给定的β,令Hi=Hi−Xiβ,则模型(2.2)变为
∗
Hi=v(Zi)+ei,
其中E(e|X=x,Z=z)=0.利用与文献[10]中2.2节的方法,构造辅助随机向量
∗
ηi(v(z))=[Hi−v(z)]Mh2(z−Zi).
ˆ和Hˆi代替,则得到ηi(v(z))的估但ηi(v(z))中含有未知参数β和Hi,为此用β和Hi的估计β
计ηˆi(v(z))
Tˆˆi−Xiηˆi(v(z))=[Hβ−v(z)]Mh2(z−Zi).
则可以定义v(z)的被估计的经验对数似然比函数,即
}{n
nn∑∑∑
ˆlog(npi):pi≥0,pi=1,piηˆi(v(z))=0,l(v(z))=−2max
i=1
i=1
n∑i=1
i=1
用Lagrange乘子法,ˆl(v(z))可以表示为
ˆl(v(z))=2
这里λ1由下式确定:
n
log{1+λTˆi(v(z))},1η
下面的定理给出ˆl(v(z))的渐近性质:
1∑ηˆi(v(z))
=0.
ni=11+λTηˆ(v(z))1i
定理3假设在§4中的条件(C1)-(C8)成立,对任意给定的z0∈A(A是Z的有界支撑集),如L
果v(z0)为参数真值,则ˆl(v(z0))→χ21.
2
基于定理3,可以构造v(z0)的置信域,以χ21(1−α)记χ1的1−α分位数,0<α<1.由定
ˆα(v(z0))={v(z0):ˆ理3可以得到v(z0)的近似1−α逐点置信域为Rl(v(z0))≤χ21(1−α)}.
§3模拟研究
考虑部分线性模型
Y=Xβ+v(Z)+ε.
数据产生如下:X∼N(1,1),Z∼U(0,1),ε∼N(0,0.52),β=1.5,v(z)=sin(2πz).核函
3
数K(z)=M(z)=4(1−z2)+,带宽的选取采用文献[6]带宽选取的方法.
基于上述模型,我们考虑如下三种缺失机制:
(1)当|x−1|+|z−0.5|≤1时,△1=P(δ=1|X=x,Z=z)=0.8+0.2(|x−1|+|z−0.5|),否则,△1=0.88;
杨宜平等:响应变量存在缺失时部分线性模型的经验似然推断47
(2)当|x−1|+|z−0.5|≤1时,△2=P(δ=1|X=x,Z=z)=0.9−0.2(|x−1|+|z−0.5|),否则,△2=0.71;
(3)当|x−1|+|z−0.5|≤1时,△3=P(δ=1|X=x,Z=z)=0.8−0.2(|x−1|+|z−0.5|),否则,△3=0.40.
以上三种情况的均值分别为E△1≈0.90,E△2≈0.75,E△3≈0.55.下面模拟中,我们取样本容量分别为n=60,100,200.显著水平为0.05.各自做了1000次模拟.对参数部分,用本文的经验似然(IEL)方法得到的β的置信区间与正态逼近(INA)方法构造β的置信区间进行了比较,其中正态逼近方法基于Wang和Sun[6]定理2.1中β的渐近分布.在模拟过程中,也与未借补(忽略缺失值)的经验似然(NIEL)方法构造β的置信区间进行了比较,模拟结果在表1中给出.
表1
置信区间
△△1
n6010020060100200
△3
60100200
IEL(1.3481,1.6234)(1.4017,1.6060)(1.4270,1.5753)(1.3375,1.6618)(1.4021,1.6464)(1.4193,1.5894)(1.3346,1.7220)(1.3924,1.6963)(1.4222,1.6204)
INA(1.3339,1.6359)(1.3940,1.6142)(1.4225,1.5799)(1.3037,1.6917)(1.3770,1.6717)(1.4018,1.6066)(1.2325,1.7338)(1.3154,1.6938)(1.3759,1.6181)
NIEL(1.3479,1.6300)(1.3988,1.6055)(1.4271,1.5765)(1.3350,1.6650)(1.3970,1.6461)(1.4174,1.5904)(1.2751,1.6948)(1.3364,1.6668)(1.3870,1.6071)
IEL0.27530.20430.14830.32430.24430.17010.38740.30390.1982
β置信水平为95%的置信区间和覆盖概率
区间长度INA0.30200.22020.15740.38800.29470.20470.50130.37840.2422
NIEL0.28210.20670.14940.33000.24910.17300.41970.33040.2201
IEL0.9160.9350.9410.9120.9280.9360.9050.9190.931
覆盖概率INA0.9090.9260.9340.8960.9240.9280.8530.9000.922
NIEL0.9110.9240.9380.9020.9120.9350.8950.9090.927
△2
1.51.51.01.0realELrealEL
1.01.5realEL
0.50.50.00.0−0.5−0.5−1.0−1.0−1.5−1.50.00.20.4
z
0.60.81.00.00.20.4
z
0.60.81.0
−1.50.0
−1.0−0.50.0vvv0.50.20.4
z
0.60.81.0
(a)n=100,△1(b)n=100,△2图1
(c)n=100,△3
从表1可以得到如下结论:
(1)本文提出的基于经验似然构造置信区间的方法(IEL)优于正态逼近方法(INA)和未借补的经验似然方法(NIEL).IEL方法给出了更小的置信区间,且覆盖概率大.
(2)对任意固定的缺失概率,随着样本量的增加,三种方法得到的β的置信区间的平均长度在减少,覆盖概率越接近置信水平0.95.同时,缺失概率也影响β的置信区间,对任意固定的样本容量,随着缺失概率的增加,置信区间的平均长度增加.
对函数v(z),模拟了v(z)的置信水平为95%的逐点置信区间.我们仅列出了n=100的结果,模拟结果见图1.从图1可以看出本文的方法构造的逐点置信区间大体上令人满意.
§4定理的证明
在证明本文的结论之前,首先给出一些正则化条件.
(C1)Z的密度函数fZ(z)具有有界的二阶连续偏导数,且满足0 ˇXˇT)是正定矩阵,E[π(X,Z)(XˇXˇT)]是正定矩阵,V(β)是正定矩阵,其中V(β)在§2节(C2)E(X 中定义. (C3)infπ(X,Z)>0,π(X,Z)具有有界的二阶连续偏导数. x,z (C4)核K(·)和M(·)是有界的2阶核函数且具有紧支撑.(C5)(C6)(C7)(C8) µ1(·)和µ2(·)具有有界的二阶连续偏导数;mx(·)和my(·)具有有界的二阶连续偏导数,nh1h2→∞;h2=O(n−1/3);h1→0.2 supE[Y2|X=x,Z=z]<∞;supE[||X||2|Z=z]<∞. x,zz zh2 v(·)具有有界的二阶连续偏导数. supE(ε2|Z=z)<∞,supE(e2|Z=z)<∞. z 注条件(C1)-(C8)是文献中使用的普遍条件[6].条件C1确保了µˆ1,µˆ2,mˆx和mˆy的分母依概率1有界且下确界大于0;由此再结合条件C4和C5保证了µˆ1,µˆ2,mˆx和mˆy具有高阶的收敛速度.条ˆ存在渐近方差.条件C3要求缺失概率有界且下确界大于0,该假定是合理的[4].条件C2保证了β 件C6是对带宽h1和h2的限制.条件C7-C8是渐近分布理论基本的矩条件. 为了证明定理1,需要先证明以下几个引理: 1 引理1在定理1的条件下,如果β是参数真值,则√ni=1 n∑Lˆi(β)→ψN(0,V(β)). 证通过简单的计算可得 nn 1ˆ1∑1∑√ψi(β)=√Q1i+√Q2i≡An1+An2.nni=1ni=1 其中 Q1iQ2i (4.1) T˜β+v˜(Zi))−µˆ2(Zi)−(Xi−µˆ1(Zi)Tβ)],=[Xi−µ1(Zi)][δiYi+(1−δi)(Xi T˜β+v˜(Zi))−µˆ2(Zi)−(Xi−µˆ1(Zi))Tβ].=[µ1(Zi)−µˆ1(Zi)][δiYi+(1−δi)(Xi 先考虑An1,经过简单的计算可得 n{}1∑T An1=√β+v(Zi))−µ2(Zi)−(Xi−µ1(Zi))Tβ][Xi−µ1(Zi)][δiYi+(1−δi)(Xi ni=1 n1∑˜−β)+√[Xi−µ1(Zi)](1−δi)[Xi−mˆw(Zi)]T(βni=1 n1∑√+[Xi−µ1(Zi)](1−δi)[˜v(Zi)−v(Zi)]ni=1 nn1∑1∑ [Xi−µ1(Zi)][µ2(Zi)−µˆ2(Zi)]+√[Xi−µ1(Zi)][ˆµ1(Zi)−µ1(Zi)]Tβ+√ni=1ni=1 ≡An11+An12+An13+An14+An15. (4.2)由于v(z)=µ2(z)−µT1(z)β,经过简单的计算可得 n1∑ An11=√[Xi−µ1(Zi)]δiεi. ni=1 由文献[5]中的(A.2)式可知 n−1∑√Σ0˜−β)=√n(βδi{[Xi−mx(Zi)]εi}+op(1).ni=1 (4.3) (4.4) 杨宜平等:响应变量存在缺失时部分线性模型的经验似然推断49 利用大数定律及(4.4)式可得 ][n √˜1∑ (1−δi)[Xi−µ1(Zi)][Xi−mˆx(Zi)]T[n(βAn12=−β)]ni=1 n1∑{}− TΣ0√=E[1−π(X,Z)][X−µ1(Z)][X−mx(Z)]δi[Xi−mx(Zi)]εi+op(1).ni=1 (4.5) 由文献[6]中的(A.14)式可知 An13 1∑E[(Xi−µ1(Zi))δi|Zi] =−√δiεi+op(1). π(Zi)ni=1 n (4.6) 其中π(z)=P(δ=1|Z=z).类似文献[6]中(A.18)和(A.19)式的证明可得 An14=op(1), An15=op(1). (4.7) 注意到E[(W1−µ1(Z1))δ1|Z1]/π(Z1)=mx(Z1)−µ1(Z1),结合(4.2)-(4.3)和(4.5)-(4.7)式,可得 {}−1∑nn1∑Σ0T˜ˇ˜˜iεi+op(1).δiXiεi+E[1−π(X,Z)](XX)√An1=√δiX(4.8)nni=1i=1 由文献[6]中的(A.21)-(A.26)式可得 An2=op(1). 由中心极限定理,结合(4.1),(4.8)和(4.9)式可得引理1. 引理2在定理1的条件下,如果β是参数真值, 1则n(4.9) n∑p ˆi(β)ψˆT(β)→Γ(β).ψi ˆi(β)=Q1i+Q2i,经过简单的计算可得证我们仍采用引理1证明中的记号,则ψ nnnnn1∑1∑1∑1∑1∑TTTTˆˆψi(β)ψi(β)=Q1iQ1i+Q1iQ2i+Q2iQ1i+Q2iQT2ini=1ni=1ni=1ni=1ni=1 ≡R1+R2+R3+R4.类似定理1的证明,利用大数定律,我们可得R1→Γ(β). 现只需证明Rl→0,l=2,3,4.用R2,st表示R2的(s,t)元素,Rni,s表示Rni的第s个分量,由Cauchy-Schwarz不等式并结合引理1得 )1/2(n)1/2(n ∑∑11p22 |R2,st|≤Rni,sRni,t→0. ni=1ni=1这就证明了R2→0.类似地,可以证明Rl→0,l=3,4. 引理3在定理1的条件下,如果β是参数真值,则ˆi(β)∥=op(n1/2),max∥ψλ=Op(n−1/2). 1≤i≤n p p p p i=1 证利用引理2并类似文献[8]中(2.14)式的论证可以证明第二式.下证明第一式,仍使用引理1证明中的记号.显然 ˆi,s(β)|≤cmax|Q1i,s|+cmax|Q2i,s|≡B1+B2,1≤s≤p.max|ψ 1≤i≤n 1≤i≤n 1≤i≤n 利用文献[8]中的引理3可得B1=op(n1/2).结合引理1中的证明可以推出B2=op(n1/2). 第1个等式证毕. 定理1的证明对(2.4)式进行Taylor展开,利用引理2和3得 ]n[∑1ˆˆi(β)−{λTψˆi(β)}2+op(1).λTψl(β)=2 2i=1 (4.10) 50高校应用数学学报第25卷第1期 由(2.5)式可得 nnnnˆ∑ˆi(β)ˆi(β)}2ψψi(β){λTψ1∑ˆ11∑ˆ1∑Tˆψi(β)−ψi(β)ψi(β)λ+=.0= ˆi(β)ˆi(β)ni=11+λTψni=1ni=1ni=11+λTψ利用引理1-3得 nn∑∑ Tˆ2ˆi(β)+op(1),{λψi(β)}=λTψ i=1 i=1 λ= (n ∑ i=1 )−1 ˆi(β)ψˆT(β)ψi n∑i=1 ˆi(β)+op(n−1/2).ψ 由此式结合(4.10)式可证得 ()T()−1()nnn∑∑∑1 −1ˆˆi(β)ˆi(β)ψˆT(β)ˆi(β)+op(1).2l(β)=n−2ψn−1ψnψi i=1 i=1 i=1 结合引理3可得 ()T()nn∑∑11ˆˆi(β)ˆi(β)+op(1)Γ−1(β)√l(β)=√ψψnni=1i=1 )T()(nn∑∑111111ˆi(β)ˆi(β)+op(1).ψV2(β)Γ−1(β)V2(β)V−2(β)√ψ=V−2(β)√nni=1 i=1 (4.11) 由引理1可得 V −12其中1p是p×p的单位阵.而Γ−1(β)V(β)和V2(β)Γ−1(β)V2(β)具有相同的特征值,因此,由(4.11)和(4.12)式 可证得定理1. 定理2的证明令 Ω(β)= ( 1∑ˆ√ψi(β)ni=1 n 1∑ˆL√(β)ψi(β)→N(0,1p),ni=1 n 1 1 (4.12) )T ˆ−1(β)V ( )n 1∑ˆ√ψi(β),ni=1 p ˆ(β)→显然,ˆlad(β)=Ω(β)+op(1).类似引理2的证明可得VV(β).结合引理1,可证得定理2. 为了证明定理3,需下面引理: 引理4在定理3的条件下,如果v(z0)是参数真值,则有 n 1∑L√ηˆi(v(z0))→N(0,V(z0)).nh2i=1 ∫22 其中V(z0)=σe(z0)f(z0)M2(z)dz且σe(z0)=E(e2|Z=z0). 证经简单的计算可得 n1∑ √ηˆi(v(z0))nh2i=1 nn1∑1∑ =√eiMh2(z0−Zi)+√(1−δi)[˜v(Zi)−v(Zi)]Mh2(z0−Zi) nh2i=1nh2i=1 nn1∑˜−β)Mh(z0−Zi)+√1∑XT(β−βˆ)Mh(z0−Zi)(1−δi)(β+√22i nh2i=1nh2i=1 n1∑ +√[v(Zi)−v(z0)]Mh2(z0−Zi) nh2i=1 nnnnn1∑1∑1∑1∑1∑J1i+√J2i+√J3i+√J4i+√J5i≡√nh2i=1nh2i=1nh2i=1nh2i=1nh2i=1 杨宜平等:响应变量存在缺失时部分线性模型的经验似然推断51 不难证明 E 和 Var (√(√1nh2 n∑i=1 )J1i =0 n1∑ 可以验证√J1i满足Cramer-Wold定理条件和Lindeberg条件,因此得 nh2i=1 n 1∑L√J1i→N(0,V(z0)).nh2i=1 1nh2 n∑i=1 )J1i =V(z0)+op(1). (4.13) ˜−β=Op(n−1/2),因此得到由文献[4]可知v˜(z)−v(z)=Op(n−1/3)及β nn 1∑1∑1/21/61/2√√J2i=Op(h2n),J3i=Op(h2).nh2i=1nh2i=1ˆ−β=Op(n−1/2),则又由文献[6]中的定理2.1可知β n 1∑1/2√J4i=Op(h2).nh2i=1类似文献[11]中引理1的证明可得 n 1∑√J5i=op(1).nh2i=1 (4.14) (4.15) (4.16) 结合(4.13)-(4.16),可得引理4. 引理5在定理3的条件下,如果v(z0)是参数真值,则有 n1∑pT ηˆi(v(z0))ˆηi(v(z0))→V(z0). nh2i=1证我们仍采用引理4的记号,令Si=J2i+J3i+J4i+J5i,则有 n∑1T ηˆi(v(z0))ˆηi(v(z0))nh2 = 1 nh2 i=1n∑i=1 T J1iJ1i + 1 nh2 n∑i=1 T J1iSi + 1nh2 n∑i=1 T SiJ1i + 1 nh2 n∑i=1 T SiSi ≡C1+C2+C3+C4. 由大数定律可得C1→V(z0).结合引理4用类似引理2的证法可得Ci→0,i=2,3,4.引理证毕. 定理3的证明通过类似于定理1的证法可得 {}T}{nn∑∑11ˆl(v(z0))=√ηˆi(v(z0))ηˆi(v(z0))+op(1).V−1(z0)√nh2i=1nh2i=1 L 结合引理5知ˆl(v(z0))→χ21. p p (4.17) 参考文献: [1] EngleRF,GrangerCWJ,RiceJ,etal.Semiparametricestimatesoftherelationbetweenweatherandelectricitysales[J].JAmerStatistAssoc,1986,80:310-319. 52高校应用数学学报第25卷第1期 [2][3][4][5][6][7][8][9] LiangH,H¨ardleH,CarrollRJ.Estimationinasemiparametricpartiallylinearerror-in-variablesmodel[J].AnnStatist,1999,27:1519-1535. LiangH,WangS,RobinsJM,etal.Estimationinpartiallylinearmodelswithmissingcovariates[J].JAmerStatistAssoc,2004,99:357-367.WangQH,LintonO,H¨ardleW.Semiparametricregressionanalysiswithmissingresponseatrandom[J].JAmerStatistAssoc,2004,99:334-345. LiangH,WangS,CarrollRJ.Partiallylinearmodelswithmissingresponsevariablesanderror-pronecovariates[J].Biometrika,2007,94:185-198. WangQihua,SunZhihua.Estimationinpartiallylinearmodelswithmissingresponsesatrandom[J].JMultivariateAnal,2007,98:1470-1493. OwenAB.Empiricallikelihoodratioconfidenceintervalsforasinglefunction[J].Biometrika,1988,75:237-325. OwenAB.Empiricallikelihoodratioconfidenceregions[J].AnnStatist,1990,18:90-120.RaoJ,ScottA.Theanalysisofcategoricaldatafromcomplexsamplesurveys:Chi-squaredtestsforgoodness-of-fitandindependenceintwo-waytables[J].JAmerStatistAssoc,1981, 76:221-230. [10]XueLiugen,ZhuLixing.Empiricallikelihood-basedinferenceinapartiallylinearmodelforlongitudinaldata[J].SciChinaSerA,2008,51:115-130. [11]WuCO,ChiangCT,HooverDR.Asympoticconfidenceregionsforkernelsmoothing ofavarying-coefficientmodelwithlongitudinaldata[J].JAmerStatistAssoc,1998,93:1388-1402. Empiricallikelihoodforpartiallylinearmodelswithmissingresponse variables YANGYi-ping, XUELiu-gen, CHENGWei-hu (CollegeofAppliedSciences,BeijingUniversityofTechnology,Beijing100124,China)Abstract:Apartiallylinearmodelwithmissingresponsevariablesisconsidered.Aimputationapproachisdeveloped.Empiricallikelihoodinferencefortheregressioncoefficientsandthenonpara-metricfunctionisinvestigated.Theproposedempirical-likelihood-basedstatisticsareshowntohavechi-squaredlimits.Fortheregressioncoefficients,asimulationstudyisconductedtocomparetheperformanceoftheempiricallikelihoodmethodandthenormalapproximation-basedmethod.Forthenonparametricfunction,thepointwiseconfidenceintervalsarecalculated. Keywords:partiallylinearmodel;imputation;empiricallikelihood;missingdata;confidenceregion MRSubjectClassification:62G05;62G20 因篇幅问题不能全部显示,请点此查看更多更全内容