搜索
您的当前位置:首页正文

删失数据下部分线性测量误差模型的统计推断

来源:筏尚旅游网
第35卷第4期圆园19年8月天津理工大学学报

允韵哉砸晕粤蕴韵云栽陨粤晕允陨晕UNIVERSITYOFTECHNOLOGY

Vol.35No.4Aug.2019文章编号:1673-095X(2019)04-0047-06

删失数据下部分线性测量误差模型的统计推断

闫一冰袁关静

渊天津大学数学学院袁天津300350冤

要:本文重点研究了当响应变量为随机右删失数据时部分线性测量误差模型的统计推断袁在假定线性测量误差

的前提下袁引入工具变量后通过最小二乘法来估计参数袁用局部多项式估计来近似拟合非参数部分.通过数值模拟袁比较了使用工具变量和其他方法对参数估计结果的影响袁以及与忽略测量误差时非参数函数图像的对比.最后通过实例数据应用袁展示了此方法的实际样本表现.关键词:随机删失曰测量误差曰工具变量中图分类号:O212.1

文献标识码:A

doi:10.3969/j.issn.1673-095X.2019.04.011

Instrumentalvariablesinpartiallylinearmeasurementerrormodelwithright-censoreddata渊SchoolofMathematics袁TianjinUniversity袁Tianjin300350袁China冤

Abstract:Thispaperfocusonthestatisticalinferenceofthepartiallylinearmodelwhentheresponsevariableisrandomright-censoreddata.Undertheassumptionoflinearmeasurementerror袁aninstrumentalvariableisintroducedandtheparametricpart.Throughnumericalsimulation袁theeffectofusinginstrumentalvariableandothermethodontheestimationoftheparameterpartiscompared袁andthecomparisonofnonparametricfunctionimageswhenignoringthemeasurementerrorisgiven.Finally袁anactualsampleperformanceisshownthroughrealdataanalysis.Keywords:randomcensoreddata曰measurementerror曰instrumentalvariable

YANYi-bing袁GUANJing

parameterisestimatedbyleastsquaredmethod.Localpolynomialestimationisusedtoapproximatelyfittingthenon-

R相关的响应变量.在实际生活中袁协变量往往具有

半参数模型之一袁其中Y是与协变量渊XT袁C冤沂Rp伊测量误差渊见Fuller[2]和Carroll[3]等冤袁不能直接准确观测袁Liang[4]等人证明在回归过程中若不考虑测量误差

部分线性模型[1]Y=XT茁+m渊C冤+着是最常用的

学家的兴趣袁本文重点研究带有随机右删失数据的模型.有关右删失数据的回归分析最早由Koul[5]等人研究.随后袁Zheng[6]通过一对函数来转换删失数据袁并证明了在生存分析中估计量的收敛性.Khan[7]等研究了含有删失数据的部分线性模型袁用两部估计法得到了具有良好渐进性质的估计结果.Wang和Li[8]构造了含有右删失数据的部分线性模型的一系列经验似然估计.Yang[9]等人提出了一种在随机右删失数据下部分线性模型的变量选择过程袁通过迭代算法得到了惩罚最小二乘的解.现在考虑协变量带有测量误差袁响应变量Y是随机右删失数据渊这里假设非参数函数是单调的冤袁Chen[10]等人对这种模型进行了研究袁他们在参数部分使用了误差校正法袁非参数部分使用BrunkB-样条估计袁并且得到了估计值的收

即直接用W代替X袁将会得到衰减的参数估计值.在生物统计学尧社会学和工程科学等领域袁响应变量有可能是删失数据袁例如袁在研究某种药物对病人死亡时间的影响时袁需要统计在实验期内每个病人的死亡时间袁当实验结束时袁仍然会有病人存活袁这些病人的死亡时间无法统计袁因此产生删失数据袁实验结束时间称为删失时间.这些存活病人的真实死亡时间超过了删失时间袁无法拿到删失时间右侧的数据袁这种数据称为右删失数据.删失数据引起了很多统计

收稿日期:2019-01-12.

第一作者:闫一冰渊1994要冤袁女袁硕士研究生袁E-mail院iceyyan1022@outlook.com.通讯作者:关静渊1976要冤袁女袁教授袁硕士生导师袁E-mail院guanjing@tju.edu.cn.窑48窑天津理工大学学报第35卷第4期

敛速率.

本文引入工具变量袁使用两次最小二乘法来估计参数部分.对于非参数部分袁为了使其在边界上有更好的估计效果袁选择了局部多项式估计[11]来近似.其余部分安排如下.在第1节中袁简要介绍所要估计的模型并在第2节给出详细的估计步骤.第3节给出了一些数值模拟来展示此方法的拟合效果袁并与

其他方法进行比较.在第4节中袁通过实际数据分析来验证此方法在实际问题中的效果.

1模型介绍

考虑Y沂R为响应变量袁X沂Rp为向量协变量袁

C沂R为标量协变量袁部分线性模型形式为袁

Yi=XiT茁+m渊Ci冤+着i袁i=1袁2袁噎袁n袁

其中袁茁沂Rp为未知参数袁m渊窑冤是关于C的未知单调函数袁独立随机误差着沂R均值为0袁方差为滓2X与C有关袁而着则与X和C无关.响应变量.Y假和设

协变量C可以观测到袁但协变量X具有测量误差袁

观测到嗓的值为W袁误差为U.因此模型可以写为

Yi=XiT茁+m

渊Ci冤+着iWi=1袁2袁噎袁n.渊1冤

i=Xi+Ui现在考虑Y是一个分布函数为F的生存变量袁且它会随着删失时间T随机右删失.T与渊Y袁W袁X冤相互独立袁分布为G.测量误差U的均值为0袁方差矩阵为撞.Yi的观测值为渊{Yi袁啄冤i袁i=1袁2袁噎袁n}袁其中删失变量为袁

軒Y軒i=min

渊Yi袁Ti冤袁啄i=渊IYi臆Ti冤.因此袁从模型渊1.1冤中获取的样本数据为渊{i=1袁2袁噎袁n}.本文的主要目的是估计未軒Y知i袁啄参数

i袁Ci袁Wi冤袁茁和未知函数m渊C冤.

2估计方法

2.12.1.1参数替换部删分

失变量

首先处理删失数据Y軒iY=啄.根据Zheng[6]袁令

i*i渍渊其中袁渍1Y軒冤i+渊1-啄i冤渍渊2Y軒冤i袁1和渍2应满足院

1冤[1-G渊y冤]渍渊2冤渍1y

冤+1和渍2与Y的分布相乙y0渍渊2t

冤dG渊t冤=y袁互独立袁但有可能依赖

于T的分布G.

可以证明院E渊Yi*|Xi袁Ci冤=E渊Yi|Xi袁C冤=XiT茁+m

渊Ci冤袁所以可以使用Yi*替换模型渊1冤中的Yi中袁选择渍渊1y

冤=y渊/1-G渊y冤冤袁渍2渊y冤=0.因此.在本文Yi*=

啄对于未1-iY知G渊軒i的分Y軒冤i.布函数G渊窑冤袁使用Kaplan-Meier估计量袁

G赞渊冤=1-仪nny

i=1其中袁軒Y(1)臆Y軒(2)臆噎臆蓸I[Y渊i冤臆y袁啄渊i冤=0]nn--i+i1軒Y(n)是Y軒的次蔀軒袁

序统计量袁啄相对应的啄值袁i=1袁2袁噎袁n.将Y(i)是与Y軒(i)i替换为Yi*袁模型可以写为袁

Yi*=XiT茁+m渊Ci冤+着i2.1.2

W假嗓i=1袁2袁噎袁n.渊2冤

替i=设工换X协i+具变U变量i量X

Z与X相关袁

Xi=琢0其中袁琢0和琢+1琢1Zi+ei袁i=1袁2袁噎袁n.

渊3冤

是未知参数袁ei是均值为0袁独立同分布的随机误差项袁且与X袁工具变量Z必须仅与i和ZX相关i相互独立.根据Fuller

[2]袁且与其他协变量和

随机误差项不相关.结合渊2冤和渊3冤袁可以得到

Wi=琢0与+琢Z1Zi+渊ei+Ui冤袁i=1袁2袁噎袁n.

由于渊ei+Ui冤i相互独立袁可以通过最小二乘法得到琢0和琢1的估计值袁

琢-1n1==1ZiZiT移i=1ZiW

i琢赞蓸移ni蔀2.1.3

0考虑估=W计-模型茁

琢赞1Z.渊2冤袁在第一个等式两端分别对Ci取条件期望得袁

E渊Yi*|Ci冤=E渊Xi|Ci冤T茁+m渊Ci冤

渊4冤

结合渊3冤和渊4冤得

渊Y渊[i*-琢E

渊Yi*|Ci冤=[XiE-渊E琢渊Xi|Ci冤]T茁+着i0+琢1Zi+ei冤-0+琢1Zi+ei|Ci冤]=T[Zi-E渊Zi|Ci冤]T琢1茁+渊ei茁+着i冤

=

渊5冤

在渊5冤中袁使用非参数回归近似估计未知项E渊Yi*|Ci冤和E渊Zi|Ci冤.令g赞1渊Ci冤和g赞2渊Ci冤分别代表E渊Yi*|Ci冤和E渊Zi|C冤i的核回归估计袁在这里记Pi赞=Yi*-g赞1渊C冤袁iQiZ=i-g2渊Ci冤袁酌=琢1茁.因此袁渊5冤式可以简化为袁

2019年8月闫一冰袁等院删失数据下部分线性测量误差模型的统计推断

窑49窑Pi=QTi酌+渊ei茁+着i冤袁i=1袁2袁噎袁n.通过最小二蓸乘法得到酌的估计量酌

赞=因此袁可以移nQiQiTni=1得到茁的蔀-1估移i=1QiP

i计值为袁

赞2.2茁

非=参数酌赞/琢赞1部分

本文采用局部多项式估计来近似非参数部分.

将茁替换为茁赞袁在渊2冤第一个等式中令滋i=着i整理得

-UTi茁并

Yi*-WiT茁=m渊Ci冤+滋i袁n=1袁2袁噎袁n.记DiD=Yi*-WiT茁袁则

i冤+滋i袁n=1袁2袁噎袁n.

=m渊Ci杉山

山煽山衫

衫衫C=

山山山1衫山衫山衫山衫山1CC12--cc噎渊C1--cc冤p噎渊C2冤p衫山衫山衫袁

山衫山衫删

衫衫闪

杉山D1

煽衫Cn-c噎渊Cn-c冤

p山山衫衫D=

山山山衫山D1衫山2衫山衫衫衫袁

山山山衫山衫删

Dn衫衫闪

杉山山煽山衫

K=

山K渊nC山01山-c冤

K渊0噎衫衫山山nC山2山-c冤

噎0

0衫衫衫衫衫山衫山山山删

其中袁K0

0

噎K渊衫衫nCn-c冤

衫衫衫闪

h为核函数.通过局部多项式估计袁得到未知函数m渊窑冤院

m

赞渊c冤=VT渊CTKC冤-1CTKD袁其中袁V=渊1袁0袁噎袁0冤T为定义在Rp+1上的单位向量.

3随机模拟

本节使用R软件进行数值模拟袁对比分析所提

方法和其他方法的模拟效果.模型可以重新写为袁

扇设

设设设设Yi=XiT茁+m渊Ci冤+着i设缮设设设Wi=Xi+Ui设设设设设Y墒

设设X軒ii==min

琢考虑C0渊i和Zi+均为均琢Yi袁Ti冤袁啄i=渊IYi1Zi+ei臆Ti冤Z匀分布和均为正态分布两类情况.取Xi=1+2i+ei袁茁=1袁误差项ei袁着i和Ui均由

标准正态分布生成袁删失时间T渊tt冤袁分布参数tt根据删失率确定i服从指数分布exp

.在非参数回归过程中袁使用高斯核函数K渊x冤=

-x姨12仔e

22.取下列三

种单调函数下的模拟结果

指数函数院m渊三次函数院m渊1C

冤=exp渊C冤曰对数函数院m渊2C

冤=渊C-1冤33C

冤=ln渊5C+1+冤.1曰样本量分别为200袁500袁1000袁迭代次数为500次.

参数部分的模拟结果如表1尧表2所示.比较两种估计方法院工具变量法袁及通过校正衰减消除误差的估计效果袁其中MEAN为估计出的茁均值袁BIAS表示真实值与估计值之间的偏差均值渊为了方便观察袁这RMSE里取表绝对值冤袁SE表示估计值的标准误差均值袁表示1

均C方i~U根误差(0,2),.Z下i~U面对模拟结(0,2)时茁的果估进行分析计值

.

Tab.1Theestimatorof茁whenCi~U(0,2),Zi~U(0,2)

mcr/%n茁赞渊工具变量法冤茁赞渊衰减校正法冤m110200BIASSERMSEBIASSERMSE15000.0070000.00270.00180.26760.16240.11780.26740.16220.11780.03040.02840.01660.27530.16730.12190.27610.17070.12312020081500

0.0090.006300.3910.231370.3910.231060.0320.025660.4040.239600.4060.24052m210

2000000.0070.004270.1340.173080.1340.173780.0100.00980.17950.18092015000.00490.07990.07990.009160.1380.082250.1380.086962000000.0090.00190.05860.05860.00330.06040.0687m310

1500

0.006700.1950.121460.1950.121470.0250.023120.2010.125650.2020.127792000000.0020.00240.08450.08450.01370.08710.093320

1500

0.002640.1620.095710.1620.095600.0240.034610.1680.097390.1700.103572000000.0040.00170.07010.07010.01280.07230.07941500

0000.00220.00190.21380.13700.10080.21290.13780.10090.02990.02310.02110.21930.14240.10430.22110.1070.144131

分别观察在不同删失率尧不同样本量和不同函数情况下茁的估计值.通过表1和表2可以很容易地发现袁工具变量法表现出了良好的性质院当C和Z取自均匀分布袁非参数函数取同样形式袁样本量和删失率相同的情况下袁工具变量法的BIAS明显低于衰减校正法下的BIAS袁且工具变量法的SE和RMSE也都比衰减校正法的低曰当删失率固定不变时袁随着样本量的增加袁BIAS袁SE和RMSE会变得越来越小曰当删失率降低时袁工具变量法的BIAS和RMSE进一步降低.在C和Z取正态分布袁非参数函数m渊窑冤取

窑50窑表2Tab.2

mcr/%m110天津理工大学学报第35卷第4期

Ci~N(0,1),Zi~N(0,1)时茁的估计值

赞茁渊工具变量法冤BIASSERMSE0.00740.15820.15820.00620.13210.13210.00240.10960.10970.01030.23110.23110.00860.18440.18440.00660.16340.16340.00930.17340.17340.00850.14860.14860.00370.08250.08250.01240.21030.21030.00920.16720.16740.00450.09730.0974赞茁渊衰减校正法冤BIASSERMSE0.00970.15850.15860.00950.13250.13260.00720.12460.12460.02240.27730.27720.01130.24350.24350.00860.19020.19020.01680.18280.18290.01260.17360.17360.00890.10990.10990.02430.24370.24360.01940.18720.18730.00890.11270.1126更小的BIAS袁SE和RMSE袁若将删失率控制在合理的范围内并且样本量足够大时袁工具变量法可以获得良好的参数估计.

随后观察非参数部分的性质.在每次模拟中袁将拟合曲线与原函数曲线和无删失的拟合曲线进行比较袁观察当自变量来自不同分布时袁在不同的函数和两种不同删除率下的拟合效果袁图1~图5分别给出了不同条件下非参数函数的拟合曲线袁其中实线代表原函数曲线袁长虚线代表不同删失率下的拟合曲线袁短虚线代表无删失渊即删失率为0冤时的拟合曲线袁所有曲线均基于n=1000的样本容量.

通过拟合曲线可以很容易地看出袁使用工具变量法所得的拟合曲线在可接受的误差范围内可以很好地拟合原函数曲线.此外袁随着删失率的降低袁拟合曲线的效果会变得越来越好.当删失率接近于0

7654

Theestimatorof茁whenCi~N(0,1),Zi~N(0,1)

n

m2

200500100020200

500100010200

500100020200

5001000其他函数形式时有相同的结论.因此袁在样本量和删失率取值相同时袁与其他方法相比袁工具变量法具有

76543210.0

0.5

1.0

orginalmodelnocensoredivmethod

3210.0

0.5

1.0

1.52.01.5

orginalmodelnocensoredivmethod

2.0

渊a冤删失率cr=10%渊b冤删失率cr=20%图1Fig.1

2.01.51.00.50.0

Ci~U(0,2),Zi~U(0,2),m()=exp(C)时的拟合曲线1C

2.01.51.00.50.0

ThefittingcurvewhenCi~U(0,2),Zi~U(0,2),m()=exp(C)1C

0.00.51.01.5

orginalmodel

nocensoredivmethod

2.00.00.51.01.5

orginalmodelnocensoredivmethod

2.0

渊a冤删失率cr=10%渊b冤删失率cr=20%图2Fig.2

3

Ci~U(0,2),Zi~U(0,2),m()=(C-1)+1时的拟合曲线2C3ThefittingcurvewhenCi~U(0,2),Zi~U(0,2),m()=(C-1)+12C

2019年8月闫一冰袁等院删失数据下部分线性测量误差模型的统计推断

窑51窑2.01.51.00.50.0

orginalmodelnocensoredivmethod

2.01.51.00.50.0

orginalmodelnocensoredivmethod

0.00.51.01.52.00.00.51.01.52.0

渊a冤删失率cr=10%渊b冤删失率cr=20%图3Fig.3

1.5

orginalmodelnocensoredivmethod

3

Ci~U(0,2),Zi~U(0,2),m(C)=ln(5C+1)时的拟合曲线3ThefittingcurvewhenCi~U(0,2),Zi~U(0,2),m(C)=ln(5C+1)

2.01.51.00.50.0

1.0

orginalmodel

nocensoredivmethod

0.5

0.0

-3-2-1012-3-2-10123

渊a冤删失率cr=10%渊b冤删失率cr=20%图4Ci~Z(0,1),Zi~N(0,1),m()=exp(C)时的拟合曲线1CFig.4

orginalmodel

nocensoredivmethod

ThefittingcurvewhenCi~Z(0,1),Zi~N(0,1),m(=exp(C)1C)

orginalmodel

nocensoredivmethod

0-10-20-30-40-50-3

100-10-20-30

-2-10123

-40

-2-10123

渊a冤删失率cr=10%渊b冤删失率cr=20%图5Fig.5

3

Ci~Z(0,1),Zi~N(0,1),m(=(C-1)+1时的拟合曲线2C)

3ThefittingcurvewhenCi~Z(0,1),Zi~N(0,1),m()=(C-1)+12C

窑52窑天津理工大学学报第35卷第4期

时袁拟合曲线渊即无删失拟合曲线冤几乎与原始函数

曲线一致.

4实例数据应用

在这一部分袁将本文介绍的工具变量法应用到

混凝土抗压强度数据中查看拟合结果袁数据在UCI1数个据输集出变中可量以渊找混到凝土袁包抗含压1030强度组冤观测和8值个袁输入每组变值由

水泥袁炉渣袁粉煤灰袁水袁高效减水剂袁粗骨料袁细量骨

料和年龄冤组成.

用部分线性模型Y=XT茁+m渊C冤+着来拟合此数据集袁其中Y为混凝土的抗压强度渊MPa冤袁受水泥60占MPa比和认细为是骨料合含格量影袁统一响较记大为袁60水MPa泥强袁处度理大于后等的数

于据可以看做是删失数据袁记为軒Y袁记录对应的啄值渊即发60生曰C删为失细记骨为料含0袁量未渊发kg生冤删袁X失为水记为泥1占冤袁比删且带失时有间测量

T=误差袁可以计算出观测值W渊水泥量渊/水泥量+水量冤冤袁W=X+e袁选取工具变量Z为水泥含量渊kg冤.

首先计算出Y的替代值Yi*袁利用工具变量和观

测值W计算出参数部分的估计值

赞=-24.13.再将估计值茁

赞带入原模型袁用局部多项式回归近似非参数函数袁绘制函数图像如图6.

706050403020

600

700

图6混凝土数据非mstarSx800

900

1000

参数函数拟合曲线Fig.6

Thefittingcurveofnon-parmetricfunctionofconcretedate

5结论

在删失数据下袁具有测量误差的部分线性模型

的回归仍是一个难题.这篇文章根据Zheng[6]提出的方法在保持条件期望不变的情况下替换掉删失变量袁借助于工具变量提供的协变量的附加信息袁消除了测量误差带来的影响.通过数值模拟袁显示出所提出的方法具有良好的统计性质.

然而回归过程中仍然存在一些局限性.本文假设测量误差服从正态分布袁非参数函数是单调的袁这些条件限制了适用数据的范围曰且在实际生活中袁工具变量的选择对于估计结果也有一定程度的影响.因此袁在后续的研究中将会考虑在更宽松的条件下扩展该方法.参

考文献:

咱1暂

estimatesEngleR袁GrangerCWJ袁JohnRice袁etal.Semiparametric

sales咱2暂tionFuller袁咱1986J暂.PublicationsoftherelationW袁A.81渊Measurement394冤院310-320.ofthebetweenAmericanweatherStatisticalandelectricityAssocia鄄Wiley袁1987.

errormodels咱M暂.NewYork院咱3暂CarrollnonlinearRJ袁modelsRuppert咱MD暂袁.StefanskiMeasurementLA.MeasurementErrorinNonlinear

errorin咱4暂

Models.LiangLondon院Chapman&HalllyriclinearH.part咱modelsAsymptoticJJournalwithnormalitymeasurementofparametric袁1995.

ofStatisticalerrorpartinpartial鄄Planninginthe&nonparametInference鄄5暂1997Koul袁H.86渊Regression1暂冤院.51-62.

袁咱analysiswithrandomlyright-censored咱6暂data咱J暂.AnnalsofStatistics袁1981袁9渊6冤院1276-1288.regressionZhengZ.Awithclasscensoredofestimators咱7暂plicataeKhanCSinicaS.Semiparametric袁1987袁3渊3冤院data231-241.咱ofJ暂.theActaparametersMathematicaeinlinear

Ap鄄

estimationofapartiallylinear

咱8暂17censoredWanga渊3冤院567-590.

regressionmodel咱J暂.EconometricTheory袁2001袁regressionQH袁GangL.Empiricallikelihoodsemiparametric

咱9暂

MultivariateanalysisYangY袁XueAnalysisunderL袁Cheng袁2002randomW袁.83Variable渊2冤院censorship469-486.

咱J暂.JournaloflinearcationsmodelsinStatistics-SimulationwithrandomlycensoredselectionandComputationdata咱J暂.forCommunipartially袁2010袁39鄄咱10暂渊Xia8冤院W1577-1589.

estimation袁ZhaoChen袁WuQing袁etal.Localpolynomial-brunk

ablesmodelinwithsemi-parametricmonotoneerrors-in-vari鄄咱11暂temsHamiltonScienceandComplexityright-censored袁2015data袁28渊咱4J暂冤院.1-23.JournalofSys鄄渊linear1冤院1-19.

modelsSA咱袁JTruong暂.JournalYK.ofLocalMultivariatelinearestimationAnalysis袁2008inpartly

袁60

因篇幅问题不能全部显示,请点此查看更多更全内容

Top