カプラン・マイヤー法

公開日:

【2022年12月1週】 【A000】生物統計学 【A051】コホート研究 【A100】生存時間分析 【A101】生存関数の推定

この記事をシェアする
  • B!
サムネイル画像

本稿では、カプラン・マイヤー法に関する重要事項の証明・導出を行っています。①カプラン・マイヤー推定量、②対数生存関数の分散、③グリーンウッドの公式、④補対数対数にもとづく生存関数の信頼区間、⑤対数生存オッズ比の分散、の導出、カプラン・マイヤー推定量とネルソン・アーレン推定量の関係の証明が含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合(n0,π0 など)や「2」である場合(n2,π2 など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
  • 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。
  • デルタ法を用いる際、剰余項(2次の項)が漸近的に無視できる(0に確率収束する)と仮定しています。

カプラン・マイヤー推定量

ランダム打ち切りの下で、標本が得られる尤度は、 (1)Li=1N{f(tj)}δi{S(tj)}1δi=i=1N{λ(tj)}δiS(tj) で与えられる。

一般に時点 tj における生存関数は、 (2)S(tj)=l=1j(1πl) で与えられ、 カプラン・マイヤー推定量 Kaplan-Meier estimator は、 (3)S^(t)=l=1jnldlnl で与えられる。

証明

証明

被験者が時点 tj を超えてイベントを発生せずに生存するためには tj1 を超えてイベントを発生せずに生存する必要があり、以下、同様に、その前の時点での生存が条件となる。したがって、 S(tj)=P(tj<T)=P(tj<T|tj1<T)P(tj1<T)=P(tj<T|tj1<T)P(tj1<T|tj2<T)P(tj2<T)= 定義より、 P(tj<T|tj1<T)=P(tj<T|tjT)=1πj すなわち、 S(tj)=(1πj)S(tj1)=(1πj)(1πj1)(1π2)(1π1)=l=1j(1πl)

このとき尤度関数は、 (P1)L(π1,π2,,πJ)j=1Jπjdj[S(tj1)]dj[S(tj)]wj ここで、以下のようにおくと、 M=j=1J[S(tj1)]dj[S(tj)]wj=[S(t0)]d1[S(t1)]w1[S(t1)]d2[S(t2)]w2[S(tj1)]dJ[S(tj)]wJ=[S(t1)]w1+d2[S(t2)]w2+d3[S(tj1)]wJ1+dJ[S(tj)]wJ=[(1π1)]w1+d2[(1π1)(1π2)]w2+d3[(1π1)(1πJ1)]wJ1+dJ[(1π1)(1πJ)]wJ=(1π1)w1+d2+w2++dJ+wJ(1π2)w2+d3+w3+dJ+wJ(1πJ1)wJ1+dJ+wJ(1πJ)wJ=(1π1)j=1J(dj+1+wj)(1π2)j=2J(dj+1+wj)(1πJ1)j=J1J(dj+1+wj)(1πJ)j=JJ(dj+1+wj) ここで、リスク集合とイベント数、打ち切り数についての関係式 nkdk=l=kJ(dl+1+wl) より、 (P2)M=j=1J(1πj)njdj したがって、式 (P1),(P2) より、 L(π1,π2,,πJ)j=1Jπjdj(1πj)njdj 対数尤度関数 l(θ,x)=logL(θ,x) は、 l(π1,π2,,πJ)=j=1J{djlogπj+(njdj)log(1πj)} パラメータ πi に関するスコア関数 U(θ)=θl(θ) は、 U(πj)=djπjnjdj1πj 尤度方程式 U(θ)=0 を解くと、パラメータ πj に関する条件付き最尤推定量は、 dj(1π^j)(njdj)π^j=0djdjπ^jnjπ^j+djπ^j=0njπ^j=dj π^j=pj=djnj1π^j=qj=njdjnj したがって、生存関数の一般化最尤推定値は 0ttJ に対して S^(t)=j=1J(njdjnj)I[tjt]=j=1JqjI[tjt]=j:tjtqj

標本イベント確率の漸近分布

【定理】
標本イベント確率の漸近分布
Asymptotic Distribution of Sample Proportion

イベント時間 tj におけるイベント数は、その時点でのリスク集合 nj が与えられたという条件のもと、互いに独立に二項分布 djB(nj,πj) に従うと仮定する。 このとき、標本イベント確率のベクトルは、漸近的に (p1p2pJ)=pNJ(π,Σ)π=(π1π2πJ)Σ=(σ12000σ22000σJ2)σj2=πj(1πj)nj

証明

証明

二項分布の期待値と分散の公式より、 E(dj)=njπjV(dj)=njπj(1πj)E(pj)=πj V(pj)=πj(1πj)nj 確率変数が独立なとき、共分散の性質より、 Cov(pl,pk)=0 このとき、標本比率のベクトル p=(p1p2pJ) について、 多変量の中心極限定理より、漸近的に pNJ(π,Σ)π=(π1π2πJ)Σ=(σ12000σ22000σJ2)σj2=πj(1πj)nj

対数生存関数の最尤推定量の分散

【定理】
対数生存関数の最尤推定量の分散
Variance of MLE of Log-Survival Function

対数生存関数の最尤推定量の分散とその推定値は、 V[logS^(t)]=l=1jπlnl(1πl)V^[logS^(t)]=l=1jdlnl(1dl)

証明

証明

ここで、任意の時点 j における対数生存関数について、 G(π)=logS(t)=l=1jlog(1πl)G(p)=logS^(t)=l=1jlog(1pl) と変数変換する。 多変量のデルタ法を用いて G(p) を期待値 E(p)=π まわりでテイラー展開すると、偏導関数ベクトルは、 H(θ)=(G(θ)π1G(θ)πj)=(11π111πj) 多変量のデルタ法の期待値と分散の公式より、 E[logS^(t)]l=1jlog(1πl) V[logS^(t)]=[11π111πj][σ1200σj2][11π111πj]=[11π111πj][π1n1πjnj]=π1n1(1π1)++πjnj(1πj)=l=1jπlnl(1πl) この一致推定量は、π^j=pj を代入して、 V^[logS^(t)]=l=1jdlnl(1dl) したがって、漸近的に、 logS^(t)N[l=1jlog(1πl),l=1jπlnl(1πl)]

グリーンウッドの公式

【公式】
グリーンウッドの公式
Greenwood's Formula

生存関数の最尤推定量の分散とその推定値は、 V[S^(t)]={S(t)}2{l=1jπlnl(1πl)}V^[S^(t)]={S^(t)}2{l=1jdlnl(nldl)} で与えられる。

特に、観察打切り例が全くない場合は、 V[S^(t)]=S^(t){1S^(t)}N となり、 成功確率を S^(t) とする二項分布の分散として表現できる。

証明

証明

ここで、任意のイベント時点 j における生存関数について、 G(π)=S(t)=l=1j(1πl)G(p)=S^(t)=l=1j(1pl) と変数変換する。 多変量のデルタ法を用いて G(p) を期待値 E(p)=π まわりでテイラー展開すると、偏導関数ベクトルは、 H(θ)=(G(θ)π1G(θ)πj)=(l1(1πl)lj(1πl)) 多変量のデルタ法の期待値と分散の公式より、 E[S^(t)]l=1j(1πl) V[S^(t)]=[l1(1πl)lj(1πl)][σ1200σj2][l1(1πl)lj(1πl)]=[l1(1πl)lj(1πl)][π1(1π1)n1l1(1πl)πi(1πi)nilj(1πl)]=π1(1π1)n1{l1(1πl)}2++πj(1πj)nj{lj(1πl)}2=π1(1π1)2n1(1π1){l1(1πl)}2++πj(1πj)2nj(1πj){lj(1πl)}2=π1n1(1π1){l=1j(1πl)}2++πjnj(1πj){l=1j(1πl)}2=π1n1(1π1){S(t)}2++πjnj(1πj){S(t)}2={S(t)}2{l=1jπlnl(1πl)} この一致推定量は、S(t)=S^(t),π^j=pj を代入して、 (P1)V^[S^(t)]={S^(t)}2{l=1jdlnl(nldl)}

部分分数分解を行うと、式 (P1) について、 l=1jdlnl(nldl)=d1n1(n1d1)++djnj(njdj)=1n1+1n1d11nj+1njdj 打ち切りがない(wj=0)場合、一般に nj+1=njdj この式を代入すると、 l=1jdlnl(nldl)=1n1+1n21n2++1nj1nj+1njdj=1n1+1njdj=nj+dj+n1n1(njdj) リスク集合・イベント数・打ち切り数の関係式より、 njdj=n1l=1jdln1nj+dj=l=1jdl したがって、 (P2)l=1jdlnl(nldl)=l=1jdln1(n1l=1jdl) また、カプラン・マイヤー推定量は、 S^(t)=n1d1n1n2d2n2nj1dj1nj1njdjnj=n2n1n3n2nj1nj2njdjnj1=njdjn1(P3)=n1l=1jdln1 したがって、式 (P1)(P3) より、 V^[S^(t)]=(n1l=1jdln1)2{l=1jdln1(n1l=1jdl)}=1n1(n1l=1jdln1)(l=1jdln1)=1n1(n1l=1jdln1)(1n1l=1jdln1)=S^(t){1S^(t)}N

補対数対数にもとづく生存関数の信頼区間

【定理】
補対数対数変換にもとづく生存関数の信頼区間
Confidence Interval of Survival Function Based on Complementary log-log Function

補対数対数生存関数の最尤推定量の分散とその推定値は、 V[log{logS^(t)}]={1logS(t)}2{l=1jπlnl(1πl)}V^[log{logS^(t)}]={1logS^(t)}2{l=1jdlnl(nldl)} 補対数対数変換にもとづく生存関数の 100(1α)% 信頼区間は、漸近的に 100(1α)% C.I.=[{S^(t)}L,{S^(t)}U] で与えられる。 ただし、 σ2=V^[log{logS^(t)}]L=exp(Z0.5ασ)U=exp(Z0.5ασ)

証明

証明

ここで、任意のイベント時点 j における生存関数について、 G(π)=log{logS(t)}=log{l=1jlog(1πl)}G(p)=log{logS^(t)}=log{l=1jlog(1pl)} と変数変換する。 多変量のデルタ法を用いて G(p) を期待値 E(p)=π まわりでテイラー展開すると、偏導関数ベクトルは、 H(θ)=(G(θ)π1G(θ)πj)=(1l=1jlog(1πl)11π11l=1jlog(1πl)11πj) 多変量のデルタ法の期待値と分散の公式より、 E[log{logS^(t)}]log{l=1jlog(1πl)} V[log{logS^(t)}]=[1l=1jlog(1πl)11π11l=1jlog(1πl)11πj][σ1200σj2][1l=1jlog(1πl)11π11l=1jlog(1πl)11πj]=[1l=1jlog(1πl)11π11l=1jlog(1πl)11πj][π1n11l=1jlog(1πl)πjnj1l=1jlog(1πl)]={1l=1jlog(1πl)}2{π1n1(1π1)++πjnj(1πj)}={1logS(t)}2{l=1jπlnl(1πl)} この一致推定量は、S(t)=S^(t),π^j=pj を代入して、 V^[log{logS^(t)}]={1logS^(t)}2{l=1jdlnl(nldl)} したがって、補対数対数生存関数の最尤推定量は、漸近的に log{logS^(t)}N[log{l=1jlog(1πl)},{1logS(t)}2{l=1jπlnl(1πl)}]

標準正規分布を用いた信頼区間の公式より、 Z0.5αZZ0.5αZ0.5αlog{logS^(t)}log{logS(t)}σZ0.5αZ0.5ασlog{logS^(t)logS(t)}Z0.5ασ L=Z0.5ασU=Z0.5ασΛ(t)=logS(t) とおいて、 逆変換を行うと、 eLΛ^(t)Λ(t)eUeUΛ(t)Λ^(t)eLΛ^(t)eUΛ(t)Λ^(t)eLΛ^(t)eUlogS(t)Λ^(t)eLΛ^(t)eLlogS(t)Λ^(t)eUexp{Λ^(t)eL}S(t)exp{Λ^(t)eU}exp{eLlogS^(t)}S(t)exp{eUlogS^(t)}exp{log{S^(t)}exp(L)}S(t)exp{log{S^(t)}exp(U)}{S^(t)}exp(L)S(t){S^(t)}exp(U){S^(t)}exp(Z0.5ασ)S(t){S^(t)}exp(Z0.5ασ)

対数生存オッズ比の最尤推定量の分散

【定理】
対数生存オッズ比の最尤推定量の分散
Variance of MLE of Log-Survival Odds

対数生存オッズ比の最尤推定量の分散とその推定値は、 V[logS^(t)1S^(t)]={11S(t)}2{l=1jπlnl(1πl)}V^[logS^(t)1S^(t)]={11S^(t)}2{l=1jdlnl(nldl)}

証明

証明

ここで、任意のイベント時点 i における生存関数について、 G(π)=logS(t)1S(t)G(p)=logS^(t)1S^(t) と変数変換する。 多変量のデルタ法を用いて G(p) を期待値 E(p)=π まわりでテイラー展開すると、 G(θ)πi=1S(t)S(t)1{1S(t)}2{lj(1πl)}=11S(t)(1π1)(1πj1)(1πj+1)(1πJ)(1π1)(1πj1)(1πj)(1πj+1)(1πJ)=11S(t)11πj よって、偏導関数ベクトルは、 H(θ)=(G(θ)π1G(θ)πj)=(11S(t)11π111S(t)11πj) 多変量のデルタ法の期待値と分散の公式より、 E[logS^(t)1S^(t)]logS(t)1S(t) V[logS^(t)1S^(t)]=[11S(t)11π111S(t)11πj][σ1200σj2][11S(t)11π111S(t)11πj]=[11S(t)11π111S(t)11πj][π1n111S(t)πjnj11S(t)]={11S(t)}2{π1n1(1π1)++πjnj(1πj)}={11S(t)}2{l=1jπlnl(1πl)} この一致推定量は、S(t)=S^(t),π^j=pj を代入して、 V^[logS^(t)1S^(t)]={11S^(t)}2{l=1jdlnl(nldl)}

ネルソン・アーレン推定量

イベント時点が連続した時間において観測される場合、ハザード関数の推定を行うためのアプローチのひとつに区分指数モデル piecewise exponential model がある。

区分指数モデルでは、ハザード関数が連続したイベント時点と時点の間で、区分的に定数であることを仮定する、すなわち、j 番目の区間 t(tj1,tj] において λ(t)=λj とする。

時間のわずかな区間におけるイベントの確率は、十分小さな ε0 に対して eε1ε であるため、 πj=S(tj1)S(tj)=exp(λjtj1)exp(λjtj)λj(tjtj1) これを用いた j 番目のイベント時点よりも前の区間のハザード関数の推定量、 λ^j=λ^NA,j=pjtjtj1 ネルソン・アーレン推定量 Nelson-Aalen estimator という。 このとき、その時点 tj までの累積ハザードの推定量は、 Λ^NA(tj)=l=1jλ^NA,l(tltl1)=l=1jpl 生存関数のネルソン・アーレン推定量は、 S^NA(tj)=exp[Λ^NA(tj)] で定義される。

カプラン・マイヤー推定量とネルソン・アーレン推定量の関係

【命題】
カプラン・マイヤー推定量とネルソン・アーレン推定量の関係
Relationship between Kaplan-Meier and Nelson-Aalen Estimator

イベント数が十分に大きく(J)、各イベント時点 tj におけるイベント確率が非常に小さい(pj0)とき、カプラン・マイヤー法による時点 tj におけるハザード関数と生存関数は、ネルソン・アーレン推定値と近似的に等しい。すなわち、 Jpj0 のとき、 λ^NA,jλ^NA,jS^KM,jS^NA,j また、ネルソン・アーレン推定値は、常にカプラン・マイヤー推定値以上の値を取る。 S^KM(tj)S^NA(tj)

証明

証明

log(1ϵ)ϵ より、 λ^KM,j(pj)tjtj1=pjtjtj1 S^NA(tj)=exp[l=1jpl]=l=1jepl=ep1ep2epj ここで、eε1ε より、ε=pj として、 epj1pj=njdjnj したがって、 S^NA(tj)=l=1jepll=1j(njdjnj)=S^KM(tj) また、0<x<1 を満たす任意の x に対して、1xex が成り立つので、 S^KM(tj)S^NA(tj) すなわち、ネルソン・アーレン推定値は、常にカプラン・マイヤー推定値以上の値を取る。

参考文献

  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.464-469
  • Kaplan, E.L. & Meier, P.. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 1958, 53(282), p.457-481, doi: 10.1080/01621459.1958.10501452
  • Greenwood, M.. The errors of sampling of the survivorship tables. Reports on Public Health and Medical Subjects. 1926, 33(Appendix 1), p.1-26.
  • Aalen, O.. Nonparametric Inference for a Family of Counting Processes. The Annals of Statistics. 1978, 6(4), p.701-726, doi: 10.1214/aos/1176344247
  • Nelson, W.. Hazard Plotting for Incomplete Failure Data. Journal of Quality Technology. 1969, 1(1), p.27-52, doi: 10.1080/00224065.1969.11980344
  • Nelson, W.. Theory and Applications of Hazard Plotting for Censored Failure Data. Technometrics. 1972, 14(4), p.945-966, doi: 10.1080/00401706.1972.10488991

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ