カプラン・マイヤー法-あるノマドの知の旅路～数学・統計学への道

本稿では、カプラン・マイヤー法に関する重要事項の証明・導出を行っています。①カプラン・マイヤー推定量、②対数生存関数の分散、③グリーンウッドの公式、④補対数対数にもとづく生存関数の信頼区間、⑤対数生存オッズ比の分散、の導出、カプラン・マイヤー推定量とネルソン・アーレン推定量の関係の証明が含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
曝露（発症）状況を表す右下の添え字は、「0」である場合（$n_0,\pi_0$ など）や「2」である場合（$n_2,\pi_2$ など）がありますが、どちらも「非曝露群（コントロール群）」を表しています。
漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。
デルタ法を用いる際、剰余項（2次の項）が漸近的に無視できる（$0$に確率収束する）と仮定しています。

カプラン・マイヤー推定量

ランダム打ち切りの下で、標本が得られる尤度は、 \begin{gather} L\propto\prod_{i=1}^{N}{ \left\{f \left(t_j\right)\right\}^{\delta_i} \left\{S \left(t_j\right)\right\}^{1-\delta_i}}=\prod_{i=1}^{N}{ \left\{\lambda \left(t_j\right)\right\}^{\delta_i}S \left(t_j\right)}\tag{1} \end{gather} で与えられる。

一般に時点 $t_j$ における生存関数は、 \begin{align} S \left(t_j\right)=\prod_{l=1}^{j} \left(1-\pi_l\right)\tag{2} \end{align} で与えられ、 カプラン・マイヤー推定量 Kaplan-Meier estimator は、 \begin{gather} \hat{S} \left(t\right)=\prod_{l=1}^{j}\frac{n_l-d_l}{n_l}\tag{3} \end{gather} で与えられる。

証明

被験者が時点 $t_j$ を超えてイベントを発生せずに生存するためには $t_{j-1}$ を超えてイベントを発生せずに生存する必要があり、以下、同様に、その前の時点での生存が条件となる。したがって、 \begin{align} S \left(t_j\right)&=P \left(t_j \lt T\right)\\ &=P \left(t_j \lt T\middle| t_{j-1} \lt T\right) \cdot P \left(t_{j-1} \lt T\right)\\ &=P \left(t_j \lt T\middle| t_{j-1} \lt T\right) \cdot P \left(t_{j-1} \lt T\middle| t_{j-2} \lt T\right) \cdot P \left(t_{j-2} \lt T\right)\\ &= \cdots \end{align} 定義より、 \begin{align} P \left(t_j \lt T\middle| t_{j-1} \lt T\right)&=P \left(t_j \lt T\middle| t_j \le T\right)\\ &=1-\pi_j \end{align} すなわち、 \begin{align} S \left(t_j\right)&= \left(1-\pi_j\right)S \left(t_{j-1}\right)\\ &= \left(1-\pi_j\right) \left(1-\pi_{j-1}\right) \cdots \left(1-\pi_2\right) \left(1-\pi_1\right)\\ &=\prod_{l=1}^{j} \left(1-\pi_l\right) \end{align}

このとき尤度関数は、 \begin{align} L \left(\pi_1,\pi_2, \cdots ,\pi_J\right)\propto\prod_{j=1}^{J}{\pi_j^{d_j} \left[S \left(t_{j-1}\right)\right]^{d_j} \left[S \left(t_j\right)\right]^{w_j}}\tag{P1} \end{align} ここで、以下のようにおくと、 \begin{align} M&=\prod_{j=1}^{J}{ \left[S \left(t_{j-1}\right)\right]^{d_j} \left[S \left(t_j\right)\right]^{w_j}}\\ &= \left[S \left(t_0\right)\right]^{d_1} \left[S \left(t_1\right)\right]^{w_1} \cdot \left[S \left(t_1\right)\right]^{d_2} \left[S \left(t_2\right)\right]^{w_2} \cdots \left[S \left(t_{j-1}\right)\right]^{d_J} \left[S \left(t_j\right)\right]^{w_J}\\ &= \left[S \left(t_1\right)\right]^{w_1+d_2} \cdot \left[S \left(t_2\right)\right]^{w_2+d_3} \cdots \left[S \left(t_{j-1}\right)\right]^{w_{J-1}+d_J} \left[S \left(t_j\right)\right]^{w_J} &= \left[ \left(1-\pi_1\right)\right]^{w_1+d_2} \cdot \left[ \left(1-\pi_1\right) \left(1-\pi_2\right)\right]^{w_2+d_3} \cdots \left[ \left(1-\pi_1\right) \cdots \left(1-\pi_{J-1}\right)\right]^{w_{J-1}+d_J} \cdot \left[ \left(1-\pi_1\right) \cdots \left(1-\pi_J\right)\right]^{w_J}\\ &= \left(1-\pi_1\right)^{w_1+d_2+w_2+ \cdots +d_J+w_J} \cdot \left(1-\pi_2\right)^{w_2+d_3+w_3 \cdots +d_J+w_J} \cdots \left(1-\pi_{J-1}\right)^{w_{J-1}+d_J+w_J} \cdot \left(1-\pi_J\right)^{w_J}\\ &= \left(1-\pi_1\right)^{\sum_{j=1}^{J} \left(d_{j+1}+w_j\right)} \cdot \left(1-\pi_2\right)^{\sum_{j=2}^{J} \left(d_{j+1}+w_j\right)} \cdots \left(1-\pi_{J-1}\right)^{\sum_{j=J-1}^{J} \left(d_{j+1}+w_j\right)} \cdot \left(1-\pi_J\right)^{\sum_{j=J}^{J} \left(d_{j+1}+w_j\right)} \end{align} ここで、リスク集合とイベント数、打ち切り数についての関係式 $n_k-d_k=\sum_{l=k}^{J} \left(d_{l+1}+w_l\right)$ より、 \begin{align} M=\prod_{j=1}^{J} \left(1-\pi_j\right)^{n_j-d_j}\tag{P2} \end{align} したがって、式 $ \left(\mathrm{P}1\right),(\mathrm{P}2)$ より、 \begin{align} L \left(\pi_1,\pi_2, \cdots ,\pi_J\right)\propto\prod_{j=1}^{J}{\pi_j^{d_j} \left(1-\pi_j\right)^{n_j-d_j}} \end{align} 対数尤度関数 $l \left(\theta,\boldsymbol{x}\right)=\log{L \left(\theta,\boldsymbol{x}\right)}$ は、 \begin{align} l \left(\pi_1,\pi_2, \cdots ,\pi_J\right)=\sum_{j=1}^{J} \left\{d_j\log{\pi_j}+ \left(n_j-d_j\right)\log{ \left(1-\pi_j\right)}\right\} \end{align} パラメータ $\pi_i$ に関するスコア関数 $U \left(\theta\right)=\frac{\partial}{\partial\theta}l \left(\theta\right)$ は、 \begin{align} U \left(\pi_j\right)=\frac{d_j}{\pi_j}-\frac{n_j-d_j}{1-\pi_j} \end{align} 尤度方程式 $U \left(\theta\right)=0$ を解くと、パラメータ $\pi_j$ に関する条件付き最尤推定量は、 \begin{gather} d_j \left(1-{\hat{\pi}}_j\right)- \left(n_j-d_j\right){\hat{\pi}}_j=0\\ d_j-d_j{\hat{\pi}}_j-n_j{\hat{\pi}}_j+d_j{\hat{\pi}}_j=0\\ n_j{\hat{\pi}}_j=d_j \end{gather} \begin{align} {\hat{\pi}}_j=p_j=\frac{d_j}{n_j} \quad 1-{\hat{\pi}}_j=q_j=\frac{n_j-d_j}{n_j} \end{align} したがって、生存関数の一般化最尤推定値は $0 \le t \le t_J$ に対して \begin{align} \hat{S} \left(t\right)&=\prod_{j=1}^{J} \left(\frac{n_j-d_j}{n_j}\right)^{I \left[t_j \le t\right]}\\ &=\prod_{j=1}^{J}q_j^{I \left[t_j \le t\right]}\\ &=\prod_{j:t_j \le t} q_j \end{align} $\blacksquare$

標本イベント確率の漸近分布

【定理】
標本イベント確率の漸近分布
Asymptotic Distribution of Sample Proportion

イベント時間 $t_j$ におけるイベント数は、その時点でのリスク集合 $n_j$ が与えられたという条件のもと、互いに独立に二項分布 \begin{align} d_j \sim \mathrm{B} \left(n_j,\pi_j\right) \end{align} に従うと仮定する。このとき、標本イベント確率のベクトルは、漸近的に \begin{gather} \left(\begin{matrix}p_1\\p_2\\\vdots\\p_J\\\end{matrix}\right)=\boldsymbol{p} \sim \mathrm{\boldsymbol{N}_J} \left(\boldsymbol{\pi},\boldsymbol{\Sigma}\right)\\ \boldsymbol{\pi}= \left(\begin{matrix}\pi_1\\\pi_2\\\vdots\\\pi_J\\\end{matrix}\right)\\ \boldsymbol{\Sigma}= \left(\begin{matrix}\sigma_1^2&0& \cdots &0\\0&\sigma_2^2& \cdots &0\\\vdots&\vdots&\ddots&\vdots\\0&0& \cdots &\sigma_J^2\\\end{matrix}\right)\\ \sigma_j^2=\frac{\pi_j \left(1-\pi_j\right)}{n_j} \end{gather}

証明

二項分布の期待値と分散の公式より、 \begin{gather} E \left(d_j\right)=n_j\pi_j \quad V \left(d_j\right)=n_j\pi_j \left(1-\pi_j\right)\\ E \left(p_j\right)=\pi_j \quad \ V \left(p_j\right)=\frac{\pi_j \left(1-\pi_j\right)}{n_j} \end{gather} 確率変数が独立なとき、共分散の性質より、 \begin{align} \mathrm{Cov} \left(p_l,p_k\right)=0 \end{align} このとき、標本比率のベクトル \begin{align} \boldsymbol{p}= \left(\begin{matrix}p_1\\p_2\\\vdots\\p_J\\\end{matrix}\right) \end{align} について、多変量の中心極限定理より、漸近的に \begin{gather} \boldsymbol{p} \sim \mathrm{\boldsymbol{N}_J} \left(\boldsymbol{\pi},\boldsymbol{\Sigma}\right)\\ \boldsymbol{\pi}= \left(\begin{matrix}\pi_1\\\pi_2\\\vdots\\\pi_J\\\end{matrix}\right)\\ \boldsymbol{\Sigma}= \left(\begin{matrix}\sigma_1^2&0& \cdots &0\\0&\sigma_2^2& \cdots &0\\\vdots&\vdots&\ddots&\vdots\\0&0& \cdots &\sigma_J^2\\\end{matrix}\right)\\ \sigma_j^2=\frac{\pi_j \left(1-\pi_j\right)}{n_j} \end{gather} $\blacksquare$

対数生存関数の最尤推定量の分散

【定理】
対数生存関数の最尤推定量の分散
Variance of MLE of Log-Survival Function

対数生存関数の最尤推定量の分散とその推定値は、 \begin{gather} V \left[\log{\hat{S} \left(t\right)}\right]=\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\\ \hat{V} \left[\log{\hat{S} \left(t\right)}\right]=\sum_{l=1}^{j}\frac{d_l}{n_l \left(1-d_l\right)} \end{gather}

証明

ここで、任意の時点 $j$ における対数生存関数について、 \begin{gather} G \left(\boldsymbol{\pi}\right)=\log{S \left(t\right)}=\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}\\ G \left(\boldsymbol{p}\right)=\log{\hat{S} \left(t\right)}=\sum_{l=1}^{j}\log{ \left(1-p_l\right)} \end{gather} と変数変換する。多変量のデルタ法を用いて $G \left(\boldsymbol{p}\right)$ を期待値 $E \left(\boldsymbol{p}\right)=\boldsymbol{\pi}$ まわりでテイラー展開すると、偏導関数ベクトルは、 \begin{align} \boldsymbol{H} \left(\boldsymbol{\theta}\right)= \left(\begin{matrix}\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_1}\\\vdots\\\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_j}\\\end{matrix}\right)= \left(\begin{matrix}-\frac{1}{1-\pi_1}\\\vdots\\-\frac{1}{1-\pi_j}\\\end{matrix}\right) \end{align} 多変量のデルタ法の期待値と分散の公式より、 \begin{align} E \left[\log{\hat{S} \left(t\right)}\right]\cong\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)} \end{align} \begin{align} V \left[\log{\hat{S} \left(t\right)}\right]&= \left[\begin{matrix}-\frac{1}{1-\pi_1}& \cdots &-\frac{1}{1-\pi_j}\\\end{matrix}\right] \left[\begin{matrix}\sigma_1^2& \cdots &0\\\vdots&\ddots&\vdots\\0& \cdots &\sigma_j^2\\\end{matrix}\right] \left[\begin{matrix}-\frac{1}{1-\pi_1}\\\vdots\\-\frac{1}{1-\pi_j}\\\end{matrix}\right]\\ &= \left[\begin{matrix}-\frac{1}{1-\pi_1}& \cdots &-\frac{1}{1-\pi_j}\\\end{matrix}\right] \left[\begin{matrix}-\frac{\pi_1}{n_1}\\\vdots\\-\frac{\pi_j}{n_j}\\\end{matrix}\right]\\ &=\frac{\pi_1}{n_1 \left(1-\pi_1\right)}+ \cdots +\frac{\pi_j}{n_j \left(1-\pi_j\right)}\\ &=\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)} \end{align} この一致推定量は、${\hat{\pi}}_j=p_j$ を代入して、 \begin{align} \hat{V} \left[\log{\hat{S} \left(t\right)}\right]=\sum_{l=1}^{j}\frac{d_l}{n_l \left(1-d_l\right)} \end{align} したがって、漸近的に、 \begin{align} \log{\hat{S} \left(t\right)} \sim N \left[\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)},\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right] \end{align} $\blacksquare$

グリーンウッドの公式

【公式】
グリーンウッドの公式
Greenwood's Formula

生存関数の最尤推定量の分散とその推定値は、 \begin{gather} V \left[\hat{S} \left(t\right)\right]= \left\{S \left(t\right)\right\}^2 \left\{\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right\}\\ \hat{V} \left[\hat{S} \left(t\right)\right]= \left\{\hat{S} \left(t\right)\right\}^2 \left\{\sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}\right\} \end{gather} で与えられる。

特に、観察打切り例が全くない場合は、 \begin{gather} V \left[\hat{S} \left(t\right)\right]=\frac{\hat{S} \left(t\right) \left\{1-\hat{S} \left(t\right)\right\}}{N} \end{gather} となり、成功確率を $\hat{S} \left(t\right)$ とする二項分布の分散として表現できる。

証明

ここで、任意のイベント時点 $j$ における生存関数について、 \begin{gather} G \left(\boldsymbol{\pi}\right)=S \left(t\right)=\prod_{l=1}^{j} \left(1-\pi_l\right)\\ G \left(\boldsymbol{p}\right)=\hat{S} \left(t\right)=\prod_{l=1}^{j} \left(1-p_l\right) \end{gather} と変数変換する。多変量のデルタ法を用いて $G \left(\boldsymbol{p}\right)$ を期待値 $E \left(\boldsymbol{p}\right)=\boldsymbol{\pi}$ まわりでテイラー展開すると、偏導関数ベクトルは、 \begin{align} \boldsymbol{H} \left(\boldsymbol{\theta}\right)= \left(\begin{matrix}\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_1}\\\vdots\\\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_j}\\\end{matrix}\right)= \left(\begin{matrix}-\prod_{l \neq 1} \left(1-\pi_l\right)\\\vdots\\-\prod_{l \neq j} \left(1-\pi_l\right)\\\end{matrix}\right) \end{align} 多変量のデルタ法の期待値と分散の公式より、 \begin{align} E \left[\hat{S} \left(t\right)\right]\cong\prod_{l=1}^{j} \left(1-\pi_l\right) \end{align} \begin{align} V \left[\hat{S} \left(t\right)\right]&= \left[\begin{matrix}-\prod_{l \neq 1} \left(1-\pi_l\right)& \cdots &-\prod_{l \neq j} \left(1-\pi_l\right)\\\end{matrix}\right] \left[\begin{matrix}\sigma_1^2& \cdots &0\\\vdots&\ddots&\vdots\\0& \cdots &\sigma_j^2\\\end{matrix}\right] \left[\begin{matrix}-\prod_{l \neq 1} \left(1-\pi_l\right)\\\vdots\\-\prod_{l \neq j} \left(1-\pi_l\right)\\\end{matrix}\right]\\ &= \left[\begin{matrix}-\prod_{l \neq 1} \left(1-\pi_l\right)& \cdots &-\prod_{l \neq j} \left(1-\pi_l\right)\\\end{matrix}\right] \left[\begin{matrix}-\frac{\pi_1 \left(1-\pi_1\right)}{n_1}\prod_{l \neq 1} \left(1-\pi_l\right)\\\vdots\\-\frac{\pi_i \left(1-\pi_i\right)}{n_i}\prod_{l \neq j} \left(1-\pi_l\right)\\\end{matrix}\right]\\ &=\frac{\pi_1 \left(1-\pi_1\right)}{n_1} \left\{\prod_{l \neq 1} \left(1-\pi_l\right)\right\}^2+ \cdots +\frac{\pi_j \left(1-\pi_j\right)}{n_j} \left\{\prod_{l \neq j} \left(1-\pi_l\right)\right\}^2\\ &=\frac{\pi_1 \left(1-\pi_1\right)^2}{n_1 \left(1-\pi_1\right)} \left\{\prod_{l \neq 1} \left(1-\pi_l\right)\right\}^2+ \cdots +\frac{\pi_j \left(1-\pi_j\right)^2}{n_j \left(1-\pi_j\right)} \left\{\prod_{l \neq j} \left(1-\pi_l\right)\right\}^2\\ &=\frac{\pi_1}{n_1 \left(1-\pi_1\right)} \left\{\prod_{l=1}^{j} \left(1-\pi_l\right)\right\}^2+ \cdots +\frac{\pi_j}{n_j \left(1-\pi_j\right)} \left\{\prod_{l=1}^{j} \left(1-\pi_l\right)\right\}^2\\ &=\frac{\pi_1}{n_1 \left(1-\pi_1\right)} \left\{S \left(t\right)\right\}^2+ \cdots +\frac{\pi_j}{n_j \left(1-\pi_j\right)} \left\{S \left(t\right)\right\}^2\\ &= \left\{S \left(t\right)\right\}^2 \left\{\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right\}\\ \end{align} この一致推定量は、$S \left(t\right)=\hat{S} \left(t\right),{\hat{\pi}}_j=p_j$ を代入して、 \begin{align} \hat{V} \left[\hat{S} \left(t\right)\right]= \left\{\hat{S} \left(t\right)\right\}^2 \left\{\sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}\right\}\tag{P1} \end{align}

部分分数分解を行うと、式 $(\mathrm{P}1)$ について、 \begin{align} \sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}&=\frac{d_1}{n_1 \left(n_1-d_1\right)}+ \cdots +\frac{d_j}{n_j \left(n_j-d_j\right)}\\ &=-\frac{1}{n_1}+\frac{1}{n_1-d_1} \cdots -\frac{1}{n_j}+\frac{1}{n_j-d_j} \end{align} 打ち切りがない（$w_j=0$）場合、一般に \begin{gather} n_{j+1}=n_j-d_j \end{gather} この式を代入すると、 \begin{align} \sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}&=-\frac{1}{n_1}+\frac{1}{n_2}-\frac{1}{n_2}+ \cdots +\frac{1}{n_j}-\frac{1}{n_j}+\frac{1}{n_j-d_j}\\ &=-\frac{1}{n_1}+\frac{1}{n_j-d_j}\\ &=-\frac{-n_j+d_j+n_1}{n_1 \left(n_j-d_j\right)} \end{align} リスク集合・イベント数・打ち切り数の関係式より、 \begin{gather} n_j-d_j=n_1-\sum_{l=1}^{j}d_l\\ n_1-n_j+d_j=\sum_{l=1}^{j}d_l \end{gather} したがって、 \begin{gather} \sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}=\frac{\sum_{l=1}^{j}d_l}{n_1 \left(n_1-\sum_{l=1}^{j}d_l\right)}\tag{P2} \end{gather} また、カプラン・マイヤー推定量は、 \begin{align} \hat{S} \left(t\right)&=\frac{n_1-d_1}{n_1} \cdot \frac{n_2-d_2}{n_2} \cdots \frac{n_{j-1}-d_{j-1}}{n_{j-1}} \cdot \frac{n_j-d_j}{n_j}\\ &=\frac{n_2}{n_1} \cdot \frac{n_3}{n_2} \cdots \frac{n_{j-1}}{n_{j-2}} \cdot \frac{n_j-d_j}{n_{j-1}}\\ &=\frac{n_j-d_j}{n_1}\\ &=\frac{n_1-\sum_{l=1}^{j}d_l}{n_1}\tag{P3} \end{align} したがって、式 $(\mathrm{P}1) \sim (\mathrm{P}3)$ より、 \begin{align} \hat{V} \left[\hat{S} \left(t\right)\right]&= \left(\frac{n_1-\sum_{l=1}^{j}d_l}{n_1}\right)^2 \left\{\frac{\sum_{l=1}^{j}d_l}{n_1 \left(n_1-\sum_{l=1}^{j}d_l\right)}\right\}\\ &=\frac{1}{n_1} \left(\frac{n_1-\sum_{l=1}^{j}d_l}{n_1}\right) \left(\frac{\sum_{l=1}^{j}d_l}{n_1}\right)\\ &=\frac{1}{n_1} \left(\frac{n_1-\sum_{l=1}^{j}d_l}{n_1}\right) \left(1-\frac{n_1-\sum_{l=1}^{j}d_l}{n_1}\right)\\ &=\frac{\hat{S} \left(t\right) \left\{1-\hat{S} \left(t\right)\right\}}{N} \end{align} $\blacksquare$

補対数対数にもとづく生存関数の信頼区間

【定理】
補対数対数変換にもとづく生存関数の信頼区間
Confidence Interval of Survival Function Based on Complementary log-log Function

補対数対数生存関数の最尤推定量の分散とその推定値は、 \begin{gather} V \left[\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}\right]= \left\{\frac{1}{\log{S \left(t\right)}}\right\}^2 \left\{\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right\}\\ \hat{V} \left[\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}\right]= \left\{\frac{1}{\log{\hat{S} \left(t\right)}}\right\}^2 \left\{\sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}\right\} \end{gather} 補対数対数変換にもとづく生存関数の $100 \left(1-\alpha\right)\%$ 信頼区間は、漸近的に \begin{gather} 100 \left(1-\alpha\right)\%\ \mathrm{C.I.}= \left[ \left\{\hat{S} \left(t\right)\right\}^L, \left\{\hat{S} \left(t\right)\right\}^U\right] \end{gather} で与えられる。ただし、 \begin{gather} \sigma^2=\hat{V} \left[\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}\right]\\ L=\mathrm{exp} \left(-Z_{0.5\alpha} \cdot \sigma\right)\\ U=\mathrm{exp} \left(Z_{0.5\alpha} \cdot \sigma\right) \end{gather}

証明

ここで、任意のイベント時点 $j$ における生存関数について、 \begin{gather} G \left(\boldsymbol{\pi}\right)=\log{ \left\{-\log{S \left(t\right)}\right\}}=\log{ \left\{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}\right\}}\\ G \left(\boldsymbol{p}\right)=\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}=\log{ \left\{\sum_{l=1}^{j}\log{ \left(1-p_l\right)}\right\}} \end{gather} と変数変換する。多変量のデルタ法を用いて $G \left(\boldsymbol{p}\right)$ を期待値 $E \left(\boldsymbol{p}\right)=\boldsymbol{\pi}$ まわりでテイラー展開すると、偏導関数ベクトルは、 \begin{align} \boldsymbol{H} \left(\boldsymbol{\theta}\right)= \left(\begin{matrix}\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_1}\\\vdots\\\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_j}\\\end{matrix}\right)= \left(\begin{matrix}\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_1}\\\vdots\\\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right) \end{align} 多変量のデルタ法の期待値と分散の公式より、 \begin{align} E \left[\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}\right]\cong\log{ \left\{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}\right\}} \end{align} \begin{align} V \left[\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}\right]&= \left[\begin{matrix}\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_1}& \cdots &\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right] \left[\begin{matrix}\sigma_1^2& \cdots &0\\\vdots&\ddots&\vdots\\0& \cdots &\sigma_j^2\\\end{matrix}\right] \left[\begin{matrix}\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_1}\\\vdots\\\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right]\\ &= \left[\begin{matrix}\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_1}& \cdots &\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right] \left[\begin{matrix}\frac{\pi_1}{n_1} \cdot \frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}}\\\vdots\\\frac{\pi_j}{n_j} \cdot \frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}}\\\end{matrix}\right]\\ &= \left\{\frac{1}{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}}\right\}^2 \left\{\frac{\pi_1}{n_1 \left(1-\pi_1\right)}+ \cdots +\frac{\pi_j}{n_j \left(1-\pi_j\right)}\right\}\\ &= \left\{\frac{1}{\log{S \left(t\right)}}\right\}^2 \left\{\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right\}\\ \end{align} この一致推定量は、$S \left(t\right)=\hat{S} \left(t\right),{\hat{\pi}}_j=p_j$ を代入して、 \begin{align} \hat{V} \left[\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}\right]= \left\{\frac{1}{\log{\hat{S} \left(t\right)}}\right\}^2 \left\{\sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}\right\} \end{align} したがって、補対数対数生存関数の最尤推定量は、漸近的に \begin{align} \log{ \left\{-\log{\hat{S} \left(t\right)}\right\}} \sim \mathrm{N} \left[\log{ \left\{\sum_{l=1}^{j}\log{ \left(1-\pi_l\right)}\right\}}, \left\{\frac{1}{\log{S \left(t\right)}}\right\}^2 \left\{\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right\}\right] \end{align}

標準正規分布を用いた信頼区間の公式より、 \begin{gather} -Z_{0.5\alpha} \le Z \le Z_{0.5\alpha}\\ -Z_{0.5\alpha} \le \frac{\log{ \left\{-\log{\hat{S} \left(t\right)}\right\}}-\log{ \left\{-\log{S \left(t\right)}\right\}}}{\sigma} \le Z_{0.5\alpha}\\ -Z_{0.5\alpha} \cdot \sigma \le \log{ \left\{\frac{-\log{\hat{S} \left(t\right)}}{-\log{S \left(t\right)}}\right\}} \le Z_{0.5\alpha} \cdot \sigma \end{gather} \begin{gather} L=-Z_{0.5\alpha} \cdot \sigma\\ U=Z_{0.5\alpha} \cdot \sigma\\ \Lambda \left(t\right)=-\log{S \left(t\right)} \end{gather} とおいて、逆変換を行うと、 \begin{gather} e^L \le \frac{\hat{\Lambda} \left(t\right)}{\Lambda \left(t\right)} \le e^U\\ e^{-U} \le \frac{\Lambda \left(t\right)}{\hat{\Lambda} \left(t\right)} \le e^{-L}\\ \hat{\Lambda} \left(t\right) \cdot e^{-U} \le \Lambda \left(t\right) \le \hat{\Lambda} \left(t\right) \cdot e^{-L}\\ \hat{\Lambda} \left(t\right) \cdot e^{-U} \le -\log{S \left(t\right)} \le \hat{\Lambda} \left(t\right) \cdot e^{-L}\\ -\hat{\Lambda} \left(t\right) \cdot e^{-L} \le \log{S \left(t\right)} \le -\hat{\Lambda} \left(t\right) \cdot e^{-U}\\ \mathrm{exp} \left\{-\hat{\Lambda} \left(t\right) \cdot e^{-L}\right\} \le S \left(t\right) \le \mathrm{exp} \left\{-\hat{\Lambda} \left(t\right) \cdot e^{-U}\right\}\\ \mathrm{exp} \left\{e^{-L}\log{\hat{S} \left(t\right)}\right\} \le S \left(t\right) \le \mathrm{exp} \left\{e^{-U}\log{\hat{S} \left(t\right)}\right\}\\ \mathrm{exp} \left\{\log{ \left\{\hat{S} \left(t\right)\right\}^{\mathrm{exp} \left(-L\right)}}\right\} \le S \left(t\right) \le \mathrm{exp} \left\{\log{ \left\{\hat{S} \left(t\right)\right\}^{\mathrm{exp} \left(-U\right)}}\right\}\\ \left\{\hat{S} \left(t\right)\right\}^{\mathrm{exp} \left(-L\right)} \le S \left(t\right) \le \left\{\hat{S} \left(t\right)\right\}^{\mathrm{exp} \left(-U\right)}\\ \left\{\hat{S} \left(t\right)\right\}^{\mathrm{exp} \left(-Z_{0.5\alpha} \cdot \sigma\right)} \le S \left(t\right) \le \left\{\hat{S} \left(t\right)\right\}^{\mathrm{exp} \left(Z_{0.5\alpha} \cdot \sigma\right)} \end{gather} $\blacksquare$

対数生存オッズ比の最尤推定量の分散

【定理】
対数生存オッズ比の最尤推定量の分散
Variance of MLE of Log-Survival Odds

対数生存オッズ比の最尤推定量の分散とその推定値は、 \begin{gather} V \left[\log{\frac{\hat{S} \left(t\right)}{1-\hat{S} \left(t\right)}}\right]= \left\{\frac{1}{1-S \left(t\right)}\right\}^2 \left\{\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right\}\\ \hat{V} \left[\log{\frac{\hat{S} \left(t\right)}{1-\hat{S} \left(t\right)}}\right]= \left\{\frac{1}{1-\hat{S} \left(t\right)}\right\}^2 \left\{\sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}\right\} \end{gather}

証明

ここで、任意のイベント時点 $i$ における生存関数について、 \begin{gather} G \left(\boldsymbol{\pi}\right)=\log{\frac{S \left(t\right)}{1-S \left(t\right)}}\\ G \left(\boldsymbol{p}\right)=\log{\frac{\hat{S} \left(t\right)}{1-\hat{S} \left(t\right)}} \end{gather} と変数変換する。多変量のデルタ法を用いて $G \left(\boldsymbol{p}\right)$ を期待値 $E \left(\boldsymbol{p}\right)=\boldsymbol{\pi}$ まわりでテイラー展開すると、 \begin{align} \frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_i}&=\frac{1-S \left(t\right)}{S \left(t\right)} \cdot \frac{1}{ \left\{1-S \left(t\right)\right\}^2} \cdot \left\{-\prod_{l \neq j} \left(1-\pi_l\right)\right\}\\ &=-\frac{1}{1-S \left(t\right)} \cdot \frac{ \left(1-\pi_1\right) \cdots \left(1-\pi_{j-1}\right) \left(1-\pi_{j+1}\right) \cdots \left(1-\pi_J\right)}{ \left(1-\pi_1\right) \cdots \left(1-\pi_{j-1}\right) \left(1-\pi_j\right) \left(1-\pi_{j+1}\right) \cdots \left(1-\pi_J\right)}=-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_j} \end{align} よって、偏導関数ベクトルは、 \begin{align} \boldsymbol{H} \left(\boldsymbol{\theta}\right)= \left(\begin{matrix}\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_1}\\\vdots\\\frac{G \left(\boldsymbol{\theta}\right)}{\partial\pi_j}\\\end{matrix}\right)= \left(\begin{matrix}-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_1}\\\vdots\\-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right) \end{align} 多変量のデルタ法の期待値と分散の公式より、 \begin{align} E \left[\log{\frac{\hat{S} \left(t\right)}{1-\hat{S} \left(t\right)}}\right]\cong\log{\frac{S \left(t\right)}{1-S \left(t\right)}} \end{align} \begin{align} V \left[\log{\frac{\hat{S} \left(t\right)}{1-\hat{S} \left(t\right)}}\right]&= \left[\begin{matrix}-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_1}& \cdots &-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right] \left[\begin{matrix}\sigma_1^2& \cdots &0\\\vdots&\ddots&\vdots\\0& \cdots &\sigma_j^2\\\end{matrix}\right] \left[\begin{matrix}-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_1}\\\vdots\\-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right]\\ &= \left[\begin{matrix}-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_1}& \cdots &-\frac{1}{1-S \left(t\right)} \cdot \frac{1}{1-\pi_j}\\\end{matrix}\right] \left[\begin{matrix}-\frac{\pi_1}{n_1} \cdot \frac{1}{1-S \left(t\right)}\\\vdots\\-\frac{\pi_j}{n_j} \cdot \frac{1}{1-S \left(t\right)}\\\end{matrix}\right]\\ &= \left\{\frac{1}{1-S \left(t\right)}\right\}^2 \left\{\frac{\pi_1}{n_1 \left(1-\pi_1\right)}+ \cdots +\frac{\pi_j}{n_j \left(1-\pi_j\right)}\right\}\\ &= \left\{\frac{1}{1-S \left(t\right)}\right\}^2 \left\{\sum_{l=1}^{j}\frac{\pi_l}{n_l \left(1-\pi_l\right)}\right\} \end{align} この一致推定量は、$S \left(t\right)=\hat{S} \left(t\right),{\hat{\pi}}_j=p_j$ を代入して、 \begin{align} \hat{V} \left[\log{\frac{\hat{S} \left(t\right)}{1-\hat{S} \left(t\right)}}\right]= \left\{\frac{1}{1-\hat{S} \left(t\right)}\right\}^2 \left\{\sum_{l=1}^{j}\frac{d_l}{n_l \left(n_l-d_l\right)}\right\} \end{align} $\blacksquare$

ネルソン・アーレン推定量

イベント時点が連続した時間において観測される場合、ハザード関数の推定を行うためのアプローチのひとつに区分指数モデル piecewise exponential model がある。

区分指数モデルでは、ハザード関数が連続したイベント時点と時点の間で、区分的に定数であることを仮定する、すなわち、$j$ 番目の区間 \begin{gather} t\in \left(t_{j-1}\right., \left.t_j\right] \end{gather} において \begin{gather} \lambda \left(t\right)=\lambda_j \end{gather} とする。

時間のわずかな区間におけるイベントの確率は、十分小さな $\varepsilon\rightarrow0$ に対して \begin{align} e^{-\varepsilon}\cong1-\varepsilon \end{align} であるため、 \begin{align} \pi_j&=S \left(t_{j-1}\right)-S \left(t_j\right)\\ &=\mathrm{exp} \left(-\lambda_j \cdot t_{j-1}\right)-\mathrm{exp} \left(-\lambda_j \cdot t_j\right)\\ &\cong\lambda_j \left(t_j-t_{j-1}\right) \end{align} これを用いた $j$ 番目のイベント時点よりも前の区間のハザード関数の推定量、 \begin{align} {\hat{\lambda}}_j={\hat{\lambda}}_{\mathrm{NA},j}=\frac{p_j}{t_j-t_{j-1}} \end{align} をネルソン・アーレン推定量 Nelson-Aalen estimator という。このとき、その時点 $t_j$ までの累積ハザードの推定量は、 \begin{align} {\hat{\Lambda}}_{\mathrm{NA}} \left(t_j\right)=\sum_{l=1}^{j}{{\hat{\lambda}}_{\mathrm{NA},l} \cdot } \left(t_l-t_{l-1}\right)=\sum_{l=1}^{j}p_l \end{align} 生存関数のネルソン・アーレン推定量は、 \begin{align} {\hat{S}}_{\mathrm{NA}} \left(t_j\right)=\mathrm{exp} \left[-{\hat{\Lambda}}_{\mathrm{NA}} \left(t_j\right)\right] \end{align} で定義される。

カプラン・マイヤー推定量とネルソン・アーレン推定量の関係

【命題】
カプラン・マイヤー推定量とネルソン・アーレン推定量の関係
Relationship between Kaplan-Meier and Nelson-Aalen Estimator

イベント数が十分に大きく（$J\rightarrow\infty$）、各イベント時点 $t_j$ におけるイベント確率が非常に小さい（$p_j\rightarrow0$）とき、カプラン・マイヤー法による時点 $t_j$ におけるハザード関数と生存関数は、ネルソン・アーレン推定値と近似的に等しい。すなわち、 \begin{align} J\rightarrow\infty \quad p_j\rightarrow0 \end{align} のとき、 \begin{gather} {\hat{\lambda}}_{\mathrm{NA},j}\cong{\hat{\lambda}}_{\mathrm{NA},j}\\ {\hat{S}}_{\mathrm{KM},j}\cong{\hat{S}}_{\mathrm{NA},j} \end{gather} また、ネルソン・アーレン推定値は、常にカプラン・マイヤー推定値以上の値を取る。 \begin{align} {\hat{S}}_{\mathrm{KM}} \left(t_j\right) \le {\hat{S}}_{\mathrm{NA}} \left(t_j\right) \end{align}

証明

$\log{ \left(1-\epsilon\right)}\cong-\epsilon$ より、 \begin{align} {\hat{\lambda}}_{\mathrm{KM},j}\cong\frac{- \left(-p_j\right)}{t_j-t_{j-1}}=\frac{p_j}{t_j-t_{j-1}} \end{align} \begin{align} {\hat{S}}_{\mathrm{NA}} \left(t_j\right)&=\mathrm{exp} \left[-\sum_{l=1}^{j}p_l\right]\\ &=\prod_{l=1}^{j}e^{-p_l}\\ &=e^{-p_1} \cdot e^{-p_2} \cdot \cdots \cdot e^{-p_j} \end{align} ここで、$e^{-\varepsilon}\cong1-\varepsilon$ より、$\varepsilon=p_j$ として、 \begin{align} e^{-p_j}\cong1-p_j=\frac{n_j-d_j}{n_j} \end{align} したがって、 \begin{align} {\hat{S}}_{\mathrm{NA}} \left(t_j\right)=\prod_{l=1}^{j}e^{-p_l}\cong\prod_{l=1}^{j} \left(\frac{n_j-d_j}{n_j}\right)={\hat{S}}_{\mathrm{KM}} \left(t_j\right) \end{align} また、$0 \lt x \lt 1$ を満たす任意の $x$ に対して、$1-x \le e^{-x}$ が成り立つので、 \begin{align} {\hat{S}}_{\mathrm{KM}} \left(t_j\right) \le {\hat{S}}_{\mathrm{NA}} \left(t_j\right) \end{align} すなわち、ネルソン・アーレン推定値は、常にカプラン・マイヤー推定値以上の値を取る。 $\blacksquare$

参考文献

ジョン・ラチン著, 宮岡悦良監訳, 遠藤輝, 黒沢健, 下川朝有, 寒水孝司訳. 医薬データのための統計解析. 共立出版, 2020, p.464-469
Kaplan, E.L. & Meier, P.. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 1958, 53(282), p.457-481, doi: 10.1080/01621459.1958.10501452
Greenwood, M.. The errors of sampling of the survivorship tables. Reports on Public Health and Medical Subjects. 1926, 33(Appendix 1), p.1-26.
Aalen, O.. Nonparametric Inference for a Family of Counting Processes. The Annals of Statistics. 1978, 6(4), p.701-726, doi: 10.1214/aos/1176344247
Nelson, W.. Hazard Plotting for Incomplete Failure Data. Journal of Quality Technology. 1969, 1(1), p.27-52, doi: 10.1080/00224065.1969.11980344
Nelson, W.. Theory and Applications of Hazard Plotting for Censored Failure Data. Technometrics. 1972, 14(4), p.945-966, doi: 10.1080/00401706.1972.10488991

カプラン・マイヤー法

カプラン・マイヤー推定量

証明

標本イベント確率の漸近分布

証明

対数生存関数の最尤推定量の分散

証明

グリーンウッドの公式

証明

補対数対数にもとづく生存関数の信頼区間

証明

対数生存オッズ比の最尤推定量の分散

証明

ネルソン・アーレン推定量

カプラン・マイヤー推定量とネルソン・アーレン推定量の関係

証明

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログアーカイブ

ラベル

不正行為を報告

よく読まれている記事

カプラン・マイヤー法

カプラン・マイヤー推定量

証明

標本イベント確率の漸近分布

証明

対数生存関数の最尤推定量の分散

証明

グリーンウッドの公式

証明

補対数対数にもとづく生存関数の信頼区間

証明

対数生存オッズ比の最尤推定量の分散

証明

ネルソン・アーレン推定量

カプラン・マイヤー推定量とネルソン・アーレン推定量の関係

証明

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログ アーカイブ

ラベル

不正行為を報告

よく読まれている記事

ブログアーカイブ