コホート研究【生存時間】

公開日: 更新日:

【2022年10月1週】 【A000】生物統計学 【A050】研究デザイン 【A051】コホート研究

この記事をシェアする
  • B!
サムネイル画像

本稿では、生存時間に関するコホート研究や介入研究について、データ形式や生存関数、ハザード関数、尤度関数の定義についてのまとめや指標同士の関係、リスク集合・イベント数・打ち切り数の関係に関する証明を行っています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。

生存時間データの基本指標

死亡密度関数

全体のうち、ある時点 $t$ でイベントを発生する個体の割合 \begin{gather} f \left(t\right)=P \left(T=t\right)\in \left[0,1\right] \end{gather} 具体的には、ある時点 $t_i$ に対して、 \begin{gather} f \left(t_i\right)=\frac{d_i}{N} \end{gather}

累積発生率

全体のうち、ある時点 $t$ までにイベントを発生している個体の割合 \begin{gather} F \left(t\right)=P \left(T \le t\right)\in \left[0,1\right]\\ F \left(0\right)=0 \quad \lim_{t\rightarrow\infty}{F \left(t\right)}=1 \end{gather} 具体的には、ある時点 $t_i$ に対して、 \begin{gather} F \left(t_i\right)=\sum_{j=1}^{i}\frac{d_j}{N} \end{gather}

生存関数

全体のうち、ある時点 $t$ までにイベントが発生していない個体の割合 \begin{gather} S \left(t\right)=P \left(t \le T\right)=1-F \left(t\right)\in \left[0,1\right]\\ S \left(0\right)=1 \quad \lim_{t\rightarrow\infty}{S \left(t\right)}=0 \end{gather} 具体的には、ある時点 $t_i$ に対して、 \begin{gather} S \left(t_i\right)=1-\sum_{j=1}^{i}\frac{d_j}{N} \end{gather}

死亡密度関数と累積発生率の関係

\begin{gather} f \left(t\right)=\lim_{\Delta t\rightarrow0}{\frac{F \left(t+\Delta t\right)-F \left(t\right)}{\Delta t}} \end{gather}

ハザード関数

ある時点 $t$ まで生存していた個体に対する、極めて短い単位時間 $\Delta t$ あたりの平均死亡確率 \begin{gather} h \left(t\right) \quad \mathrm{or} \quad \lambda \left(t\right) \end{gather} \begin{align} h \left(t\right)=\lim_{\Delta t\rightarrow0}{\frac{P \left(\ t \le T \lt t+\Delta t\ \middle|\ t \le T\ \right)}{\Delta t}}\\ \end{align}

累積ハザード関数

ハザード関数の区間 $ \left[0,t\right]$ における積分値・累積値 \begin{gather} H \left(t\right) \quad \mathrm{or} \quad \Lambda \left(t\right) \end{gather} \begin{gather} H \left(t\right)=\int_{0}^{t}h \left(u\right)du \end{gather}

尤度関数

\begin{gather} L=\prod_{i=1}^{N}{ \left\{f \left(t_i\right)\right\}^{\delta_i} \left\{S \left(t_i\right)\right\}^{1-\delta_i}} \end{gather} また、生存関数、ハザード関数、死亡密度関数の関係式 $f \left(t\right)=h \left(t\right) \cdot S \left(t\right)$ を用いると、 \begin{align} L&=\prod_{i=1}^{N}{ \left\{h \left(t_i\right) \cdot S \left(t_i\right)\right\}^{\delta_i} \left\{S \left(t_i\right)\right\}^{1-\delta_i}}\\ &=\prod_{i=1}^{N}{ \left\{h \left(t_i\right)\right\}^{\delta_i} \cdot S \left(t_i\right)} \end{align}

指標同士の関係

生存関数、ハザード関数、死亡密度関数の関係

\begin{align} h \left(t\right)&=\lim_{\Delta t\rightarrow0}{\frac{P \left(\ t \le T \lt t+\Delta t\ \middle|\ t \le T\ \right)}{\Delta t}}\\ &=\lim_{\Delta t\rightarrow0}{\frac{1}{\Delta t} \cdot \frac{S \left(t\right)-S \left(t+\Delta t\right)}{S \left(t\right)}}\\ &=\frac{1}{S \left(t\right)} \cdot \lim_{\Delta t\rightarrow0}{\frac{ \left\{1-F \left(t\right)\right\}- \left\{1-F \left(t+\Delta t\right)\right\}}{\Delta t}}\\ &=\frac{1}{S \left(t\right)} \cdot \lim_{\Delta t\rightarrow0}{\frac{F \left(t+\Delta t\right)-F \left(t\right)}{\Delta t}}\\ &=\frac{f \left(t\right)}{S \left(t\right)} \end{align} したがって、 \begin{gather} f \left(t\right)=S \left(t\right) \cdot h \left(t\right)\\ P \left(T=t\right)=P \left(t \le T\right) \cdot P \left(T=t\middle| t \le T\right) \end{gather}

生存関数、ハザード関数、累積ハザード関数の関係

\begin{align} h \left(t\right)&=\lim_{\Delta t\rightarrow0}{\frac{P \left(\ t \le T \lt t+\Delta t\ \middle|\ t \le T\ \right)}{\Delta t}}\\ &=\lim_{\Delta t\rightarrow0}{\frac{1}{\Delta t}} \cdot \frac{S \left(t\right)-S \left(t+\Delta t\right)}{S \left(t\right)}\\ &=\lim_{\Delta t\rightarrow0}{\frac{S \left(t\right)-S \left(t+\Delta t\right)}{\Delta t}} \cdot \frac{1}{S \left(t\right)}\\ &=\frac{1}{S \left(t\right)} \cdot \lim_{\Delta t\rightarrow0}{\frac{S \left(t\right)-S \left(t+\Delta t\right)}{\Delta t}}\\ &=\frac{1}{S \left(t\right)} \cdot \left\{-\lim_{\Delta t\rightarrow0}{\frac{S \left(t+\Delta t\right)-S \left(t\right)}{\Delta t}}\right\}\\ &=-\frac{dS \left(t\right)}{dt} \cdot \frac{1}{S \left(t\right)}\\ &=-\frac{d}{dt}\log{S \left(t\right)} \end{align}

\begin{align} H \left(t\right)&=\int_{0}^{t}{-\frac{d}{du}\log{S \left(u\right)}du}\\ &= \left[-\log{S \left(u\right)}\right]_0^t\\ &=-\log{S \left(t\right)}+\log{S \left(0\right)}\\ &=-\log{S \left(t\right)}+\log{1}\\ &=-\log{S \left(t\right)} \end{align} したがって、 \begin{gather} \log{S \left(t\right)}=-H \left(t\right)\\ S \left(t\right)=\mathrm{exp} \left\{-H \left(t\right)\right\} \end{gather}

比例ハザード性と生存関数の関係

比例ハザードの仮定 \begin{gather} \frac{h_1 \left(t\right)}{h_0 \left(t\right)}=\lambda\Leftrightarrow h_1 \left(t\right)=\lambda \cdot h_0 \left(t\right) \end{gather} 累積ハザード関数 \begin{gather} H_0 \left(t\right)=\int_{0}^{t}{h_0 \left(u\right)du} \end{gather} \begin{align} H_1 \left(t\right)&=\int_{0}^{t}{h_1 \left(u\right)du}\\ &=\int_{0}^{t}{\lambda \cdot h_0 \left(t\right)du}\\ &=\lambda \cdot H_0 \left(t\right) \end{align} 生存関数 \begin{align} S_0 \left(t\right)=\mathrm{exp} \left\{-H_0 \left(t\right)\right\} \end{align} \begin{align} S_1 \left(t\right)&=\mathrm{exp} \left\{-H_1 \left(t\right)\right\}\\ &=\mathrm{exp} \left\{-\lambda \cdot H_0 \left(t\right)\right\}\\ &= \left[\mathrm{exp} \left\{-H_0 \left(t\right)\right\}\right]^\lambda\\ &= \left[S_0 \left(t\right)\right]^\lambda \end{align}

データの形式

イベント発生状況と観察期間

まず、生存時間を指標とするコホート研究について、
$N$ 人のうち、$i$ 番目($i=1,2, \cdots ,N$)の被験者のイベント発生状況を \begin{gather} \delta_i= \left\{\begin{matrix}1&\mathrm{Event\ Observed}\\0&\mathrm{Censored}\\\end{matrix}\right. \end{gather} 観察時間を \begin{gather} t_i\in \left(0\right., \left.S\right] \end{gather} とし、 観測できた生存時間 $t_i$ とイベント発生の有無を示す指示関数 $\delta_i$ を1組としてデータ \begin{gather} \left(t_i,\delta_i\right) \end{gather} を形成する。

研究期間と登録期間

研究期間(研究の開始日から予め定めた終了日までの期間)を \begin{gather} S \end{gather} 登録期間(研究の開始日から新規登録の受付を終了する日までの期間)を \begin{gather} R \end{gather} とする。 すなわち、登録期間中は開放コホートだが、登録期間を経過した後は閉鎖コホートとなる。このとき、観察期間満了にともなう打ち切りが発生した被験者の観察時間は、
①研究開始日に登録され、研究終了日まで生存した場合に最長の、 \begin{gather} t_i=S \end{gather} ②登録期間終了日に登録され、研究終了日まで生存した場合、最短の \begin{gather} t_i=S-R \end{gather} となる。

リスク集合・イベント発生数・打ち切り数

次に、研究期間終了までに \begin{gather} J \left( \le N\right) \end{gather} 個のイベントが発生し、 \begin{gather} N-J \end{gather} 個の観察が打ち切られたとする。 この $J$ 個のイベント発生時点を抜き出し、値が小さいものから順に、新たに番号 $t_j$ を振り、 \begin{gather} 0=t_0 \lt t_1 \le t_2 \le \cdots t_J \end{gather} とし、 時点 $t_j$ におけるリスク集合の大きさ(まだイベントや打ち切りが発生していない被験者の数)を \begin{align} n_j \left(n_J \lt \cdots \lt n_2 \lt n_1=n_0=N\right) \end{align} 時点 $t_j$ でのイベント発生数を \begin{gather} d_j \left( \gt 0\right) \end{gather} 時点 $t_j$ と時点 $t_{j+1}$ の間に発生した打ち切り数を \begin{gather} w_j \left( \geq 0\right) \end{gather} とすると、 \begin{align} n_{j+1}=n_j-d_j-w_j \end{align} すなわち、イベント時点 $t_{ \left(j\right)}$ において右側打ち切りされた観測値はその時点におけるリスクに含まれると考えられ、その直後にリスク集合から取り除かれることになる。ただし、最後($J$ 番目)のイベント時点で観察終了とし、その時点ですべてを打ち切りとして扱う、すなわち、 \begin{align} n_{J+1}=0 \end{align} とする。

タイデータ

タイデータはないものとする場合(例えば、厳密な連続型生存時間とする場合)、 \begin{gather} d_j=1 \end{gather} タイデータがあってもよい場合(例えば、日・月単位などある程度の幅がある離散型生存時間とする場合)、 \begin{gather} d_j \geq 1 \end{gather}

総観測イベント数と総観察時間

打ち切りを受けた被験者の観察時間を昇順に並べ替え、仮に \begin{gather} t_{J+1}^+ \le t_{J+2}^+ \le \cdots \le t_N^+ \end{gather} と番号をつけるとし、 総観測イベント数を \begin{gather} D=\sum_{j=1}^{J}d_j=\sum_{i=1}^{N}\delta_i \end{gather} 総観察時間を \begin{gather} \tau=\sum_{i=1}^{N}t_i=\sum_{j=1}^{J}t_j+\sum_{j=J+1}^{N}t_j^+ \end{gather} とする。

生存関数・ハザード関数・イベント密度関数

$j$ 番目の離散イベント時間 $t_j$ における生存関数を \begin{gather} S \left(t_j\right) \end{gather} ハザード関数・累積ハザード関数を \begin{gather} h \left(t_j\right) \quad \mathrm{or} \quad \lambda \left(t_j\right)\\ H \left(t_j\right) \quad \mathrm{or} \quad \Lambda \left(t_j\right) \end{gather} イベント発生時間の分布関数と確率関数を \begin{gather} f \left(t_j\right)\\ F \left(t_j\right)=\sum_{l=1}^{j}f \left(t_j\right) \end{gather} とする。

継続確率

時点 $t_j$ まで生存したという条件の下で、その次の瞬間にイベントが発生する確率を \begin{align} \pi_j=\lim_{\Delta t\rightarrow0}{P \left(t_j \lt T \le t_j+\Delta t\middle| t_j \lt T\right)} \end{align} とすると、 その補数 \begin{align} 1-\pi_j=P \left(t_j \lt T\middle| t_j \le T\right) \end{align} 継続確率 continuatioin probability と呼ぶ。

リスク集合・イベント数・打ち切り数の関係

【命題】
リスク集合・イベント数・打ち切り数の関係
Relationship among Risk Set, Number of Events, and Number of Censor

リスク集合・イベント数・打ち切り数について、 \begin{gather} n_{j+1}=n_j-d_j-w_j=n_k-\sum_{l=k}^{j} \left(d_l+w_l\right) \end{gather} \begin{align} n_k&=\sum_{l=k}^{J} \left(d_l+w_l\right)\\ n_k-d_k&=\sum_{l=k}^{J} \left(d_l+w_l\right)-d_k\\ &=\sum_{l=k}^{J} \left(d_{l+1}+w_l\right) \end{align} が成り立つ。

証明

証明

リスク集合とイベント数、打ち切り数についての定義式より、 \begin{gather} n_{j+1}=n_j-d_j-w_j\tag{P1}\\ n_j-n_{j+1}=d_j+w_j \end{gather} 具体的な数字を当てはめていくと、一般に $l=k,k+1, \cdots ,j$ までについて、 \begin{gather} n_j-n_{j+1}=d_j+w_j\\ n_{j-1}-n_j=d_{j-1}+w_{j-1}\\ \vdots\\ n_{k+1}-n_{k+2}=d_{k+1}+w_{k+1}\\ n_k-n_{k+1}=d_k+w_k \end{gather} この辺々の和を取ると、 \begin{gather} n_k-n_{j+1}=\sum_{l=k}^{j} \left(d_l+w_l\right)\tag{P2}\\ n_{j+1}=n_k-\sum_{l=k}^{j} \left(d_l+w_l\right)\tag{P3} \end{gather} 式 $ \left(\mathrm{P}1\right),(\mathrm{P}3)$ より、 \begin{gather} n_j-d_j-w_j=n_k-\sum_{l=k}^{j} \left(d_l+w_l\right)\tag{P4} \end{gather} $j=J$ のとき、式 $ \left(\mathrm{P}2\right)$ より、 \begin{gather} n_k-n_{J+1}=\sum_{l=k}^{J} \left(d_l+w_l\right) \end{gather} $n_{J+1}=0$ より、 \begin{gather} n_k=\sum_{l=k}^{J} \left(d_l+w_l\right)\tag{P5} \end{gather} 両辺から $d_k$ を引くと、 \begin{align} n_k-d_k&=\sum_{l=k}^{J} \left(d_l+w_l\right)-d_k\\ &=\sum_{l=k}^{J} \left(d_{l+1}+w_l\right)\tag{P6} \end{align} $\blacksquare$

参考文献

  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.461-466, p.520-523

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ