指数分布モデルと二重同次ポアソンモデルの関係

公開日: 更新日:

【2022年12月1週】 【A000】生物統計学 【A051】コホート研究 【A093】ポアソン回帰分析 【A100】生存時間分析 【A101】生存関数の推定

この記事をシェアする
  • B!
サムネイル画像

本稿では、指数分布モデルと二重同次ポアソンモデルの関係について解説しています。これら2つのモデルが数学的には同値であることを用いると、研究期間中、任意の被験者にイベントが発生する確率を導出することができます。このイベント発生確率は、生存時間分析のサンプルサイズ設計に応用されるため、非常に重要です。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
  • 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。
  • デルタ法を用いる際、剰余項(2次の項)が漸近的に無視できる($0$に確率収束する)と仮定しています。

指数分布モデルと二重同次ポアソンモデルの関係

生存時間分布の指数分布モデルは、観測期間中のハザード関数に定数ハザード \begin{gather} \lambda \left(t\right)=\lambda \end{gather} を想定するモデルである。 これをある観察期間中のイベントの発生数から考えると、ポアソン過程の強度に固定強度 \begin{gather} \alpha \left(t\right)=\lambda \end{gather} を想定するモデルとみなすことができる。 すなわち、生存時間分布の指数分布モデルは、二重同次ポアソンモデルと実質的に等しく、「イベント発生までの時間」に着目するか、「イベントの発生回数」に着目するかの違いであることが分かる。

イベント発生回数の期待値

生存時間分析において再発を考えない場合、番号 $i$ の被験者のイベント発生回数は、 \begin{gather} \delta_i=0,1 \end{gather} である。 このとき、二重同次ポアソンモデルの下で、観測時間 $t_i$ 内に発生するイベントの回数の期待値は、 \begin{gather} E \left(\delta_i\middle|\lambda\right)=\lambda t_i=1 \cdot P \left(\delta_i=1\middle|\lambda\right)+0 \cdot P \left(\delta_i=0\middle|\lambda\right) \end{gather} すなわち、番号 $i$ の被験者に対し、観測時間 $t_i$ 内にイベントが発生する確率と等しい。そして、郡内のすべての被験者でイベント発生確率が同じであり、研究期間を通してその確率が一定である。

各群の総イベント発生回数の期待値

各群で研究期間中に観測される総イベント数を \begin{gather} d_j=\sum_{i=1}^{n}\delta_i \quad j=0,1 \end{gather} とすると、 二重同次ポアソンモデルの下での、各群の総イベント発生回数の期待値は、まず $E \left(\delta_i\middle|\lambda\right)$ が定数であることから、 \begin{align} E \left(d_j\middle|\lambda\right)&=\sum_{i=1}^{n}{E \left(\delta_i\middle|\lambda\right)}\\ &=nE \left(\delta_i\middle|\lambda\right) \end{align} また、各人のリスク曝露時間(観察人・時)を考慮すると、 \begin{align} E \left(d_j\middle|\lambda\right)&=\sum_{i=1}^{n}{E \left(\delta_i\middle|\lambda\right)}\\ &=\sum_{i=1}^{n}{\lambda t_i}\\ &=\lambda\sum_{i=1}^{n}t_i \end{align} と表すことができる。

観察期間中におけるイベントの発生確率

まず、関心のあるイベントの生存時間について、指数分布モデルを想定し、定数ハザードを \begin{gather} \lambda \left(t\right)=\lambda \end{gather} とする。

生存時間データに関する研究を行う際には、一般的に、研究開始時点ですべての被験者の観察が開始できるわけではなく、研究開始時点から開放コホートを形成し、被験者が随時、登録され観察を始める。そして、ある登録期間を過ぎると、その後は閉鎖コホートとして研究終了時点まで観察を続ける。

このとき、被験者の登録時点 $R_i$ が一様分布 \begin{align} R_i \sim \mathrm{U} \left[0,R\right] \end{align} に従い、 すべての被験者について、 \begin{align} R \lt S \end{align} が成り立ち、 登録時期とその後のイベントの発生は独立である仮定とする。

また、ほとんどの場合において、観察の打ち切りが発生する。ここでは、次の2つの打ち切りパターンを想定する。

〔1〕管理打ち切りを考慮する場合
研究の終了時点においてイベントがまだ発生していない被験者の観測を「管理上の打ち切り」として扱い、研究期間中、転居や競合リスクによる死亡などのランダムな打ち切りは起こらないとする。

〔2〕管理打ち切り・ランダム打ち切りを考慮する場合
上記の「管理上の打ち切り」に加え、ランダムな打ち切りについても、定数ハザード \begin{align} \eta \left(t\right)=\eta \quad 0 \lt \eta \end{align} をもつ、 単純な指数分布モデル \begin{align} \Sigma \left(t\right)=e^{-\eta t} \end{align} を仮定し、 登録時期とその後のイベント、または打ち切りの発生は独立であるとする。

【定理】
観察期間中におけるイベントの発生確率
Probability of Occurrence of Risk Events during Observation

〔1〕管理打ち切りを考慮する場合
研究期間中、各被験者にイベントが観測される確率は、 \begin{align} E \left(\delta\middle|\lambda\right)=1-\frac{e^{-\lambda \left(S-R\right)}-e^{-\lambda S}}{\lambda R} \end{align} で与えられる。

〔2〕管理打ち切り・ランダム打ち切りを考慮する場合
研究期間中にイベントが観察される確率は、 \begin{gather} E \left(\delta\middle|\lambda,\eta\right)=\frac{\lambda}{\lambda+\eta} \left[1-\frac{e^{- \left(\lambda+\eta\right) \left(S-R\right)}-e^{- \left(\lambda+\eta\right)S}}{ \left(\lambda+\eta\right)R}\right] \end{gather} 研究期間中に打ち切りが発生する確率は、 \begin{gather} E \left(\gamma\middle|\lambda,\eta\right)=\frac{\eta}{\lambda+\eta} \left[1-\frac{e^{- \left(\lambda+\eta\right) \left(S-R\right)}-e^{- \left(\lambda+\eta\right)S}}{ \left(\lambda+\eta\right)R}\right] \end{gather} で与えられる。

証明①:管理打ち切りを考慮する場合

証明

各被験者の観察期間を $U_i=S-r_j$ とすると、 \begin{align} U_i \sim \mathrm{U} \left[S-R,S\right] \end{align} ここで、$i$ 番目の被験者でイベントが観察されない確率は、登録時点の決定とイベントの発生が独立であることから、 登録時間が $r_i$ となる確率
×
観察期間 $U_i=S-r_i$ 中にイベントが観察されない確率
\begin{align} P \left(R_i=r_i,\delta_i=0\right)&=P \left(R_i=r_i\right) \cdot S \left(u\right)\\ &=\frac{1}{R} \cdot e^{-\lambda u} \end{align} したがって、$P \left(\delta=0\right)$ は周辺確率の定義 $f \left(x\right)=P \left(X=x\right)=\int_{y=-\infty}^{\infty}f \left(x,y\right)dy$ より、 \begin{align} P \left(\delta=0\right)&=\int_{S-R}^{S}{\frac{1}{R} \cdot e^{-\lambda u}du}\\ &=\frac{1}{R} \left[-\frac{1}{\lambda}e^{-\lambda u}\right]_{S-R}^S\\ &=\frac{e^{-\lambda \left(S-R\right)}-e^{-\lambda S}}{\lambda R}\\ P \left(\delta=1\right)&=1-P \left(\delta=0\right)\\ &=1-\frac{e^{-\lambda \left(S-R\right)}-e^{-\lambda S}}{\lambda R} \end{align} 離散型確率変数の期待値の定義式 $E \left(X\right)=\sum_{x=-\infty}^{\infty}{x \cdot f \left(x\right)}$ より、 \begin{align} E \left(\delta\middle|\lambda\right)&=0 \cdot P \left(\delta=0\right)+1 \cdot P \left(\delta=1\right)\\ &=1-\frac{e^{-\lambda \left(S-R\right)}-e^{-\lambda S}}{\lambda R} \end{align} $\blacksquare$

証明②:管理打ち切り・ランダム打ち切りを考慮する場合

証明

同様に、打ち切りもイベントも発生しない確率は、登録時点の決定とイベントの発生、打ち切りの発生が独立であることから、 \begin{align} P \left(R_i=r_i,\delta_i=0,\gamma_i=0\right)&=P \left(R_i=r_i\right) \cdot S \left(u\right) \cdot \Sigma \left(u\right)\\ &=\frac{1}{R} \cdot e^{-\lambda u} \cdot e^{-\eta u}\\ &=\frac{1}{R} \cdot e^{- \left(\lambda+\eta\right)u} \end{align} $P \left(\delta_i=0,\gamma_i=0\right)$ は周辺確率の定義 $f \left(x\right)=P \left(X=x\right)=\int_{y=-\infty}^{\infty}f \left(x,y\right)dy$ より、 \begin{align} P \left(\delta=0,\gamma=0\right)&=\int_{S-R}^{S}{\frac{1}{R} \cdot e^{- \left(\lambda+\eta\right)u}du}\\ &=\frac{1}{R} \left[-\frac{1}{\lambda+\eta}e^{- \left(\lambda+\eta\right)u}\right]_{S-R}^S\\ &=\frac{e^{- \left(\lambda+\eta\right) \left(S-R\right)}-e^{- \left(\lambda+\eta\right)S}}{ \left(\lambda+\eta\right)T_R} \end{align} したがって、観察期間中、打ち切りかイベントのいずれかが発生する(予定されている研究終了時点よりも前に観察が終わる)確率は、 \begin{align} P \left(\delta=1,\gamma=0\right)+P \left(\delta=0,\gamma=1\right)&=1-P \left(\delta=0,\gamma=0\right)\\ &=1-\frac{e^{- \left(\lambda+\eta\right) \left(S-R\right)}-e^{- \left(\lambda+\eta\right)S}}{ \left(\lambda+\eta\right)R} \end{align} このうち、打ち切りが起こる確率とイベントが観察される確率は、全体のハザード(観察を終わせる要因)のうち、それぞれが占める割合となるので、 \begin{gather} P \left(\delta=1\right)=E \left(\delta\middle|\lambda,\eta\right)=\frac{\lambda}{\lambda+\eta} \left[1-\frac{e^{- \left(\lambda+\eta\right) \left(S-R\right)}-e^{- \left(\lambda+\eta\right)S}}{ \left(\lambda+\eta\right)R}\right]\\ P \left(\gamma=1\right)=E \left(\gamma\middle|\lambda,\eta\right)=\frac{\eta}{\lambda+\eta} \left[1-\frac{e^{- \left(\lambda+\eta\right) \left(S-R\right)}-e^{- \left(\lambda+\eta\right)S}}{ \left(\lambda+\eta\right)R}\right] \end{gather} $\blacksquare$

参考文献

  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.412-414
  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.520-523

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ