条件付きロジスティック・モデル

公開日: 更新日:

【2022年11月2週】 【A000】生物統計学 【A051】コホート研究 【A090】多変量回帰モデル 【A092】ロジスティック回帰分析

この記事をシェアする
  • B!
サムネイル画像

本稿では、ペア・マッチングをするコホート研究における条件付きロジスティック・モデルについて解説しています。条件付き尤度についての考え方、パラメータの最尤推定量、最尤推定量の漸近分散、条件付き有効スコア検定の導出、有効スコア検定がマクネマー検定と等しいことの証明などが含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
  • 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。

条件なしロジスティック・モデル

マッチングありのコホート研究において、$i$ 番目のペアの $j$ 番目のメンバーの対数発症オッズについて、 \begin{gather} \log{ \left(\frac{\pi_{ij}}{1-\pi_{ij}}\right)}=\alpha_i+\beta x_{ij}\Leftrightarrow\frac{\pi_{ij}}{1-\pi_{ij}}=e^{\alpha_i+\beta x_{ij}}\\ i=1,2, \cdots ,N \quad j=1,2 \end{gather} が成り立つとする。 このとき、曝露群・非曝露群の発症確率は、ロジスティック関数として、 \begin{gather} \pi_{i1}=\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}} \quad 1-\pi_{i1}=\frac{1}{1+e^{\alpha_i+\beta}}\\ \pi_{i2}=\frac{e^{\alpha_i}}{1+e^{\alpha_i}} \quad 1-\pi_{i2}=\frac{1}{1+e^{\alpha_i}} \end{gather} で与えられる。 また、各ペアの発症オッズ比 $\varphi=\mathrm{OR}$ は、 \begin{align} \log{\varphi}=\beta\Leftrightarrow\varphi=e^\beta \end{align} で与えられる。

各ペアにおいて、各メンバーの発症状況が条件付き独立なとき、尤度は、積二項尤度として、定数項を無視すると、 \begin{align} L \left(\alpha_i,\beta\right)&=\pi_{i1}^{y_{i1}} \left(1-\pi_{i1}\right)^{1-y_{i1}} \cdot \pi_{i2}^{y_{i2}} \left(1-\pi_{i2}\right)^{1-y_{i2}}\\ &= \left(\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}}\right)^{y_{i1}} \left(\frac{1}{1+e^{\alpha_i+\beta}}\right)^{1-y_{i1}} \cdot \left(\frac{e^{\alpha_i}}{1+e^{\alpha_i}}\right)^{y_{i2}} \left(\frac{1}{1+e^{\alpha_i}}\right)^{1-y_{i2}} \end{align} 対数尤度関数は、 \begin{align} l \left(\alpha_i,\beta\right)&=y_{i1} \left\{ \left(\alpha_i+\beta\right)-\log{ \left(1+e^{\alpha_i+\beta}\right)}\right\}- \left(1-y_{i1}\right)\log{ \left(1+e^{\alpha_i+\beta}\right)}+y_{i2} \left\{\alpha_i-\log{ \left(1+e^{\alpha_i+\beta}\right)}\right\}- \left(1-y_{i2}\right)\log{ \left(1+e^{\alpha_i}\right)}\\ &=y_{i1} \left(\alpha_i+\beta\right)-\log{ \left(1+e^{\alpha_i+\beta}\right)}+\alpha_iy_{i2}-\log{ \left(1+e^{\alpha_i}\right)}\\ &= \left(y_{i1}+y_{i2}\right)\alpha_i+y_{i1}\beta-\log{ \left(1+e^{\alpha_i+\beta}\right)}-\log{ \left(1+e^{\alpha_i}\right)} \end{align} 各ペアが独立なとき、マッチングを行ったすべてのペアに対する全尤度は、 \begin{gather} L \left(\boldsymbol{\theta}\right)=\prod_{i=1}^{N}L \left(\alpha_i,\beta\right) \quad \boldsymbol{\theta}= \left\{\begin{matrix}\alpha_1\\\vdots\\\alpha_N\\\beta\\\end{matrix}\right\} \end{gather} 対数尤度は、 \begin{align} l \left(\boldsymbol{\theta}\right)&=\sum_{i=1}^{N}l \left(\alpha_i,\beta\right)\\ &=\sum_{i=1}^{N}{ \left(y_{i1}+y_{i2}\right)\alpha_i}+\sum_{i=1}^{N}{y_{i1}\beta}-\sum_{i=1}^{N}\log{ \left(1+e^{\alpha_i+\beta}\right)}-\sum_{i=1}^{N}\log{ \left(1+e^{\alpha_i}\right)} \end{align}

これを $\alpha_i$ で偏微分すると、 \begin{align} U_{\alpha_i} \left(\boldsymbol{\theta}\right)&= \left(y_{i1}+y_{i2}\right)-\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}}-\frac{e^{\alpha_i}}{1+e^{\alpha_i}} \end{align} 同様に、$\beta$ で偏微分すると、 \begin{align} U_\beta \left(\boldsymbol{\theta}\right)=\sum_{i=1}^{N}y_{i1}-\sum_{i=1}^{N}\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}} \end{align}

したがって、対数オッズ比 $\beta$ を推定するためには、$N$ 個の局外パラメータ $ \left\{\alpha_i\right\}$ も同時に推定する必要がある。そのパラメータ数は $N+1$ であるため、推定が不安定になり、サンプルサイズが大きくなるほどそのバイアスが増加する。

条件付きロジスティック・モデル

しかしながら、Cox(1958)$^\mathrm{(1)}$では、フィッシャー$^\mathrm{(2)}$によって最初に用いられた条件付けの原理を用いることで、$N$ 個の局外パラメータ $ \left\{\alpha_i\right\}$ を同時に推定することなく、仮定した共通対数オッズ比 $\beta$ を推定可能であることを示した。

あるバラメータの最尤推定量はそのパラメータに関する漸近的に十分統計量の関数であるため、$i$ 番目のペアにおける正の応答数 \begin{align} S_i=y_{i1}+y_{i2} \quad S_i=0,1,2 \end{align} は、$\alpha_i$ の十分統計量である。

大まかな意味でこれは、補助統計量 $S_i$ はデータ内の局外パラメータ $\alpha_i$ に関するすべての情報を捉えていることを意味しており、ゆえに、データ内の追加のパラメータ $\beta$ に関する推定は、補助パラメータの十分統計量の値を条件として与えたもとでの条件付き尤度に基づくことになる。

条件付き尤度

$S_i$ を条件として与えたもとでの全体としての条件付き尤度は、 \begin{align} L \left(\beta\middle| S\right)=\prod_{i=1}^{N}{L \left(\beta\middle| S_i\right)} \end{align} $i$ 番目のペアに対する条件付き尤度は \begin{align} L \left(\beta\middle| S_i\right)&=P \left(y_{i1},y_{i2}\middle| S_i\right)\\ &=\frac{P \left(y_{i1},y_{i2},S_i\right)}{P \left(S_i\right)}\\ &=\frac{P \left(y_{i1},y_{i2}\right)}{P \left(S_i\right)} \end{align} ここで、応答が一致しているペア(「あり・あり」、「なし・なし」)については、それぞれ S_i=0,2 となり、この値を取るパターンはそれぞれ1通りしかないため、「なし・なし」の $h$ 組、「あり・あり」の $e$ 組のペアについては、 \begin{gather} P \left(y_{i1}=0,y_{i2}=0\middle| S_i=0\right)=1\\ P \left(y_{i1}=1,y_{i2}=1\middle| S_i=2\right)=1 \end{gather} したがって、各応答一致のペア($S_i=0,2$)は、条件付き尤度へ定数で寄与し、$\beta$ に関する情報を何も与えない。

反対に、$S_i=1$ となる $M$ 組の応答不一致のペアが存在しており、そのうちの $f$ 組が得られる確率は、 \begin{align} P \left(y_{i1}=1,y_{i2}=0\middle| S_i=1\right)&=\pi_{i1} \left(1-\pi_{i2}\right)\\ &= \left(\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}}\right) \left(\frac{1}{1+e^{\alpha_i}}\right) \end{align} 同様に、$g$ 組の確率は、 \begin{align} P \left(y_{i1}=0,y_{i2}=1\middle| S_i=1\right)&=\pi_{i2} \left(1-\pi_{i1}\right)\\ &= \left(\frac{e^{\alpha_i}}{1+e^{\alpha_i}}\right) \left(\frac{1}{1+e^{\alpha_i+\beta}}\right) \end{align} 応答不一致のペアのすべての確率 $P \left(S_i=1\right)$ は、これら2つの確率の和を取り、 \begin{align} P \left(S_i=1\right)=\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right) \end{align} したがって、条件付き尤度は \begin{align} L \left(\beta\middle| S\right)&=\prod_{i:S_i=1}{ \left[\frac{P \left(y_{i1}=1,y_{i2}=0\right)}{P \left(S_i=1\right)}\right]^{y_{i1} \left(1-y_{i2}\right)} \left[\frac{P \left(y_{i1}=0,y_{i2}=1\right)}{P \left(S_i=1\right)}\right]^{y_{i2} \left(1-y_{i1}\right)}}\\ &=\prod_{i:S_i=1}{ \left[\frac{\pi_{i1} \left(1-\pi_{i2}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\right]^{y_{i1} \left(1-y_{i2}\right)} \left[\frac{\pi_{i2} \left(1-\pi_{i1}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\right]^{y_{i2} \left(1-y_{i1}\right)}}\\ &=\prod_{i:S_i=1}\frac{ \left\{\pi_{i1} \left(1-\pi_{i2}\right)\right\}^{y_{i1} \left(1-y_{i2}\right)} \cdot \left\{\pi_{i2} \left(1-\pi_{i1}\right)\right\}^{y_{i2} \left(1-y_{i1}\right)}}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\\ \end{align}

ここで、$y_{i1} \left(1-y_{i2}\right)=1$ となる $f$ 組については、 \begin{align} \frac{P \left(y_{i1}=1,y_{i2}=0\right)}{P \left(S_i=1\right)}&=\frac{\pi_{i1} \left(1-\pi_{i2}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\\ &=\frac{\frac{e^{\alpha_i+\beta}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}{\frac{e^{\alpha_i+\beta}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}+\frac{e^{\alpha_i}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}\\ &=\frac{e^{\alpha_i+\beta}}{e^{\alpha_i} \left(1+e^\beta\right)}\\ &=\frac{e^\beta}{1+e^\beta} \end{align} 同様に、$y_{i2} \left(1-y_{i1}\right)=1$ となる $g$ 組については、 \begin{align} \frac{P \left(y_{i1}=0,y_{i2}=1\right)}{P \left(S_i=1\right)}&=\frac{\pi_{i2} \left(1-\pi_{i1}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\\ &=\frac{\frac{e^{\alpha_i}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}{\frac{e^{\alpha_i+\beta}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}+\frac{e^{\alpha_i}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}\\ &=\frac{e^{\alpha_i}}{e^{\alpha_i} \left(1+e^\beta\right)}\\ &=\frac{1}{1+e^\beta} \end{align}

したがって、条件付き尤度は、 \begin{align} L \left(\beta\middle| S\right)&=\prod_{i:S_i=1}{ \left(\frac{e^\beta}{1+e^\beta}\right)^{y_{i1} \left(1-y_{i2}\right)} \left(\frac{1}{1+e^\beta}\right)^{y_{i2} \left(1-y_{i1}\right)}}\\ &= \left(\frac{e^\beta}{1+e^\beta}\right)^f \left(\frac{1}{1+e^\beta}\right)^g \end{align} これは、パラメータ $\beta$ のみの関数であり、条件なし尤度に含まれていた局外パラメータ $ \left\{\alpha_i\right\}$ に依存しない。

パラメータの最尤推定量

対数尤度関数 $l \left(\theta\right)=\log{L \left(\theta\right)}$ は、 \begin{align} l \left(\beta\middle| S\right)&=f\log{ \left(\frac{e^\beta}{1+e^\beta}\right)}+g\log{ \left(\frac{1}{1+e^\beta}\right)}\\ &=f \left\{\beta-\log{ \left(1+e^\beta\right)}\right\}-g\log{ \left(1+e^\beta\right)}\\ &=f\beta- \left(f+g\right)\log{ \left(1+e^\beta\right)}\\ &=f\beta-M\log{ \left(1+e^\beta\right)} \end{align}

オッズ比 $\beta$ に関するスコア関数 $U \left(\theta\right)=\frac{\partial}{\partial\theta}l \left(\theta\right)$ は、 \begin{align} U_\beta \left(\theta\right)=f-M \cdot \frac{e^\beta}{1+e^\beta} \end{align} 尤度方程式 $U \left(\theta\right)=0$ を解くと、オッズ比の最尤推定量は、 \begin{gather} f-M \cdot \frac{e^{\hat{\beta}}}{1+e^{\hat{\beta}}}=0\\ \frac{e^{\hat{\beta}}}{1+e^{\hat{\beta}}}=\frac{f}{M}\\ \left(1-\frac{f}{M}\right)e^{\hat{\beta}}=\frac{f}{M}\\ e^{\hat{\beta}}=\frac{f}{M} \cdot \frac{M}{g}=\frac{f}{g}\\ \hat{\beta}=\log{\frac{f}{g}} \end{gather}

最尤推定量の漸近分散

観測情報量 $i_\beta \left(\theta\right)=-\frac{\partial}{\partial\beta}U_\beta \left(\theta\right)$ は、 \begin{align} i_\beta \left(\theta\right)=M \cdot \frac{e^\beta}{ \left(1+e^\beta\right)^2} \end{align} 期待情報量 $I_\beta \left(\theta\right)=E \left[i_\beta \left(\theta\right)\right]$ は、 \begin{align} I_\beta \left(\theta\right)=E \left(M\right) \cdot \frac{e^\beta}{ \left(1+e^\beta\right)^2} \end{align}

$M$ の観測値を条件とする $E \left(M\right)=M$ ことで、その推定情報量は、 \begin{align} I_{\hat{\beta}} \left(\theta\right)&=M \cdot \frac{\frac{f}{g}}{ \left(1+\frac{f}{g}\right)^2}\\ &=M \cdot \frac{f}{g} \cdot \left(\frac{g}{M}\right)^2\\ &=\frac{fg}{M} \end{align} したがって、この推定値の漸近分散 $V \left(\hat{\theta}\right)=\frac{1}{I \left(\hat{\theta}\right)}$ は \begin{align} V \left(\hat{\beta}\right)=\frac{M}{fg} \end{align}

条件付き尤度比検定

「マッチング共変量に関してマッチングを行った後の母集団内の曝露と応答の間に関連性が存在しない」という仮説 $H_0:\beta=0$ の尤度は、 \begin{align} l \left(\beta=0\middle| S\right)=f \cdot 0-M\log{ \left(1+e^0\right)}=-M\log{2} \end{align} よって、$H_0:\beta=0,H_1:\beta=\hat{\beta}$ における尤度比検定の検定統計量 $\chi_{LR}^2=-2\log{ \left\{\frac{L \left(\ \theta\ \middle|\ \beta=\beta_0\ \right)}{L \left(\ \theta\ \middle|\ \beta=\hat{\beta}\ \right)}\right\}}$ は、 \begin{align} \chi_{LR}^2&=-2 \left\{\log{L \left(\ \theta\ \middle|\ \beta=0\ \right)}-\log{L \left(\ \theta\ \middle|\ \beta=\hat{\beta}\ \right)}\right\}\\ &=-2 \left\{-M\log{2}-f\log{\frac{f}{g}}+M\log{\frac{M}{g}}\right\}\\ &=-2 \left\{\log{ \left(\frac{1}{2}\right)^M}+\log{ \left(\frac{g}{f}\right)^f}+\log{ \left(\frac{M}{g}\right)^M}\right\}\\ &=-2\log{ \left(\frac{g^f}{f^f} \cdot \frac{M^M}{g^M} \cdot \frac{1}{2^M}\right)}\\ &=-2\log{ \left[\frac{1}{f^fg^g} \cdot \left(\frac{M}{2}\right)^M\right]} \end{align}

条件付き有効スコア検定

帰無仮説 $H_0:\beta=\beta_0=0$ のもとでのスコア関数と期待情報量は、 \begin{align} U_{\beta_0} \left(\theta\right)&=f-M \cdot \frac{e^0}{1+e^0}\\ &=\frac{2f- \left(f+g\right)}{2}\\ &=\frac{f-g}{2}\\ I_{\beta_0} \left(\theta\right)&=E \left(M\right) \cdot \frac{e^0}{ \left(1+e^0\right)^2}\\ &=\frac{E \left(M\right)}{4}\\ &=\frac{M}{4} \end{align} したがって、有効スコア検定の検定統計量 $\chi^2=\frac{ \left[U \left(\beta_0\right)\right]^2}{I \left(\beta_0\right)}$ は、 \begin{align} \chi^2&=\frac{ \left(f-g\right)^2}{4} \cdot \frac{4}{M}\\ &=\frac{ \left(f-g\right)^2}{M} \end{align} これは、マクネマー検定の検定統計量と等しい。

なお、条件付き発症オッズ比と条件付き曝露オッズ比の同等性から、ペア・マッチングを行うケース・コントロール研究についても、同様のロジスティック・モデルを考えることができる。

参考文献

  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.284-287
  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.300-301
  • Cox, D.R.. Two further applications of a model for binary regression. Biometrika. 1958;45(3-4):562-565, doi: https://doi.org/10.1093/biomet/45.3-4.562

引用文献

  1. Cox, D.R.. Two further applications of a model for binary regression. Biometrika. 1958, 45(3-4), p.562-565, doi: 10.1093/biomet/45.3-4.562
  2. ロナルド・フィッシャー 著, 渋谷 政昭, 竹内啓 訳. 統計的方法と科学的推論. 岩波書店, 1962, 227p.

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ