本稿は、ジョン・ラチン(2020)『医薬データのための統計解析』の「問題6.8」の自作解答例です。条件付き積二項尤度にもとづく条件付きロジスティック回帰モデルに関する問題です。特に、回帰係数の有効スコア検定がマクネマー検定と等しいという関係は重要です。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
- 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。
- デルタ法を用いる際、剰余項(2次の項)が漸近的に無視できる($0$に確率収束する)と仮定しています。
- 上述の参考書では、標準正規分布の上側 $100\alpha\%$ 点を $Z_{1-\alpha}$ と表記していますが、本サイトでは、$Z_\alpha$ としています。そのため、参考書に載っている式の形式と異なる部分があります。
- 著作権の関係上、問題文は、掲載しておりません。上述の参考書をお持ちの方は、お手元にご用意してご覧ください。
- この解答例は、筆者が自作したものであり、公式なものではありません。あくまでも参考としてご覧いただければ幸いです。
問題6.8.1:マッチングペアに対するロジスティック・モデルの尤度
各ペアにおいて、各メンバーの発症状況が条件付き独立なとき、尤度は、積二項尤度として、定数項を無視すると、 \begin{align} L \left(\alpha_i,\beta\right)&=\pi_{i1}^{y_{i1}} \left(1-\pi_{i1}\right)^{1-y_{i1}} \cdot \pi_{i2}^{y_{i2}} \left(1-\pi_{i2}\right)^{1-y_{i2}}\\ &= \left(\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}}\right)^{y_{i1}} \left(\frac{1}{1+e^{\alpha_i+\beta}}\right)^{1-y_{i1}} \cdot \left(\frac{e^{\alpha_i}}{1+e^{\alpha_i}}\right)^{y_{i2}} \left(\frac{1}{1+e^{\alpha_i}}\right)^{1-y_{i2}} \end{align} 対数尤度関数は、 \begin{align} l \left(\alpha_i,\beta\right)&=y_{i1} \left\{ \left(\alpha_i+\beta\right)-\log{ \left(1+e^{\alpha_i+\beta}\right)}\right\}- \left(1-y_{i1}\right)\log{ \left(1+e^{\alpha_i+\beta}\right)}+y_{i2} \left\{\alpha_i-\log{ \left(1+e^{\alpha_i+\beta}\right)}\right\}- \left(1-y_{i2}\right)\log{ \left(1+e^{\alpha_i}\right)}\\ &=y_{i1} \left(\alpha_i+\beta\right)-\log{ \left(1+e^{\alpha_i+\beta}\right)}+\alpha_iy_{i2}-\log{ \left(1+e^{\alpha_i}\right)}\\ &= \left(y_{i1}+y_{i2}\right)\alpha_i+y_{i1}\beta-\log{ \left(1+e^{\alpha_i+\beta}\right)}-\log{ \left(1+e^{\alpha_i}\right)} \end{align} 各ペアが独立なとき、マッチングを行ったすべてのペアに対する全尤度は、 \begin{gather} L \left(\boldsymbol{\theta}\right)=\prod_{i=1}^{N}L \left(\alpha_i,\beta\right) \quad \boldsymbol{\theta}= \left\{\begin{matrix}\alpha_1\\\vdots\\\alpha_N\\\beta\\\end{matrix}\right\} \end{gather} 対数尤度は、 \begin{align} l \left(\boldsymbol{\theta}\right)&=\sum_{i=1}^{N}l \left(\alpha_i,\beta\right)\\ &=\sum_{i=1}^{N}{ \left(y_{i1}+y_{i2}\right)\alpha_i}+\sum_{i=1}^{N}{y_{i1}\beta}-\sum_{i=1}^{N}\log{ \left(1+e^{\alpha_i+\beta}\right)}-\sum_{i=1}^{N}\log{ \left(1+e^{\alpha_i}\right)} \end{align} $\blacksquare$
問題6.8.2:スコア関数
これを $\alpha_i$ で偏微分すると、 \begin{align} U_{\alpha_i} \left(\boldsymbol{\theta}\right)&= \left(y_{i1}+y_{i2}\right)-\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}}-\frac{e^{\alpha_i}}{1+e^{\alpha_i}} \end{align} 同様に、$\beta$ で偏微分すると、 \begin{align} U_\beta \left(\boldsymbol{\theta}\right)=\sum_{i=1}^{N}y_{i1}-\sum_{i=1}^{N}\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}} \end{align} $\blacksquare$
問題6.8.3:条件付き尤度①
あるバラメータの最尤推定量はそのパラメータに関する漸近的に十分統計量の関数であるため、$i$ 番目のペアにおける正の応答数
\begin{align}
S_i=y_{i1}+y_{i2} \quad S_i=0,1,2
\end{align}
は、$\alpha_i$ の十分統計量である。
$S_i$ を条件として与えたもとでの全体としての条件付き尤度は、
\begin{align}
L \left(\beta\middle| S\right)=\prod_{i=1}^{N}{L \left(\beta\middle| S_i\right)}
\end{align}
$i$ 番目のペアに対する条件付き尤度は
\begin{align}
L \left(\beta\middle| S_i\right)&=P \left(y_{i1},y_{i2}\middle| S_i\right)\\
&=\frac{P \left(y_{i1},y_{i2},S_i\right)}{P \left(S_i\right)}\\
&=\frac{P \left(y_{i1},y_{i2}\right)}{P \left(S_i\right)}
\end{align}
ここで、応答が一致しているペア(「あり・あり」、「なし・なし」)については、それぞれ S_i=0,2 となり、この値を取るパターンはそれぞれ1通りしかないため、「なし・なし」の $h$ 組、「あり・あり」の $e$ 組のペアについては、
\begin{gather}
P \left(y_{i1}=0,y_{i2}=0\middle| S_i=0\right)=1\\
P \left(y_{i1}=1,y_{i2}=1\middle| S_i=2\right)=1
\end{gather}
したがって、各応答一致のペア($S_i=0,2$)は、条件付き尤度へ定数で寄与し、$\beta$ に関する情報を何も与えない。
反対に、$S_i=1$ となる $M$ 組の応答不一致のペアが存在しており、そのうちの $f$ 組が得られる確率は、
\begin{align}
P \left(y_{i1}=1,y_{i2}=0\middle| S_i=1\right)&=\pi_{i1} \left(1-\pi_{i2}\right)\\
&= \left(\frac{e^{\alpha_i+\beta}}{1+e^{\alpha_i+\beta}}\right) \left(\frac{1}{1+e^{\alpha_i}}\right)
\end{align}
同様に、$g$ 組の確率は、
\begin{align}
P \left(y_{i1}=0,y_{i2}=1\middle| S_i=1\right)&=\pi_{i2} \left(1-\pi_{i1}\right)\\
&= \left(\frac{e^{\alpha_i}}{1+e^{\alpha_i}}\right) \left(\frac{1}{1+e^{\alpha_i+\beta}}\right)
\end{align}
応答不一致のペアのすべての確率 $P \left(S_i=1\right)$ は、これら2つの確率の和を取り、
\begin{align}
P \left(S_i=1\right)=\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)
\end{align}
したがって、条件付き尤度は
\begin{align}
L \left(\beta\middle| S\right)&=\prod_{i:S_i=1}{ \left[\frac{P \left(y_{i1}=1,y_{i2}=0\right)}{P \left(S_i=1\right)}\right]^{y_{i1} \left(1-y_{i2}\right)} \left[\frac{P \left(y_{i1}=0,y_{i2}=1\right)}{P \left(S_i=1\right)}\right]^{y_{i2} \left(1-y_{i1}\right)}}\\
&=\prod_{i:S_i=1}{ \left[\frac{\pi_{i1} \left(1-\pi_{i2}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\right]^{y_{i1} \left(1-y_{i2}\right)} \left[\frac{\pi_{i2} \left(1-\pi_{i1}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\right]^{y_{i2} \left(1-y_{i1}\right)}}\\
&=\prod_{i:S_i=1}\frac{ \left\{\pi_{i1} \left(1-\pi_{i2}\right)\right\}^{y_{i1} \left(1-y_{i2}\right)} \cdot \left\{\pi_{i2} \left(1-\pi_{i1}\right)\right\}^{y_{i2} \left(1-y_{i1}\right)}}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\\
\end{align}
$\blacksquare$
問題6.8.4:条件付き尤度②
ここで、$y_{i1} \left(1-y_{i2}\right)=1$ となる $f$ 組については、 \begin{align} \frac{P \left(y_{i1}=1,y_{i2}=0\right)}{P \left(S_i=1\right)}&=\frac{\pi_{i1} \left(1-\pi_{i2}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\\ &=\frac{\frac{e^{\alpha_i+\beta}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}{\frac{e^{\alpha_i+\beta}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}+\frac{e^{\alpha_i}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}\\ &=\frac{e^{\alpha_i+\beta}}{e^{\alpha_i} \left(1+e^\beta\right)}\\ &=\frac{e^\beta}{1+e^\beta} \end{align} 同様に、$y_{i2} \left(1-y_{i1}\right)=1$ となる $g$ 組については、 \begin{align} \frac{P \left(y_{i1}=0,y_{i2}=1\right)}{P \left(S_i=1\right)}&=\frac{\pi_{i2} \left(1-\pi_{i1}\right)}{\pi_{i1} \left(1-\pi_{i2}\right)+\pi_{i2} \left(1-\pi_{i1}\right)}\\ &=\frac{\frac{e^{\alpha_i}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}{\frac{e^{\alpha_i+\beta}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}+\frac{e^{\alpha_i}}{ \left(1+e^{\alpha_i+\beta}\right) \left(1+e^{\alpha_i}\right)}}\\ &=\frac{e^{\alpha_i}}{e^{\alpha_i} \left(1+e^\beta\right)}\\ &=\frac{1}{1+e^\beta} \end{align} $\blacksquare$
問題6.8.5:条件付き尤度③
したがって、条件付き尤度は、 \begin{align} L \left(\beta\middle| S\right)&=\prod_{i:S_i=1}{ \left(\frac{e^\beta}{1+e^\beta}\right)^{y_{i1} \left(1-y_{i2}\right)} \left(\frac{1}{1+e^\beta}\right)^{y_{i2} \left(1-y_{i1}\right)}}\\ &= \left(\frac{e^\beta}{1+e^\beta}\right)^f \left(\frac{1}{1+e^\beta}\right)^g \end{align} $\blacksquare$
問題6.8.6:条件付き対数尤度
対数尤度関数 $l \left(\theta\right)=\log{L \left(\theta\right)}$ は、 \begin{align} l \left(\beta\middle| S\right)&=f\log{ \left(\frac{e^\beta}{1+e^\beta}\right)}+g\log{ \left(\frac{1}{1+e^\beta}\right)}\\ &=f \left\{\beta-\log{ \left(1+e^\beta\right)}\right\}-g\log{ \left(1+e^\beta\right)}\\ &=f\beta- \left(f+g\right)\log{ \left(1+e^\beta\right)}\\ &=f\beta-M\log{ \left(1+e^\beta\right)} \end{align} $\blacksquare$
問題6.8.7:条件付きスコア関数と対数オッズ比の最尤推定量
オッズ比 $\beta$ に関するスコア関数 $U \left(\theta\right)=\frac{\partial}{\partial\theta}l \left(\theta\right)$ は、 \begin{align} U_\beta \left(\theta\right)=f-M \cdot \frac{e^\beta}{1+e^\beta} \end{align} 尤度方程式 $U \left(\theta\right)=0$ を解くと、オッズ比の最尤推定量は、 \begin{gather} f-M \cdot \frac{e^{\hat{\beta}}}{1+e^{\hat{\beta}}}=0\\ \frac{e^{\hat{\beta}}}{1+e^{\hat{\beta}}}=\frac{f}{M}\\ \left(1-\frac{f}{M}\right)e^{\hat{\beta}}=\frac{f}{M}\\ e^{\hat{\beta}}=\frac{f}{M} \cdot \frac{M}{g}=\frac{f}{g}\\ \hat{\beta}=\log{\frac{f}{g}} \end{gather} $\blacksquare$
問題6.8.8:観測情報量
観測情報量 $i_\beta \left(\theta\right)=-\frac{\partial}{\partial\beta}U_\beta \left(\theta\right)$ は、 \begin{align} i_\beta \left(\theta\right)=M \cdot \frac{e^\beta}{ \left(1+e^\beta\right)^2} \end{align} 期待情報量 $I_\beta \left(\theta\right)=E \left[i_\beta \left(\theta\right)\right]$ は、 \begin{align} I_\beta \left(\theta\right)=E \left(M\right) \cdot \frac{e^\beta}{ \left(1+e^\beta\right)^2} \end{align} $\blacksquare$
問題6.8.9:漸近分散
$M$ の観測値を条件とする $E \left(M\right)=M$ ことで、その推定情報量は、 \begin{align} I_{\hat{\beta}} \left(\theta\right)&=M \cdot \frac{\frac{f}{g}}{ \left(1+\frac{f}{g}\right)^2}\\ &=M \cdot \frac{f}{g} \cdot \left(\frac{g}{M}\right)^2\\ &=\frac{fg}{M} \end{align} したがって、この推定値の漸近分散 $V \left(\hat{\theta}\right)=\frac{1}{I \left(\hat{\theta}\right)}$ は \begin{align} V \left(\hat{\beta}\right)=\frac{M}{fg} \end{align} $\blacksquare$
問題6.8.10:帰無仮説のもとでの尤度比検定
「マッチング共変量に関してマッチングを行った後の母集団内の曝露と応答の間に関連性が存在しない」という仮説 $H_0:\beta=0$ の尤度は、 \begin{align} l \left(\beta=0\middle| S\right)=f \cdot 0-M\log{ \left(1+e^0\right)}=-M\log{2} \end{align} よって、$H_0:\beta=0,H_1:\beta=\hat{\beta}$ における尤度比検定の検定統計量 $\chi_{LR}^2=-2\log{ \left\{\frac{L \left(\ \theta\ \middle|\ \beta=\beta_0\ \right)}{L \left(\ \theta\ \middle|\ \beta=\hat{\beta}\ \right)}\right\}}$ は、 \begin{align} \chi_{LR}^2&=-2 \left\{\log{L \left(\ \theta\ \middle|\ \beta=0\ \right)}-\log{L \left(\ \theta\ \middle|\ \beta=\hat{\beta}\ \right)}\right\}\\ &=-2 \left\{-M\log{2}-f\log{\frac{f}{g}}+M\log{\frac{M}{g}}\right\}\\ &=-2 \left\{\log{ \left(\frac{1}{2}\right)^M}+\log{ \left(\frac{g}{f}\right)^f}+\log{ \left(\frac{M}{g}\right)^M}\right\}\\ &=-2\log{ \left(\frac{g^f}{f^f} \cdot \frac{M^M}{g^M} \cdot \frac{1}{2^M}\right)}\\ &=-2\log{ \left[\frac{1}{f^fg^g} \cdot \left(\frac{M}{2}\right)^M\right]} \end{align} $\blacksquare$
問題6.8.11:有効スコア検定
帰無仮説 $H_0:\beta=\beta_0=0$ のもとでのスコア関数と期待情報量は、 \begin{align} U_{\beta_0} \left(\theta\right)&=f-M \cdot \frac{e^0}{1+e^0}\\ &=\frac{2f- \left(f+g\right)}{2}\\ &=\frac{f-g}{2}\\ I_{\beta_0} \left(\theta\right)&=E \left(M\right) \cdot \frac{e^0}{ \left(1+e^0\right)^2}\\ &=\frac{E \left(M\right)}{4}\\ &=\frac{M}{4} \end{align} したがって、有効スコア検定の検定統計量 $\chi^2=\frac{ \left[U \left(\beta_0\right)\right]^2}{I \left(\beta_0\right)}$ は、 \begin{align} \chi^2&=\frac{ \left(f-g\right)^2}{4} \cdot \frac{4}{M}\\ &=\frac{ \left(f-g\right)^2}{M} \end{align} これは、マクネマー検定の検定統計量と等しい。 $\blacksquare$
参考文献
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.300-301
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.284-287
- Cox, D.R.. Two further applications of a model for binary regression. Biometrika. 1958;45(3-4):562-565, doi: https://doi.org/10.1093/biomet/45.3-4.562
0 件のコメント:
コメントを投稿