本稿は、ジョン・ラチン(2020)『医薬データのための統計解析』の「問題2.6」の自作解答例です。コクラン検定・フィッシャーの正確確率検定に関する問題です。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
- 著作権の関係上、問題文は、掲載しておりません。上述の参考書をお持ちの方は、お手元にご用意してご覧ください。
- この解答例は、筆者が自作したものであり、公式なものではありません。あくまでも参考としてご覧いただければ幸いです。
問題2.6.1:積二項尤度(帰無仮説)
本問の条件下で、観測値が得られる積二項尤度は、 \begin{align} L_1 \left(\pi_1,\pi_2\right)&=P \left(a,b\middle| n_1,n_2,\boldsymbol{\pi}\right)\\ &=P \left(a\middle| n_1,\pi_1\right) \cdot P \left(b\middle| n_2,\pi_2\right)\\ &={}_{n_1}C_a\pi_1^a \left(1-\pi_1\right)^{n_1-a} \cdot {}_{n_2}C_b\pi_2^b \left(1-\pi_2\right)^{n_2-b} \end{align} 帰無仮説 $H_0:\pi_1=\pi_2=\pi$ のもとでは、 \begin{align} L_0 \left(\pi_1,\pi_2\right)&={}_{n_1}C_a \cdot {}_{n_2}C_b \cdot \pi^{a+b} \left(1-\pi\right)^{n_1+n_2-a-b}\\ &={}_{n_1}C_a \cdot {}_{n_2}C_b \cdot \pi^{m_1} \left(1-\pi\right)^{m_2} \end{align} $\blacksquare$
問題2.6.2:曝露群の発症人数の期待値と分散一致推定量
二項分布の期待値と分散の公式より、曝露群について、 \begin{align} E \left(a\right)=n_1\pi \quad V \left(a\right)=n_1\pi \left(1-\pi\right) \end{align} 共通の母比率 $\pi$ の一致推定量は、 \begin{align} \hat{\pi}=\frac{a+b}{n_1+n_2}=\frac{m_1}{N} \end{align} したがって、曝露群の発症人数の期待値と分散の一致推定量は、 \begin{align} \hat{E} \left(a\right)=\frac{m_1n_1}{N} \quad \hat{V} \left(a\right)=\frac{m_1m_2n_1}{N^2} \end{align} $\blacksquare$
問題2.6.3:実測値と期待値の差の分散の一致推定量
同様に、非曝露群については、 \begin{gather} E \left(b\right)=n_2\pi \quad V \left(b\right)=n_2\pi \left(1-\pi\right)\\ \hat{E} \left(b\right)=\frac{m_1n_2}{N} \quad \hat{V} \left(b\right)=\frac{m_1m_2n_2}{N^2} \end{gather} 実測値と期待値の一致推定量の差は、 \begin{align} a-\hat{E} \left(a\right)&=a-\frac{m_1n_1}{N}\\ &=\frac{a \left(n_1+n_2\right)-m_1n_1}{N}\\ &=\frac{n_2a+n_1 \left(a-m_1\right)}{N}\\ &=\frac{n_2a-n_1b}{N} \end{align} 両辺の分散を取ると、分散の性質より、 \begin{align} V \left[a-\hat{E} \left(a\right)\right]&=V \left[\frac{n_2a-n_1b}{N}\right]\\ &=\frac{n_2^2V \left(a\right)+n_1^2V \left(b\right)}{N^2}\\ &=\frac{n_2^2n_1\pi \left(1-\pi\right)+n_1^2n_2\pi \left(1-\pi\right)}{N^2}\\ &=\frac{n_1n_2 \left(n_1+n_2\right)\pi \left(1-\pi\right)}{N^2}\\ &=\frac{n_1n_2\pi \left(1-\pi\right)}{N} \end{align} 共通の母比率 $\pi$ を標本共通比率で置き換えると、差の分散の一致推定量は、 \begin{align} \hat{V} \left[a-\hat{E} \left(a\right)\right]&=\frac{n_1n_2}{N} \cdot \frac{m_1}{N} \cdot \frac{m_2}{N}\\ &=\frac{n_1n_2m_1m_2}{N^3} \end{align} したがって、独立性の検定の考え方から、検定統計量は、 \begin{align} \chi_C^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{V} \left[a-\hat{E} \left(a\right)\right]} \end{align} $\blacksquare$
問題2.6.4:超幾何尤度の導出(対立仮説)
発症群での曝露の有無について、$m_1=a+b$ が固定されているとき、
\begin{align}
b=m_1-a
\end{align}
これを積二項尤度の式に代入すると、
\begin{align}
P \left(a,m_1\middle| n_1,\pi_1,n_2,\pi_2\right)&={}_{n_1}C_a\pi_1^a \left(1-\pi_1\right)^{n_1-a} \cdot {}_{n_2}C_{m_1-a}\pi_2^{m_1-a} \left(1-\pi_2\right)^{n_2-m_1+a}\\
&={}_{n_1}C_a \left(\frac{\pi_1}{1-\pi_1}\right)^a \left(1-\pi_1\right)^{n_1} \cdot {}_{n_2}C_{m_1-a} \left(\frac{1-\pi_2}{\pi_2}\right)^a\pi_2^{m_1} \left(1-\pi_2\right)^{n_2-m_1}\\
&={}_{n_1}C_a \left(\frac{\pi_1}{1-\pi_1} \cdot \frac{1-\pi_2}{\pi_2}\right)^a \left(1-\pi_1\right)^{n_1} \cdot {}_{n_2}C_{m_1-a}\pi_2^{m_1} \left(1-\pi_2\right)^{n_2-m_1}
\end{align}
ここで、オッズ比を $\varphi=\frac{\pi_1}{1-\pi_1} \cdot \frac{1-\pi_2}{\pi_2}$ とおくと、
\begin{align}
P \left(a,m_1\middle| n_1,\pi_1,n_2,\pi_2\right)={}_{n_1}C_a \cdot {}_{n_2}C_{m_1-a} \cdot \varphi^a \cdot \left(1-\pi_1\right)^{n_1}\pi_2^{m_1} \left(1-\pi_2\right)^{n_2-m_1}
\end{align}
条件付き確率の定義式より、$m_1$ を固定するという条件のもとでの条件付き尤度は、
\begin{align}
L \left(\varphi\right)=\frac{P \left(a,m_1\middle| n_1,\pi_1,n_2,\pi_2\right)}{P \left(m_1\middle| n_1,\pi_1,n_2,\pi_2\right)}
\end{align}
ここで、$m_1$ が得られる確率は、行と列の周辺度数 $ \left(n_1,n_2,m_1,m_2\right)$ が与えられたという条件のもとで、$a$ が得られる確率の総和として求めることができる。すなわち、
\begin{align}
P \left(m_1\middle| n_1,\pi_1,n_2,\pi_2\right)=\sum_{a=a_l}^{a_u}{P \left(a,m_1\middle| n_1,\pi_1,n_2,\pi_2\right)}
\end{align}
$a$ の取り得る値の上限(最大値)は、$n_1,m_1$ のうち小さい方 $a_u=\mathrm{min} \left\{n_1,m_1\right\}$ である。
同様に、$b$ の取り得る値の上限(最大値)は、$n_2,m_1$ のうち小さい方 $b_u=\mathrm{min} \left\{n_2,m_1\right\}$ であり、$a=m_1-b$ の関係があるので、
$a$ の取り得る値の下限(最小値)は、$a_l=m_1-\mathrm{max} \left\{n_2,m_1\right\}$ となる。
したがって、$a$ の取り得る値の範囲は、
\begin{align}
a= \left\{\mathrm{max} \left(0,n_2-m_1\right), \cdots ,\mathrm{min} \left(n_1,m_1\right)\right\}
\end{align}
これらを条件付き尤度の式に代入すると、$ \left(1-\pi_1\right)^{n_1}\pi_2^{m_1} \left(1-\pi_2\right)^{n_2-m_1}$ は定数なので、
\begin{align}
L_1 \left(\varphi\right)&=\frac{ \left(1-\pi_1\right)^{n_1}\pi_2^{m_1} \left(1-\pi_2\right)^{n_2-m_1} \cdot {}_{n_1}C_a \cdot {}_{n_2}C_{m_1-a} \cdot \varphi^a}{ \left(1-\pi_1\right)^{n_1}\pi_2^{m_1} \left(1-\pi_2\right)^{n_2-m_1} \cdot \sum_{i=a_l}^{a_u}{{}_{n_1}C_i \cdot {}_{n_2}C_{m_1-i} \cdot \varphi^i}}\\
&=\frac{{}_{n_1}C_a \cdot {}_{n_2}C_{m_1-a} \cdot \varphi^a}{\sum_{i=a_l}^{a_u}{{}_{n_1}C_i \cdot {}_{n_2}C_{m_1-i} \cdot \varphi^i}}
\end{align}
$\blacksquare$
問題2.6.5:超幾何尤度の導出(帰無仮説)
特に、帰無仮説 $H_0:\varphi=1$ のもとでは、 \begin{align} L_0 \left(\varphi\right)=\frac{{}_{n_1}C_a \cdot {}_{n_2}C_{m_1-a}}{\sum_{i=a_l}^{a_u}{{}_{n_1}C_i \cdot {}_{n_2}C_{m_1-i}}} \end{align} $\blacksquare$
問題2.6.6:超幾何分布の確率関数
$N$ 個の中から、$m_1$ 個を抽出する選び方は、
\begin{align}
{}_{N}C_{m_1}
\end{align}
通りある。
性質 $A$ を持つ個体が $a$ 個となる選び方は、
まず、性質 $A$ を持つ $n_1$ 個の中から、$a$ 個を抽出し、
性質 $A$ を持たない $N-n_1$ 個の中から、残りの $m_1-a$ 個を抽出
すればよいので、
そのような選び方は、
\begin{align}
{}_{n_1}C_a \cdot {}_{N-n_1}C_{m_1-a}
\end{align}
通りある。
したがって、このような事象が起こる確率は(数学的確率によって)、
\begin{align}
P \left(a\middle| n_1,m_1,N\right)=\frac{{}_{n_1}C_a \cdot {}_{N-n_1}C_{m_1-a}}{{}_{N}C_{m_1}}
\end{align}
これは、超幾何分布の確率関数である。
$\blacksquare$
問題2.6.7:ヴァンデルモンドの恒等式
確率の公理 $\sum_{-\infty}^{\infty}f \left(x\right)=1$ より、 \begin{align} \sum_{i=a_l}^{a_u}{P \left(i\middle| n_1,m_1,N\right)}=\sum_{i=a_l}^{a_u}\frac{{}_{n_1}C_i \cdot {}_{N-n_1}C_{m_1-i}}{{}_{N}C_{m_1}}=1 \end{align} 変数は $a$ で ${}_{N}C_{m_1}$ は定数なので、両辺に ${}_{N}C_{m_1}$ をかけると、 \begin{align} \sum_{i=a_l}^{a_u}{{}_{n_1}C_i \cdot {}_{N-n_1}C_{m_1-i}}={}_{N}C_{m_1} \end{align} $\blacksquare$
問題2.6.8:条件付きの超幾何尤度の公式
帰無仮説 $H_0:\varphi=1$ のもとでの条件付きの超幾何尤度の公式より、 \begin{align} L_0 \left(\varphi\right)=\frac{{}_{n_1}C_a \cdot {}_{N-n_1}C_{m_1-a}}{\sum_{i=a_l}^{a_u}{{}_{n_1}C_i \cdot {}_{n_2}C_{m_1-i}}} \end{align} 〔2〕の結果を代入すると、 \begin{align} L_0 \left(\varphi\right)&=\frac{{}_{n_1}C_a \cdot {}_{N-n_1}C_{m_1-a}}{{}_{N}C_{m_1}}\\ &=\frac{{}_{n_1}C_a \cdot {}_{n_2}C_b}{{}_{N}C_{m_1}}\\ &=\frac{n_1!}{a! \left(n_1-a\right)!} \cdot \frac{n_2!}{b! \left(n_2-b\right)!} \cdot \frac{m_1! \left(N-m_1\right)!}{N!}\\ &=\frac{n_1!}{a!c!} \cdot \frac{n_2!}{b!d!} \cdot \frac{m_1!m_2!}{N!}\\ &=\frac{n_1!n_2!m_1!m_2!}{N!a!b!c!d!} \end{align} $\blacksquare$
問題2.6.9:超幾何分布の期待値
期待値の定義式 $E \left(X\right)=\sum_{x=-\infty}^{\infty}{x \cdot f \left(x\right)}$ より、 \begin{align} E \left(a\right)&=\sum{a \cdot \frac{{}_{n_1}C_a \cdot {}_{N-n_1}C_{m_1-a}}{{}_{N}C_{m_1}}}\\ &=\frac{m_1n_1}{N}\sum\frac{{}_{n_1-1}C_{a-1} \cdot {}_{ \left(N-1\right)- \left(n_1-1\right)}C_{ \left(m_1-1\right)- \left(a-1\right)}}{{}_{N-1}C_{m_1-1}}\\ \end{align} ヒントにあるように、 \begin{align} \sum\frac{{}_{n_1-1}C_{a-1} \cdot {}_{ \left(N-1\right)- \left(n_1-1\right)}C_{ \left(m_1-1\right)- \left(a-1\right)}}{{}_{N-1}C_{m_1-1}}=1 \end{align} したがって、 \begin{align} E \left(a\right)=\frac{m_1n_1}{N} \end{align} $\blacksquare$
問題2.6.10:超幾何分布の2次階乗モーメントと分散
2次階乗モーメントの定義式 $E \left\{X \left(X-1\right)\right\}=\sum_{x=0}^{\infty}{x \left(x-1\right) \cdot f \left(x\right)}$ より、 \begin{align} E \left\{a \left(a-1\right)\right\}&=\sum{a \left(a-1\right) \cdot \frac{{}_{n_1}C_a \cdot {}_{N-n_1}C_{m_1-a}}{{}_{N}C_{m_1}}}\\ &=\frac{m_1 \left(m_1-1\right)n_1 \left(n_1-1\right)}{N \left(N-1\right)}\sum\frac{{}_{n_1-2}C_{a-2} \cdot {}_{ \left(N-2\right)- \left(n_1-2\right)}C_{ \left(m_1-2\right)- \left(a-2\right)}}{{}_{N-2}C_{m_1-2}} \end{align} これまでと同様に、 \begin{align} \sum\frac{{}_{n_1-2}C_{a-2} \cdot {}_{ \left(N-2\right)- \left(n_1-2\right)}C_{ \left(m_1-2\right)- \left(a-2\right)}}{{}_{N-2}C_{m_1-2}}=1 \end{align} したがって、 \begin{align} E \left\{a \left(a-1\right)\right\}=\frac{m_1 \left(m_1-1\right)n_1 \left(n_1-1\right)}{N \left(N-1\right)} \end{align} 分散の公式 $V \left(X\right)=E \left\{X \left(X-1\right)\right\}+E \left(X\right)- \left\{E \left(X\right)\right\}^2$ より、 \begin{align} V \left(a\right)&=\frac{m_1 \left(m_1-1\right)n_1 \left(n_1-1\right)}{N \left(N-1\right)}+\frac{m_1n_1}{N}-\frac{m_1^2n_1^2}{N^2}\\ &=\frac{m_1n_1}{N} \left\{\frac{ \left(m_1-1\right) \left(n_1-1\right)}{N-1}+1-\frac{m_1n_1}{N}\right\}\\ &=\frac{m_1n_1}{N} \left\{\frac{N \left(m_1-1\right) \left(n_1-1\right)+N \left(N-1\right)-m_1n_1 \left(N-1\right)}{N \left(N-1\right)}\right\}\\ &=\frac{m_1n_1}{N^2 \left(N-1\right)} \left(m_1n_1N-m_1N-n_1N+N+N^2-N-m_1n_1N+m_1n_1\right)\\ &=\frac{m_1n_1}{N^2 \left(N-1\right)} \left\{N^2- \left(n_1+m_1\right)N+m_1n_1\right\}\\ &=\frac{m_1n_1}{N^2 \left(N-1\right)} \left\{ \left(N-m_1\right) \left(N-n_1\right)\right\}\\ &=\frac{m_1m_2n_1n_2}{N^2 \left(N-1\right)} \end{align} $\blacksquare$
参考文献
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.82-83
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.28-30
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.34-36
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.42-43
- Fisher, R. A.. On the interpretation of $\chi^2$ from contingency tables, and the calculation of P. Journal of the Royal Statistical Society, 1922;85 (1): 87-94. doi: https://doi.org/10.2307/2340521
- Cochran, W.G.. Some Methods for Strengthening the Common $\chi^2$ Tests. Biometrics. 1954;10(4):417-451, doi: https://doi.org/10.2307/3001616
0 件のコメント:
コメントを投稿