本稿では、独立性の検定の検定統計量の公式を導出しています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。
データの形式
あるリスク因子への曝露とある疾病の発症との関係をまとめた表が以下のようにまとめられている。サンプルサイズが十分に大きく、中心極限定理が成り立ち、母比率を標本比率で置き換えることができるとする。
発症あり | 発症なし | 合計 | |
---|---|---|---|
曝露あり | $a$ | $c$ | $n_1$ |
曝露なし | $b$ | $d$ | $n_0$ |
合計 | $m_1$ | $m_0$ | $N$ |
発症あり | 発症なし | 合計 | |
---|---|---|---|
曝露あり | $\pi_{11}$ | $\pi_{12}$ | $\pi_E$ |
曝露なし | $\pi_{21}$ | $\pi_{22}$ | $1-\pi_E$ |
合計 | $\pi_D$ | $1-\pi_D$ | $1$ |
【公式】独立性の検定の検定統計量の公式
【公式】
独立性の検定の検定統計量の公式
Test Statistic of Chi-Square Independence Test
帰無仮説 「曝露と発症は統計的に独立である」 を検定するための $\chi^2$検定統計量は \begin{gather} \chi_{\mathrm{P}}^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)} \end{gather} で定義される。 この検定統計量は、分割表内の値を用いて \begin{align} \chi_{\mathrm{P}}^2=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} で与えられる。
導出
独立性の定義 $P \left(A \cap B\right)=P \left(A\right) \cdot P \left(B\right)$ より、帰無仮説において、 \begin{gather} \pi_{11}=\pi_D \cdot \pi_E\\ \pi_{12}=\pi_E \left(1-\pi_D\right)\\ \pi_{21}=\pi_D \left(1-\pi_E\right)\\ \pi_{22}= \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 各セルの度数は、 \begin{gather} a=N\pi_{11}=N \cdot \pi_D \cdot \pi_E\\ b=N\pi_{12}=N \cdot \pi_E \left(1-\pi_D\right)\\ c=N\pi_{21}=N \cdot \pi_D \left(1-\pi_E\right)\\ d=N\pi_{22}=N \cdot \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 周辺確率の最尤推定量は、それぞれ \begin{gather} {\hat{\pi}}_D=\frac{m_1}{N}\\ {\hat{\pi}}_E=\frac{n_1}{N}\\ 1-{\hat{\pi}}_D=\frac{m_2}{N}\\ 1-{\hat{\pi}}_E=\frac{n_2}{N} \end{gather} 帰無仮説のもとでの各セルの期待値の一致推定量は、 \begin{gather} \hat{E} \left(a\right)=\frac{n_1m_1}{N}=\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ \hat{E} \left(b\right)=\frac{n_2m_1}{N}=\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ \hat{E} \left(c\right)=\frac{n_1m_2}{N}=\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ \hat{E} \left(d\right)=\frac{n_2m_2}{N}=\frac{ \left(b+d\right) \left(c+d\right)}{N} \end{gather} 定義式に沿って、帰無仮説における検定統計量の値を算出すると、 \begin{gather} \chi_0^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)}\tag{1} \end{gather} それぞれの項を計算すると、 \begin{align} a-\hat{E} \left(a\right)&=a-\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{a \left(a+b+c+d\right)- \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{ad-bc}{N}\tag{2} \end{align} \begin{align} b-\hat{E} \left(b\right)&=b-\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ &=\frac{b \left(a+b+c+d\right)- \left(a+b\right) \left(b+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag{3} \end{align} \begin{align} c-\hat{E} \left(c\right)&=c-\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ &=\frac{c \left(a+b+c+d\right)- \left(a+c\right) \left(c+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag{4} \end{align} \begin{align} d-\hat{E} \left(d\right)&=d-\frac{ \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{d \left(a+b+c+d\right)- \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{ad-bc}{N}\tag{5} \end{align} 式 $(2)~(5)$ を式 $(1)$ に代入すると、 \begin{align} \chi_0^2&= \left(\frac{ad-bc}{N}\right)^2 \left\{\frac{N}{ \left(a+c\right) \left(a+b\right)}+\frac{N}{ \left(a+b\right) \left(b+d\right)}+\frac{N}{ \left(a+c\right) \left(c+d\right)}+\frac{N}{ \left(b+d\right) \left(c+d\right)}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(b+d\right) \left(c+d\right)+ \left(a+c\right) \left(c+d\right)+ \left(a+b\right) \left(b+d\right)+ \left(a+b\right) \left(a+c\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+c\right) \left(a+b+c+d\right)+ \left(b+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+b+c+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \cdot \frac{N^2}{n_1n_0m_1m_0}\\ &=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} $\blacksquare$
参考文献
- 小寺 平治 著. 数理統計:明解演習. 共立出版, 1986, p.178
- 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.288-292
- 久保川 達也 著, 新井 仁之, 小林 俊行, 斎藤 毅, 吉田 朋広 編. 現代数理統計学の基礎. 共立出版, 2017, p.158-159
0 件のコメント:
コメントを投稿