独立性の検定の検定統計量の公式の導出

公開日: 更新日:

【2023年4月4週】 【B000】数理統計学 【B080】統計的仮説検定

この記事をシェアする
  • B!
サムネイル画像

本稿では、独立性の検定の検定統計量の公式を導出しています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。

データの形式

あるリスク因子への曝露とある疾病の発症との関係をまとめた表が以下のようにまとめられている。サンプルサイズが十分に大きく、中心極限定理が成り立ち、母比率を標本比率で置き換えることができるとする。

表1 曝露と発症の関係(観測値)
発症あり 発症なし 合計
曝露あり $a$ $c$ $n_1$
曝露なし $b$ $d$ $n_0$
合計 $m_1$ $m_0$ $N$
表2 曝露と発症の関係(統計モデル)
発症あり 発症なし 合計
曝露あり $\pi_{11}$ $\pi_{12}$ $\pi_E$
曝露なし $\pi_{21}$ $\pi_{22}$ $1-\pi_E$
合計 $\pi_D$ $1-\pi_D$ $1$

【公式】独立性の検定の検定統計量の公式

【公式】
独立性の検定の検定統計量の公式
Test Statistic of Chi-Square Independence Test

帰無仮説 「曝露と発症は統計的に独立である」 を検定するための $\chi^2$検定統計量は \begin{gather} \chi_{\mathrm{P}}^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)} \end{gather} で定義される。 この検定統計量は、分割表内の値を用いて \begin{align} \chi_{\mathrm{P}}^2=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} で与えられる。

導出

導出

独立性の定義 $P \left(A \cap B\right)=P \left(A\right) \cdot P \left(B\right)$ より、帰無仮説において、 \begin{gather} \pi_{11}=\pi_D \cdot \pi_E\\ \pi_{12}=\pi_E \left(1-\pi_D\right)\\ \pi_{21}=\pi_D \left(1-\pi_E\right)\\ \pi_{22}= \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 各セルの度数は、 \begin{gather} a=N\pi_{11}=N \cdot \pi_D \cdot \pi_E\\ b=N\pi_{12}=N \cdot \pi_E \left(1-\pi_D\right)\\ c=N\pi_{21}=N \cdot \pi_D \left(1-\pi_E\right)\\ d=N\pi_{22}=N \cdot \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 周辺確率の最尤推定量は、それぞれ \begin{gather} {\hat{\pi}}_D=\frac{m_1}{N}\\ {\hat{\pi}}_E=\frac{n_1}{N}\\ 1-{\hat{\pi}}_D=\frac{m_2}{N}\\ 1-{\hat{\pi}}_E=\frac{n_2}{N} \end{gather} 帰無仮説のもとでの各セルの期待値の一致推定量は、 \begin{gather} \hat{E} \left(a\right)=\frac{n_1m_1}{N}=\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ \hat{E} \left(b\right)=\frac{n_2m_1}{N}=\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ \hat{E} \left(c\right)=\frac{n_1m_2}{N}=\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ \hat{E} \left(d\right)=\frac{n_2m_2}{N}=\frac{ \left(b+d\right) \left(c+d\right)}{N} \end{gather} 定義式に沿って、帰無仮説における検定統計量の値を算出すると、 \begin{gather} \chi_0^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)}\tag{1} \end{gather} それぞれの項を計算すると、 \begin{align} a-\hat{E} \left(a\right)&=a-\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{a \left(a+b+c+d\right)- \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{ad-bc}{N}\tag{2} \end{align} \begin{align} b-\hat{E} \left(b\right)&=b-\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ &=\frac{b \left(a+b+c+d\right)- \left(a+b\right) \left(b+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag{3} \end{align} \begin{align} c-\hat{E} \left(c\right)&=c-\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ &=\frac{c \left(a+b+c+d\right)- \left(a+c\right) \left(c+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag{4} \end{align} \begin{align} d-\hat{E} \left(d\right)&=d-\frac{ \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{d \left(a+b+c+d\right)- \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{ad-bc}{N}\tag{5} \end{align} 式 $(2)~(5)$ を式 $(1)$ に代入すると、 \begin{align} \chi_0^2&= \left(\frac{ad-bc}{N}\right)^2 \left\{\frac{N}{ \left(a+c\right) \left(a+b\right)}+\frac{N}{ \left(a+b\right) \left(b+d\right)}+\frac{N}{ \left(a+c\right) \left(c+d\right)}+\frac{N}{ \left(b+d\right) \left(c+d\right)}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(b+d\right) \left(c+d\right)+ \left(a+c\right) \left(c+d\right)+ \left(a+b\right) \left(b+d\right)+ \left(a+b\right) \left(a+c\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+c\right) \left(a+b+c+d\right)+ \left(b+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+b+c+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \cdot \frac{N^2}{n_1n_0m_1m_0}\\ &=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} $\blacksquare$

参考文献

  • 小寺 平治 著. 数理統計:明解演習. 共立出版, 1986, p.178
  • 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.288-292
  • 久保川 達也 著, 新井 仁之, 小林 俊行, 斎藤 毅, 吉田 朋広 編. 現代数理統計学の基礎. 共立出版, 2017, p.158-159

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ