独立性の検定の検定統計量の公式の導出-あるノマドの知の旅路～数学・統計学への道

独立性の検定の検定統計量の公式の導出

公開日：更新日：

本稿では、独立性の検定の検定統計量の公式を導出しています。

なお、閲覧にあたっては、以下の点にご注意ください。

スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。

データの形式

あるリスク因子への曝露とある疾病の発症との関係をまとめた表が以下のようにまとめられている。サンプルサイズが十分に大きく、中心極限定理が成り立ち、母比率を標本比率で置き換えることができるとする。

表1 曝露と発症の関係（観測値）
	発症あり	発症なし	合計
曝露あり	$a$	$c$	$n_1$
曝露なし	$b$	$d$	$n_0$
合計	$m_1$	$m_0$	$N$

表2 曝露と発症の関係（統計モデル）
	発症あり	発症なし	合計
曝露あり	$\pi_{11}$	$\pi_{12}$	$\pi_E$
曝露なし	$\pi_{21}$	$\pi_{22}$	$1-\pi_E$
合計	$\pi_D$	$1-\pi_D$	$1$

【公式】独立性の検定の検定統計量の公式

【公式】
独立性の検定の検定統計量の公式
Test Statistic of Chi-Square Independence Test

帰無仮説「曝露と発症は統計的に独立である」を検定するための $\chi^2$検定統計量は \begin{gather} \chi_{\mathrm{P}}^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)} \end{gather} で定義される。この検定統計量は、分割表内の値を用いて \begin{align} \chi_{\mathrm{P}}^2=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} で与えられる。

導出

独立性の定義 $P \left(A \cap B\right)=P \left(A\right) \cdot P \left(B\right)$ より、帰無仮説において、 \begin{gather} \pi_{11}=\pi_D \cdot \pi_E\\ \pi_{12}=\pi_E \left(1-\pi_D\right)\\ \pi_{21}=\pi_D \left(1-\pi_E\right)\\ \pi_{22}= \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 各セルの度数は、 \begin{gather} a=N\pi_{11}=N \cdot \pi_D \cdot \pi_E\\ b=N\pi_{12}=N \cdot \pi_E \left(1-\pi_D\right)\\ c=N\pi_{21}=N \cdot \pi_D \left(1-\pi_E\right)\\ d=N\pi_{22}=N \cdot \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 周辺確率の最尤推定量は、それぞれ \begin{gather} {\hat{\pi}}_D=\frac{m_1}{N}\\ {\hat{\pi}}_E=\frac{n_1}{N}\\ 1-{\hat{\pi}}_D=\frac{m_2}{N}\\ 1-{\hat{\pi}}_E=\frac{n_2}{N} \end{gather} 帰無仮説のもとでの各セルの期待値の一致推定量は、 \begin{gather} \hat{E} \left(a\right)=\frac{n_1m_1}{N}=\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ \hat{E} \left(b\right)=\frac{n_2m_1}{N}=\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ \hat{E} \left(c\right)=\frac{n_1m_2}{N}=\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ \hat{E} \left(d\right)=\frac{n_2m_2}{N}=\frac{ \left(b+d\right) \left(c+d\right)}{N} \end{gather} 定義式に沿って、帰無仮説における検定統計量の値を算出すると、 \begin{gather} \chi_0^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)}\tag{1} \end{gather} それぞれの項を計算すると、 \begin{align} a-\hat{E} \left(a\right)&=a-\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{a \left(a+b+c+d\right)- \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{ad-bc}{N}\tag{2} \end{align} \begin{align} b-\hat{E} \left(b\right)&=b-\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ &=\frac{b \left(a+b+c+d\right)- \left(a+b\right) \left(b+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag{3} \end{align} \begin{align} c-\hat{E} \left(c\right)&=c-\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ &=\frac{c \left(a+b+c+d\right)- \left(a+c\right) \left(c+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag{4} \end{align} \begin{align} d-\hat{E} \left(d\right)&=d-\frac{ \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{d \left(a+b+c+d\right)- \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{ad-bc}{N}\tag{5} \end{align} 式 $(2)～(5)$ を式 $(1)$ に代入すると、 \begin{align} \chi_0^2&= \left(\frac{ad-bc}{N}\right)^2 \left\{\frac{N}{ \left(a+c\right) \left(a+b\right)}+\frac{N}{ \left(a+b\right) \left(b+d\right)}+\frac{N}{ \left(a+c\right) \left(c+d\right)}+\frac{N}{ \left(b+d\right) \left(c+d\right)}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(b+d\right) \left(c+d\right)+ \left(a+c\right) \left(c+d\right)+ \left(a+b\right) \left(b+d\right)+ \left(a+b\right) \left(a+c\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+c\right) \left(a+b+c+d\right)+ \left(b+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+b+c+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \cdot \frac{N^2}{n_1n_0m_1m_0}\\ &=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} $\blacksquare$

参考文献

小寺平治著. 数理統計：明解演習. 共立出版, 1986, p.178
野田一雄, 宮岡悦良著. 入門・演習数理統計. 共立出版, 1990, p.288-292
久保川達也著, 新井仁之, 小林俊行, 斎藤毅, 吉田朋広編. 現代数理統計学の基礎. 共立出版, 2017, p.158-159

独立性の検定の検定統計量の公式の導出

データの形式

【公式】独立性の検定の検定統計量の公式

導出

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログアーカイブ

ラベル

不正行為を報告

よく読まれている記事

独立性の検定の検定統計量の公式の導出

データの形式

【公式】独立性の検定の検定統計量の公式

導出

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログ アーカイブ

ラベル

不正行為を報告

よく読まれている記事

ブログアーカイブ