ピアソンのカイ2乗検定(独立性の検定)

公開日: 更新日:

【2022年11月1週】 【A000】生物統計学 【A051】コホート研究 【A052】ケース・コントロール研究 【A073】統計的仮説検定

この記事をシェアする
  • B!
サムネイル画像

本稿では、いわゆる「独立性の検定」として知られるピアソンのカイ2乗検定の統計検定量の公式の導出を行っています。実用上は最終的な結果に値を代入することになりますが、公式を導出する際の計算に躓くことがあるので、ぜひご一読ください。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
  • 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。

【定理】ピアソンのカイ2乗検定(独立性の検定)

【定理】
ピアソンの $\chi^2$検定(独立性の検定)
Pearson's chi-square test

マッチングなしのコホート研究(四項分布モデル)において、 帰無仮説 「曝露と発症は統計的に独立である」 を検定するための $\chi^2$検定統計量は \begin{gather} \chi_{\mathrm{P}}^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)} \end{gather} で定義される。 この検定統計量は、分割表内の値を用いて \begin{align} \chi_{\mathrm{P}}^2=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} で与えられる。

導出:独立性の定義にもとづく方法

導出

分割表について四項分布モデルを仮定すると、独立性の定義 $P \left(A\cap B\right)=P \left(A\right) \cdot P \left(B\right)$ より、帰無仮説において、 \begin{gather} \pi_{11}=\pi_D \cdot \pi_E\\ \pi_{12}=\pi_E \left(1-\pi_D\right)\\ \pi_{21}=\pi_D \left(1-\pi_E\right)\\ \pi_{22}= \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 各セルの度数は、 \begin{gather} a=N\pi_{11}=N \cdot \pi_D \cdot \pi_E\\ b=N\pi_{12}=N \cdot \pi_E \left(1-\pi_D\right)\\ c=N\pi_{21}=N \cdot \pi_D \left(1-\pi_E\right)\\ d=N\pi_{22}=N \cdot \left(1-\pi_D\right) \left(1-\pi_E\right) \end{gather} 周辺確率の最尤推定量は、それぞれ \begin{gather} {\hat{\pi}}_D=\frac{m_1}{N}\\ {\hat{\pi}}_E=\frac{n_1}{N}\\ 1-{\hat{\pi}}_D=\frac{m_2}{N}\\ 1-{\hat{\pi}}_E=\frac{n_2}{N} \end{gather} 帰無仮説のもとでの各セルの期待値の一致推定量は、 \begin{gather} \hat{E} \left(a\right)=\frac{n_1m_1}{N}=\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ \hat{E} \left(b\right)=\frac{n_2m_1}{N}=\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ \hat{E} \left(c\right)=\frac{n_1m_2}{N}=\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ \hat{E} \left(d\right)=\frac{n_2m_2}{N}=\frac{ \left(b+d\right) \left(c+d\right)}{N} \end{gather} 定義式に沿って、帰無仮説における検定統計量の値を算出すると、 \begin{gather} \chi_0^2=\frac{ \left[a-\hat{E} \left(a\right)\right]^2}{\hat{E} \left(a\right)}+\frac{ \left[b-\hat{E} \left(b\right)\right]^2}{\hat{E} \left(b\right)}+\frac{ \left[c-\hat{E} \left(c\right)\right]^2}{\hat{E} \left(c\right)}+\frac{ \left[d-\hat{E} \left(d\right)\right]^2}{\hat{E} \left(d\right)}\tag1 \end{gather} それぞれの項を計算すると、 \begin{align} a-\hat{E} \left(a\right)&=a-\frac{ \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{a \left(a+b+c+d\right)- \left(a+c\right) \left(a+b\right)}{N}\\ &=\frac{ad-bc}{N}\tag2 \end{align} \begin{align} b-\hat{E} \left(b\right)&=b-\frac{ \left(a+b\right) \left(b+d\right)}{N}\\ &=\frac{b \left(a+b+c+d\right)- \left(a+b\right) \left(b+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag3 \end{align} \begin{align} c-\hat{E} \left(c\right)&=c-\frac{ \left(a+c\right) \left(c+d\right)}{N}\\ &=\frac{c \left(a+b+c+d\right)- \left(a+c\right) \left(c+d\right)}{N}\\ &=-\frac{ad-bc}{N}\tag4 \end{align} \begin{align} d-\hat{E} \left(d\right)&=d-\frac{ \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{d \left(a+b+c+d\right)- \left(b+d\right) \left(c+d\right)}{N}\\ &=\frac{ad-bc}{N}\tag5 \end{align} 式 $(2)~(5)$ を式 $(1)$ に代入すると、 \begin{align} \chi_0^2&= \left(\frac{ad-bc}{N}\right)^2 \left\{\frac{N}{ \left(a+c\right) \left(a+b\right)}+\frac{N}{ \left(a+b\right) \left(b+d\right)}+\frac{N}{ \left(a+c\right) \left(c+d\right)}+\frac{N}{ \left(b+d\right) \left(c+d\right)}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(b+d\right) \left(c+d\right)+ \left(a+c\right) \left(c+d\right)+ \left(a+b\right) \left(b+d\right)+ \left(a+b\right) \left(a+c\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+c\right) \left(a+b+c+d\right)+ \left(b+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \left\{\frac{ \left(a+b+c+d\right) \left(a+b+c+d\right)}{n_1n_0m_1m_0}\right\}\\ &=\frac{ \left(ad-bc\right)^2}{N} \cdot \frac{N^2}{n_1n_0m_1m_0}\\ &=\frac{N \left(ad-bc\right)^2}{n_1n_0m_1m_0} \end{align} $\blacksquare$

参考文献

  • 小寺 平治 著. 数理統計:明解演習. 共立出版, 1986, p.113, p.178
  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.40-41
  • Pearson, K.. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine. 1900, 50, p.157-175.

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ