本稿では、適合度の検定の検定統計量の従う分布を導出しています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
データの形式
カテゴリー $A$ に属する人数を表す確率変数 $X$ が二項分布 \begin{gather} X \sim \mathrm{B} \left(n,p\right) \end{gather} に従い、 サンプルサイズが十分に大きく、中心極限定理が成り立ち、観測度数と理論比率・期待度数の関係が以下のような表にまとめられるとする。
カテゴリー$A$ | カテゴリー$A$以外 | 合計 | |
---|---|---|---|
観測度数 $X_i$ | $X$ | $n-X$ | $n$ |
理論比率 $p_i$ | $p$ | $1-p$ | $1$ |
期待度数 $e_i$ | $np$ | $n \left(1-p\right)$ | $n$ |
【定理】適合度の検定の検定統計量の従う分布
【定理】
適合度の検定の検定統計量の従う分布
The Distribution of Chi-Square Goodness of Fit Test Statistic
帰無仮説 「得られたデータは、理論的な分布から得られたものである」 を検定するための $\chi^2$検定統計量は \begin{align} \chi_0^2=\sum_{i=1}^{2}\frac{ \left(X_i-e_i\right)^2}{e_i} \end{align} で定義される。 この検定統計量は、自由度1の $\chi^2$分布に従う。
証明
定義に沿って、帰無仮説における検定統計量の値を算出すると、 \begin{align} \chi_0^2&=\frac{ \left(X-np_0\right)^2}{np_0}+\frac{ \left\{ \left(n-X\right)-n \left(1-p_0\right)\right\}^2}{n \left(1-p_0\right)}\\ &=\frac{ \left(X-np_0\right)^2}{np_0}+\frac{ \left(X-np_0\right)^2}{n \left(1-p_0\right)}\\ &= \left(X-np_0\right)^2 \left\{\frac{1}{np_0}+\frac{1}{n \left(1-p_0\right)}\right\}\\ &=\frac{ \left(X-np_0\right)^2}{np_0 \left(1-p_0\right)}\\ &= \left\{\frac{X-np_0}{\sqrt{np_0 \left(1-p_0\right)}}\right\}^2\tag{1} \end{align} いっぽう、中心極限定理(ド=モアブル・ラプラスの定理)より、帰無仮説において、漸近的に \begin{align} X \sim \mathrm{N} \left\{np_0,np_0 \left(1-p_0\right)\right\} \end{align} $X$ を標準化した値を \begin{align} Z=\frac{X-np_0}{\sqrt{np_0 \left(1-p_0\right)}} \end{align} とすると、 漸近的に \begin{align} Z \sim \mathrm{N} \left(0,1\right) \end{align} 標準化した値の2乗値を \begin{align} Z^2= \left\{\frac{X-np_0}{\sqrt{np_0 \left(1-p_0\right)}}\right\}^2\tag{1} \end{align} とすると、 式 $(1),(2)$ より、 \begin{align} \chi_0^2=Z^2 \end{align} よって、$\chi^2$分布の定義により、 \begin{align} \chi_0^2 \sim \chi^\boldsymbol{2} \left(1\right) \end{align} $\blacksquare$
参考文献
- 小寺 平治 著. 数理統計:明解演習. 共立出版, 1986, p.106
- 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.285-288
- 久保川 達也 著, 新井 仁之, 小林 俊行, 斎藤 毅, 吉田 朋広 編. 現代数理統計学の基礎. 共立出版, 2017, p.155-157
0 件のコメント:
コメントを投稿