統計検定 1級 2019年 医薬生物学 問5 多項分布の適合度検定

公開日: 更新日:

【2023年2月1週】 【A000】生物統計学 【D000】統計検定 過去問

この記事をシェアする
  • B!
サムネイル画像

本稿には、2019年に実施された統計検定1級『医薬生物学』 問5の自作解答案を掲載しています。なお、閲覧にあたっては、以下の点にご注意ください。

  • 著作権の関係上、問題文は、掲載することができません。申し訳ありませんが、閲覧者のみなさまでご用意いただければ幸いです。
  • この答案は、あくまでも筆者が自作したものであり、公式なものではありません。正式な答案については、公式問題集をご参照ください。
  • 計算ミスや誤字・脱字などがありましたら、コメントなどでご指摘いただければ大変助かります。
  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

〔1〕適合度検定

理論的な度数を反映すると、与えられた表は次のようになる。

表1 血液型分布①(観測度数と期待度数)
血液型 $O$型 $A$型 $B$型 $AB$型 合計
観測度数 $24$ $48$ $16$ $12$ $100$
期待度数 $30$ $40$ $20$ $10$ $100$

「得られたデータは、理論的な比率にもとづく分布から得られたものである」を帰無仮説として、検定統計量を求めると、 \begin{align} \chi^2=\frac{ \left(24-30\right)^2}{30}+\frac{ \left(48-40\right)^2}{40}+\frac{ \left(16-20\right)^2}{20}+\frac{ \left(12-10\right)^2}{10}=4 \end{align} 帰無仮説のもとで、この検定統計量は、自由度 $n-k-1=4-0-1=3$ の $\chi^2$分布に従う。
これを、$\chi^2 \left(3\right)$ の上側5%点と比べると、 \begin{align} \chi^2=4 \lt 7.81=\chi_{0.05}^2 \left(3\right) \end{align} したがって、有意水準5%で帰無仮説は棄却されず、「得られたデータは、理論的な比率にもとづく分布から得られたものでないとはいえない」と結論づける。 $\blacksquare$

〔2〕構成比が分かっているときに、有意になるために必要な観測度数

与えられた条件を反映すると、表は次のようになる。

表2 血液型分布②(観測度数と期待度数)
血液型 $O$型 $A$型 $B$型 $AB$型 合計
観測度数 $6k$ $12k$ $4k$ $3k$ $25k$
期待度数 $7.5k$ $10k$ $5k$ $2.5k$ $25k$

〔1〕と同様に検定統計量を求めると、 \begin{align} \chi^2&=\frac{ \left(6k-7.5k\right)^2}{7.5k}+\frac{ \left(12k-10k\right)^2}{10k}+\frac{ \left(4k-5k\right)^2}{5k}+\frac{ \left(3k-2.5k\right)^2}{2.5k}\\ &=\frac{{1.5}^2k^2}{7.5k}+\frac{4k^2}{10k}+\frac{k^2}{5k}+\frac{{0.5}^2k^2}{2.5k}\\ &=0.3k+0.4k+0.2k+0.1k\\ &=k \end{align} 〔1〕と同様に、有意水準5%で有意になるためには、$\chi_{0.05}^2 \left(3\right) \lt \chi^2$ となる必要があるので、 \begin{align} 7.81 \lt k \end{align} したがって、これを満たす最小の自然数は、 \begin{align} k=8 \end{align} $\blacksquare$

〔3〕検定統計量がカイ2乗分布に従う理由

一般に、観測値が $m$ 個のカテゴリーに分類され、全体 $n$ 個のうち、各カテゴリーが理論的に占める割合を \begin{gather} p_i \left(i=1,2, \cdots ,m\right)\\ \sum_{i=1}^{m}p_i=1 \end{gather} 各カテゴリーの観測度数を \begin{gather} X_i \left(i=1,2, \cdots ,m\right)\\ \sum_{i=1}^{m}X_i=n \end{gather} とすると、 $\boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\}$ と $X_i$ は、それぞれ多項分布と二項分布 \begin{gather} \boldsymbol{X} \sim \mathrm{MN} \left(n,p_1,p_2, \cdots ,p_m\right)\\ X_i \sim \mathrm{B} \left(n,p_i\right) \end{gather} に従う。 これらは、$n$ が大きいとき、中心極限定理により、 \begin{gather} \boldsymbol{X} \sim \mathrm{N_m} \left(n\boldsymbol{p},\boldsymbol{\Sigma}\right)\\ X_i \sim \mathrm{N} \left\{np_i,np_i \left(1-p_i\right)\right\} \end{gather} そして、$X_i$ を標準化した値とその2乗値は、 \begin{gather} Z=\frac{X_i-np_i}{\sqrt{np_i \left(1-p_i\right)}} \sim \mathrm{N} \left(0,1\right)\\ \chi^2=\frac{ \left(X_i-np_i\right)^2}{np_i \left(1-p_i\right)} \sim \chi^2 \left(1\right) \end{gather} 適合度検定の検定統計量は、この $\chi^2$値の和であるため、再生性により、$\chi^2$分布に従う。 $\blacksquare$

〔4〕ラグランジュの未定乗数法を用いた最尤推定

(i)問題文で与えられた式にそれぞれの値を代入すると、 \begin{multline} Q=2f_{OO}\log{r}+2f_{AA}\log{p}\\+f_{AO}\log{2pr}+2f_{BB}\log{q}+f_{BO}\log{2qr}\\+f_{AB}\log{2pq}-\lambda \left(r+p+q-1\right) \end{multline} \begin{multline} Q=2f_{OO}\log{r}+2f_{AA}\log{p}\\ +f_{AO} \left(\log{2}+\log{p}+\log{r}\right)+2f_{BB}\log{q}\\ +f_{BO} \left(\log{2}+\log{q}+\log{r}\right)\\ +f_{AB} \left(\log{2}+\log{p}+\log{q}\right)\\-\lambda \left(r+p+q-1\right) \end{multline} これを未知変数 $r,p,q$ でそれぞれ偏微分して0とおくと、 \begin{gather} \frac{\partial Q}{\partial r}=\frac{2f_{OO}}{r}+\frac{f_{AO}}{r}+\frac{f_{BO}}{r}-\lambda=0\\ \Rightarrow r\lambda=2f_{OO}+f_{AO}+f_{BO}\tag{1}\\ \frac{\partial Q}{\partial p}=\frac{2f_{AA}}{p}+\frac{f_{AO}}{p}+\frac{f_{AB}}{p}-\lambda=0\\ \Rightarrow p\lambda=2f_{AA}+f_{AO}+f_{AB}\tag{2}\\ \frac{\partial Q}{\partial q}=\frac{2f_{BB}}{q}+\frac{f_{BO}}{q}+\frac{f_{AB}}{q}-\lambda=0\\ \Rightarrow q\lambda=2f_{BB}+f_{BO}+f_{AB}\tag{3} \end{gather} 式 $ \left(1\right) \sim \left(3\right)$ の和を取ると、 \begin{align} \left(r+p+q\right)\lambda=2 \left(f_{OO}+f_{AA}+f_{AO}+f_{BB}+f_{BO}+f_{AB}\right) \end{align} 多項分布の仮定より、 \begin{gather} r+p+q=1\\ f_{OO}+f_{AA}+f_{AO}+f_{BB}+f_{BO}+f_{AB}=N \end{gather} したがって、 \begin{align} \lambda=2N \end{align} これを、式 $ \left(1\right) \sim \left(3\right)$ に再代入すると、各比率の最尤推定量は、 \begin{gather} \hat{r}=\frac{2f_{OO}+f_{AO}+f_{BO}}{2N}\\ \hat{p}=\frac{2f_{AA}+f_{AO}+f_{AB}}{2N}\\ \hat{q}=\frac{2f_{BB}+f_{BO}+f_{AB}}{2N} \end{gather} (ii)各遺伝子型の観測度数は、 \begin{gather} f_{AA} \sim \mathrm{B} \left(N,p^2\right)\\ f_{AO} \sim \mathrm{B} \left(N,2pr\right)\\ f_{BB} \sim \mathrm{B} \left(N,q^2\right)\\ f_{BO} \sim \mathrm{B} \left(N,2qr\right) \end{gather} よって、二項分布の期待値の公式より、 \begin{gather} E \left(f_{AA}\right)=Np^2\\ E \left(f_{AO}\right)=2Npr\\ E \left(f_{BB}\right)=Nq^2\\ E \left(f_{AO}\right)=2Nqr\\ \end{gather} $E \left(f_{AO}\right),E \left(f_{BO}\right)$ については、 \begin{gather} E \left(f_{AO}\right)=E \left(n_A-f_{AA}\right)=n_A-Np^2\\ E \left(f_{BO}\right)=E \left(n_B-f_{BB}\right)=n_B-Nq^2 \end{gather} でも得られると考えられる。 $\blacksquare$

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

QooQ