本稿には、2019年に実施された統計検定1級『医薬生物学』 問5の自作解答案を掲載しています。なお、閲覧にあたっては、以下の点にご注意ください。
- 著作権の関係上、問題文は、掲載することができません。申し訳ありませんが、閲覧者のみなさまでご用意いただければ幸いです。
- この答案は、あくまでも筆者が自作したものであり、公式なものではありません。正式な答案については、公式問題集をご参照ください。
- 計算ミスや誤字・脱字などがありましたら、コメントなどでご指摘いただければ大変助かります。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
〔1〕適合度検定
理論的な度数を反映すると、与えられた表は次のようになる。
血液型 | $O$型 | $A$型 | $B$型 | $AB$型 | 合計 |
---|---|---|---|---|---|
観測度数 | $24$ | $48$ | $16$ | $12$ | $100$ |
期待度数 | $30$ | $40$ | $20$ | $10$ | $100$ |
「得られたデータは、理論的な比率にもとづく分布から得られたものである」を帰無仮説として、検定統計量を求めると、
\begin{align}
\chi^2=\frac{ \left(24-30\right)^2}{30}+\frac{ \left(48-40\right)^2}{40}+\frac{ \left(16-20\right)^2}{20}+\frac{ \left(12-10\right)^2}{10}=4
\end{align}
帰無仮説のもとで、この検定統計量は、自由度 $n-k-1=4-0-1=3$ の $\chi^2$分布に従う。
これを、$\chi^2 \left(3\right)$ の上側5%点と比べると、
\begin{align}
\chi^2=4 \lt 7.81=\chi_{0.05}^2 \left(3\right)
\end{align}
したがって、有意水準5%で帰無仮説は棄却されず、「得られたデータは、理論的な比率にもとづく分布から得られたものでないとはいえない」と結論づける。
$\blacksquare$
〔2〕構成比が分かっているときに、有意になるために必要な観測度数
与えられた条件を反映すると、表は次のようになる。
血液型 | $O$型 | $A$型 | $B$型 | $AB$型 | 合計 |
---|---|---|---|---|---|
観測度数 | $6k$ | $12k$ | $4k$ | $3k$ | $25k$ |
期待度数 | $7.5k$ | $10k$ | $5k$ | $2.5k$ | $25k$ |
〔1〕と同様に検定統計量を求めると、 \begin{align} \chi^2&=\frac{ \left(6k-7.5k\right)^2}{7.5k}+\frac{ \left(12k-10k\right)^2}{10k}+\frac{ \left(4k-5k\right)^2}{5k}+\frac{ \left(3k-2.5k\right)^2}{2.5k}\\ &=\frac{{1.5}^2k^2}{7.5k}+\frac{4k^2}{10k}+\frac{k^2}{5k}+\frac{{0.5}^2k^2}{2.5k}\\ &=0.3k+0.4k+0.2k+0.1k\\ &=k \end{align} 〔1〕と同様に、有意水準5%で有意になるためには、$\chi_{0.05}^2 \left(3\right) \lt \chi^2$ となる必要があるので、 \begin{align} 7.81 \lt k \end{align} したがって、これを満たす最小の自然数は、 \begin{align} k=8 \end{align} $\blacksquare$
〔3〕検定統計量がカイ2乗分布に従う理由
一般に、観測値が $m$ 個のカテゴリーに分類され、全体 $n$ 個のうち、各カテゴリーが理論的に占める割合を \begin{gather} p_i \left(i=1,2, \cdots ,m\right)\\ \sum_{i=1}^{m}p_i=1 \end{gather} 各カテゴリーの観測度数を \begin{gather} X_i \left(i=1,2, \cdots ,m\right)\\ \sum_{i=1}^{m}X_i=n \end{gather} とすると、 $\boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\}$ と $X_i$ は、それぞれ多項分布と二項分布 \begin{gather} \boldsymbol{X} \sim \mathrm{MN} \left(n,p_1,p_2, \cdots ,p_m\right)\\ X_i \sim \mathrm{B} \left(n,p_i\right) \end{gather} に従う。 これらは、$n$ が大きいとき、中心極限定理により、 \begin{gather} \boldsymbol{X} \sim \mathrm{N_m} \left(n\boldsymbol{p},\boldsymbol{\Sigma}\right)\\ X_i \sim \mathrm{N} \left\{np_i,np_i \left(1-p_i\right)\right\} \end{gather} そして、$X_i$ を標準化した値とその2乗値は、 \begin{gather} Z=\frac{X_i-np_i}{\sqrt{np_i \left(1-p_i\right)}} \sim \mathrm{N} \left(0,1\right)\\ \chi^2=\frac{ \left(X_i-np_i\right)^2}{np_i \left(1-p_i\right)} \sim \chi^2 \left(1\right) \end{gather} 適合度検定の検定統計量は、この $\chi^2$値の和であるため、再生性により、$\chi^2$分布に従う。 $\blacksquare$
〔4〕ラグランジュの未定乗数法を用いた最尤推定
(i)問題文で与えられた式にそれぞれの値を代入すると、 \begin{multline} Q=2f_{OO}\log{r}+2f_{AA}\log{p}\\+f_{AO}\log{2pr}+2f_{BB}\log{q}+f_{BO}\log{2qr}\\+f_{AB}\log{2pq}-\lambda \left(r+p+q-1\right) \end{multline} \begin{multline} Q=2f_{OO}\log{r}+2f_{AA}\log{p}\\ +f_{AO} \left(\log{2}+\log{p}+\log{r}\right)+2f_{BB}\log{q}\\ +f_{BO} \left(\log{2}+\log{q}+\log{r}\right)\\ +f_{AB} \left(\log{2}+\log{p}+\log{q}\right)\\-\lambda \left(r+p+q-1\right) \end{multline} これを未知変数 $r,p,q$ でそれぞれ偏微分して0とおくと、 \begin{gather} \frac{\partial Q}{\partial r}=\frac{2f_{OO}}{r}+\frac{f_{AO}}{r}+\frac{f_{BO}}{r}-\lambda=0\\ \Rightarrow r\lambda=2f_{OO}+f_{AO}+f_{BO}\tag{1}\\ \frac{\partial Q}{\partial p}=\frac{2f_{AA}}{p}+\frac{f_{AO}}{p}+\frac{f_{AB}}{p}-\lambda=0\\ \Rightarrow p\lambda=2f_{AA}+f_{AO}+f_{AB}\tag{2}\\ \frac{\partial Q}{\partial q}=\frac{2f_{BB}}{q}+\frac{f_{BO}}{q}+\frac{f_{AB}}{q}-\lambda=0\\ \Rightarrow q\lambda=2f_{BB}+f_{BO}+f_{AB}\tag{3} \end{gather} 式 $ \left(1\right) \sim \left(3\right)$ の和を取ると、 \begin{align} \left(r+p+q\right)\lambda=2 \left(f_{OO}+f_{AA}+f_{AO}+f_{BB}+f_{BO}+f_{AB}\right) \end{align} 多項分布の仮定より、 \begin{gather} r+p+q=1\\ f_{OO}+f_{AA}+f_{AO}+f_{BB}+f_{BO}+f_{AB}=N \end{gather} したがって、 \begin{align} \lambda=2N \end{align} これを、式 $ \left(1\right) \sim \left(3\right)$ に再代入すると、各比率の最尤推定量は、 \begin{gather} \hat{r}=\frac{2f_{OO}+f_{AO}+f_{BO}}{2N}\\ \hat{p}=\frac{2f_{AA}+f_{AO}+f_{AB}}{2N}\\ \hat{q}=\frac{2f_{BB}+f_{BO}+f_{AB}}{2N} \end{gather} (ii)各遺伝子型の観測度数は、 \begin{gather} f_{AA} \sim \mathrm{B} \left(N,p^2\right)\\ f_{AO} \sim \mathrm{B} \left(N,2pr\right)\\ f_{BB} \sim \mathrm{B} \left(N,q^2\right)\\ f_{BO} \sim \mathrm{B} \left(N,2qr\right) \end{gather} よって、二項分布の期待値の公式より、 \begin{gather} E \left(f_{AA}\right)=Np^2\\ E \left(f_{AO}\right)=2Npr\\ E \left(f_{BB}\right)=Nq^2\\ E \left(f_{AO}\right)=2Nqr\\ \end{gather} $E \left(f_{AO}\right),E \left(f_{BO}\right)$ については、 \begin{gather} E \left(f_{AO}\right)=E \left(n_A-f_{AA}\right)=n_A-Np^2\\ E \left(f_{BO}\right)=E \left(n_B-f_{BB}\right)=n_B-Nq^2 \end{gather} でも得られると考えられる。 $\blacksquare$
0 件のコメント:
コメントを投稿