本稿には、2014年に実施された統計検定1級『統計数理』 問5の自作解答案を掲載しています。なお、閲覧にあたっては、以下の点にご注意ください。
- 著作権の関係上、問題文は、掲載することができません。申し訳ありませんが、閲覧者のみなさまでご用意いただければ幸いです。
- この答案は、あくまでも筆者が自作したものであり、公式なものではありません。正式な答案については、公式問題集をご参照ください。
- 計算ミスや誤字・脱字などがありましたら、コメントなどでご指摘いただければ大変助かります。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
〔1〕多項分布の最尤推定:成功確率が一定の場合
多項分布の同時確率関数(尤度関数)は、 \begin{align} f \left(\boldsymbol{n}\right)=L \left(\boldsymbol{q}\right)=\frac{n!}{n_0!n_1!n_2!n_3!n_4!}q_0^{n_0}q_1^{n_1}q_2^{n_2}q_3^{n_3}q_4^{n_4} \end{align} 対数尤度関数 $l \left(\theta\right)=\log{L \left(\theta\right)}$ を求めると、 \begin{align} l \left(\boldsymbol{q}\right)&=\log{ \left(\frac{n!}{n_0! \cdots n_4!}\prod_{i=0}^{4}q_i^{n_i}\right)}\\ &=\log{\frac{n!}{n_0! \cdots n_4!}}+\sum_{i=0}^{4}{n_i\log{q_i}}\\ \end{align} モデル(1)の仮定より、 \begin{align} l \left(\boldsymbol{q}\right)&=\log{\frac{n!}{n_0! \cdots n_4!}}+\sum_{i=0}^{4}{n_i\log{ \left\{{}_{4}C_i \cdot p^i \left(1-p\right)^{4-i}\right\}}}\\ &=\log{\frac{n!}{n_0! \cdots n_4!}}+\sum_{i=0}^{4}{n_i \left\{i\log{p}+ \left(4-i\right)\log{ \left(1-p\right)}+\log{{}_{4}C_i}\right\}} \end{align} スコア関数 $S \left(\theta\right)=\frac{d}{d\theta}\log{L \left(\theta\right)}$ を求めると、 \begin{align} S \left(p\right)&=\sum_{i=0}^{4}{n_i \left(\frac{i}{p}-\frac{4-i}{1-p}\right)}\\ &=\frac{\sum_{i=0}^{4}{i \cdot n_i}}{p}-\frac{\sum_{i=0}^{4}{ \left(4-i\right) \cdot n_i}}{1-p} \end{align} 尤度方程式 $S \left(\theta\right)=0$ を解くと、 \begin{gather} 0=\frac{\sum_{i=0}^{4}{i \cdot n_i}}{\hat{p}}-\frac{\sum_{i=0}^{4}{ \left(4-i\right) \cdot n_i}}{1-\hat{p}}\\ \left(1-\hat{p}\right)\sum_{i=0}^{4}{i \cdot n_i}-\hat{p}\sum_{i=0}^{4}{ \left(4-i\right) \cdot n_i}=0\\ \sum_{i=0}^{4}{i \cdot n_i}-\hat{p}\sum_{i=0}^{4}{i \cdot n_i}-4\hat{p}\sum_{i=0}^{4}n_i+\hat{p}\sum_{i=0}^{4}{i \cdot n_i}=0\\ \sum_{i=0}^{4}{i \cdot n_i}-4\hat{p}\sum_{i=0}^{4}n_i=0\\ \hat{p}=\frac{1}{4\sum_{i=0}^{4}n_i}\sum_{i=0}^{4}{i \cdot n_i} \end{gather} 多項分布の仮定 $\sum_{i=0}^{4}n_i=n$ より、 \begin{align} \hat{p}=\frac{1}{4n}\sum_{i=0}^{4}{i \cdot n_i} \end{align} $\blacksquare$
〔2〕適合度検定統計量
モデル(1)の下での各カテゴリーの期待度数は、 \begin{align} E \left(N_i\right)=nq_i \end{align} 適合度検定の検定統計量の定義より、 \begin{align} \chi^2=\sum_{i=0}^{4}\frac{ \left(nq_i-n_i\right)^2}{nq_i} \end{align} モデル(1)の下で、カテゴリー数は $m=5$ だが、制約条件 $\sum_{i=0}^{4}q_i=1$ により、自由に値を取れるパラメータは $5-1=4$ 個。さらに、推定すべきパラメータ数が $k=1$ 個($p$)なので、自由度は、 \begin{align} \mathrm{df}=5-1-1=3 \end{align} したがって、 \begin{align} \chi^2 \sim \chi^2 \left(3\right) \end{align} $\blacksquare$
〔3〕尤度比検定統計量
モデル(1)がデータに適合するという帰無仮説は、
\begin{align}
H_0:q_i={}_{4}C_i \cdot p^i \left(1-p\right)^{4-i}
\end{align}
帰無仮説の最大尤度は、
\begin{gather}
L_0 \left(\boldsymbol{q}\right)=\frac{n!}{n_0! \cdots n_4!}\prod_{i=0}^{4}{\hat{q}}_i^{n_i}\\
{\hat{q}}_i={}_{4}C_i \cdot {\hat{p}}^i \left(1-\hat{p}\right)^{4-i}
\end{gather}
いっぽう、モデル(1)がデータに適合しないという対立仮説における、パラメータの最尤推定量は、
\begin{align}
{\hat{q}}_i=\frac{n_i}{n}
\end{align}
対立仮説の最大尤度は、
\begin{gather}
L_1 \left(\boldsymbol{q}\right)=\frac{n!}{n_0! \cdots n_4!}\prod_{i=0}^{4} \left(\frac{n_i}{n}\right)^{n_i}\\
\end{gather}
したがって、尤度比は、
\begin{align}
\lambda&=\frac{L_0 \left(\boldsymbol{q}\right)}{L_1 \left(\boldsymbol{q}\right)}\\
&=\frac{\frac{n!}{n_0! \cdots n_4!}\prod_{i=0}^{4}{\hat{q}}_i^{n_i}}{\frac{n!}{n_0! \cdots n_4!}\prod_{i=0}^{4} \left(\frac{n_i}{n}\right)^{n_i}}\\
&=\prod_{i=0}^{4} \left(\frac{n{\hat{q}}_i}{n_i}\right)^{n_i}
\end{align}
よって、求める検定統計量 $\Lambda=-2\log{\lambda}$ は、
\begin{align}
\Lambda=2\sum_{i=0}^{4}{n_i\log{\frac{n_i}{n{\hat{q}}_i}}}
\end{align}
$q_i$ は $p$ で決まることから、
帰無仮説の下で自由に値を取れるパラメータは $s=1$ 個
対立仮説の下で自由に値を取れるパラメータは $r=5-1=4$ 個
よって、検定統計量の自由度は、
\begin{align}
\mathrm{df}=r-s=4-1=3
\end{align}
したがって、帰無仮説の下で、$\Lambda$ は、漸近的に
\begin{align}
\Lambda \sim \chi^2 \left(3\right)
\end{align}
$\blacksquare$
〔4〕適合度検定の手順
本問の場合、適合度の $\chi^2$ 検定統計量、あるいは、尤度比検定統計量が近似的に自由度3の $\chi^2$分布に従うことを利用して、以下の手順で検定を行う。
Step.01
有意水準 $\alpha$ を定め、自由度3の $\chi^2$分布の上側 $100\alpha\%$ 点 $\chi_\alpha^2 \left(3\right)$ を求める。
Step.02
検定統計量と棄却点を比較し、
$\chi^2 \lt \chi_\alpha^2 \left(3\right)$ あるいは $\Lambda \lt \chi_\alpha^2 \left(3\right)$
となれば、帰無仮説を棄却せず、
モデルが適合しないとはいえない
と判断し、
各番組に対して満足する確率はすべて一定値 $p$ ではないとはいえない
と結論づける。
Step.03
いっぽう、
$\chi_\alpha^2 \left(3\right) \lt \chi^2$ あるいは $\chi_\alpha^2 \left(3\right) \lt \Lambda$
となれば、帰無仮説を棄却し、
モデルは適合しない
と判断し、
各番組に対して満足する確率はすべて一定値 $p$ ではなく、
毎回違った確率である
と結論づける。
$\blacksquare$
0 件のコメント:
コメントを投稿