本稿には、2016年に実施された統計検定1級『医薬生物学』 問1の自作解答案を掲載しています。なお、閲覧にあたっては、以下の点にご注意ください。
- 著作権の関係上、問題文は、掲載することができません。申し訳ありませんが、閲覧者のみなさまでご用意いただければ幸いです。
- この答案は、あくまでも筆者が自作したものであり、公式なものではありません。正式な答案については、公式問題集をご参照ください。
- 計算ミスや誤字・脱字などがありましたら、コメントなどでご指摘いただければ大変助かります。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
〔1〕対応のあるt検定
本問の場合、治療前後の測定値の差 $Z_i$ が互いに独立に正規分布
\begin{align}
Z \sim \mathrm{N} \left(\mu_Z,\sigma_Z^2\right)
\end{align}
に従うという仮定の下、
帰無仮説は、「前後差の平均値が $0$ である」
対立仮説は、「前後差の平均値が $0$ でない」
\begin{align}
\begin{matrix}H_0:\mu_Z=0&\mathrm{v.s.}&H_1:\mu_Z \neq 0\\\end{matrix}
\end{align}
観測値の前後差の標本平均と標本標準偏差を $\bar{Z},s_z$ として、検定統計量を
\begin{align}
t_0=\frac{\sqrt n\bar{Z}}{s_z}
\end{align}
として、
以下の棄却域と検定関数 $\varphi \left(\theta;\boldsymbol{z}\right)$ をもつ検定が、有意水準を $\alpha$ とする対応のある $\mathrm{t}$検定である。
\begin{align}
\varphi \left(\theta;\boldsymbol{z}\right)= \left\{\begin{matrix}-t_{0.5\alpha} \left(n-1\right) \le t_0 \le t_{0.5\alpha} \left(n-1\right)&\mathrm{0:Hold\ }H_0\\t_0 \le -t_{0.5\alpha} \left(n-1\right) \quad \mathrm{or} \quad t_{0.5\alpha} \left(n-1\right) \le t_0&\mathrm{1:Reject\ }H_0\\\end{matrix}\right.
\end{align}
検定統計量を求めると、
\begin{align}
t_0=\frac{\sqrt7 \cdot 1.73}{2.01}=2.277
\end{align}
$t_{0.025} \left(6\right)=2.447$ より、
\begin{align}
t_0 \lt t_{0.025} \left(6\right)
\end{align}
したがって、有意水準を5%で帰無仮説は棄却されない。
$\blacksquare$
〔2〕符号検定と符号付き順位検定の帰無仮説と必要な仮定
まず、検定する仮説について、どちらも
帰無仮説は、「前後差 $z$ の分布の中央値が $0$ である」
対立仮説は、「前後差 $z$ の分布の中央値が $0$ でない」
\begin{align}
\begin{matrix}H_0:\theta_Z=0&\mathrm{v.s.}&H_1:\theta_Z \neq 0\\\end{matrix}
\end{align}
となる。
次に必要な仮定について、どちらも、
前後差の観測値が互いに独立である
という仮定が必要である。
くわえて、母集団分布の形状について、符号検定を適用する場合は、母集団に関して必要な仮定は特にないが、符号付き順位検定を適用する場合は、
必ずしも正規分布でなくともよいが、中央値を中心として左右対称である
という仮定が必要である。
$\blacksquare$
〔3〕符号検定の検定統計量の期待値と分散
中央値の定義より、帰無仮説のもとで、前後差 $z$ の符号が正である確率は、 \begin{align} p=\frac{1}{2} \end{align} 総患者数を $n$ とするとき、符号が正であるものの数 $T$ は、 \begin{align} T \sim \mathrm{B} \left(n,\frac{1}{2}\right) \end{align} 二項分布の期待値と分散の公式より、 \begin{align} E \left(T\middle| H_0\right)=\frac{n}{2} \quad V \left(T\middle| H_0\right)=\frac{n}{4} \end{align} $\blacksquare$
〔4〕符号検定におけるexactな両側P値の算出
有意確率を直接的に求める場合、実際に観測された状況以上に極端な状況になる確率を求めるので、本問の場合は、 \begin{align} P \left(6 \le T\right) \end{align} を求めればよい。 二項分布の確率関数を用いて、この確率を求めると、 \begin{gather} P \left(T=6\right)={}_{7}C_6 \left(\frac{1}{2}\right)^6\frac{1}{2}=7 \cdot \frac{1}{128}=\frac{7}{128}\\ P \left(T=7\right)={}_{7}C_7 \left(\frac{1}{2}\right)^7=\frac{1}{128} \end{gather} したがって、 \begin{align} p&=\frac{7}{128}+\frac{1}{128}\\ &=\frac{1}{16} \end{align} 両側検定の場合は、この値を2倍して \begin{align} p=\frac{1}{16}\times2=0.125 \end{align} $\blacksquare$
〔5〕符号付き順位検定
$z_i$ が正の値を取るか否かを以下のようなベルヌーイ試行と考え、
\begin{gather}
\delta_i= \left\{\begin{matrix}0&z_i \lt 0\\1&0 \lt z_i\\\end{matrix}\right.\\
P \left(\delta_i=0\right)=P \left(\delta_i=1\right)=\frac{1}{2}
\end{gather}
$i$ を $z_i$ の絶対値の順位とすると、検定統計量を以下のように定義することもできる。
\begin{gather}
R_i=i \cdot \delta_i\\
W^+=\sum_{i=1}^{n}R_i
\end{gather}
(i)期待値
確率変数 $R_i$ について、期待値の定義式 $E \left(X\right)=\sum_{x=-\infty}^{\infty}{x \cdot f \left(x\right)}$ より、
\begin{align}
E \left(R_i\right)&=i \left\{0 \cdot P \left(\delta_i=0\right)+1 \cdot P \left(\delta_i=1\right)\right\}\\
&=\frac{i}{2}
\end{align}
検定統計量 $W^+$ の期待値は、期待値の性質 $E \left(\sum_{i=1}^{n}X_i\right)=\sum_{i=1}^{n}E \left(X_i\right)$ より、
\begin{align}
E \left(W^+\middle| H_0\right)&=\sum_{i=1}^{n}E \left(R_i\right)\\
&=\frac{1}{2}\sum_{i=1}^{n}i
\end{align}
自然数の和の公式 $\sum_{k=1}^{n}k=\frac{n \left(n+1\right)}{2}$ より、
\begin{align}
E \left(W^+\middle| H_0\right)&=\frac{1}{2} \cdot \frac{n \left(n+1\right)}{2}\\
&=\frac{n \left(n+1\right)}{4}
\end{align}
(ii)分散
2乗の期待値の定義式 $E \left(X\right)=\sum_{x=-\infty}^{\infty}{x^2 \cdot f \left(x\right)}$ より、
\begin{align}
E \left(R_i^2\right)&=i \left\{0^2 \cdot P \left(\delta_i=0\right)+1^2 \cdot P \left(\delta_i=1\right)\right\}\\
&=\frac{i^2}{2}
\end{align}
分散の公式 $V \left(R_i\right)=E \left(R_i^2\right)- \left\{E \left(R_i\right)\right\}^2$ より、
\begin{align}
V \left(R_i\right)&=\frac{i^2}{2}-\frac{i^2}{4}\\
&=\frac{i^2}{4}
\end{align}
確率変数が互いに独立なとき、分散の性質 $V \left(\sum_{i=1}^{n}X_i\right)=\sum_{i=1}^{n}V \left(X_i\right)$ より、
\begin{align}
V \left(W^+\middle| H_0\right)&=\sum_{i=1}^{n}\frac{i^2}{4}\\
&=\frac{1}{4}\sum_{i=1}^{n}i^2
\end{align}
自然数の2乗和の公式 $\sum_{k=1}^{n}k^2=\frac{n \left(n+1\right) \left(2n+1\right)}{6}$ より、
\begin{align}
V \left(W^+\middle| H_0\right)&=\frac{1}{4} \cdot \frac{n \left(n+1\right) \left(2n+1\right)}{6}\\
&=\frac{n \left(n+1\right) \left(2n+1\right)}{24}
\end{align}
この検定統計量は、帰無仮説のもとで漸近的に、
\begin{align}
W^+ \sim \mathrm{N} \left\{E \left(W^+\middle| H_0\right),V \left(W^+\middle| H_0\right)\right\}
\end{align}
これを標準化した値を
\begin{align}
X=\frac{W^+-E \left(W^+\middle| H_0\right)}{\sqrt{V \left(W^+\middle| H_0\right)}}
\end{align}
とすると、
\begin{align}
X \sim \mathrm{N} \left(0,1\right)
\end{align}
それぞれの値を求めると、
\begin{gather}
E \left(W^+\middle| H_0\right)=\frac{n \left(n+1\right)}{4}=\frac{7 \cdot 8}{4}=14\\
V \left(W^+\middle| H_0\right)=\frac{n \left(n+1\right) \left(2n+1\right)}{24}=\frac{7 \cdot 8 \cdot 15}{24}=35\\
W^+=2+3+4+5+6+7=27\\
X=\frac{27-14}{\sqrt{35}}=2.197
\end{gather}
これを標準正規分布の上側2.5%点と比較すると、
\begin{align}
z_{0.025}=1.96 \lt X
\end{align}
したがって、有意水準を5%で帰無仮説は棄却される。この結論は、〔1〕と異なるが、本問ではサンプルサイズが小さく、患者ID2の差が他のデータと比べ高く、平均値にもとづく対応のある $\mathrm{t}$検定は、ノンパラメトリック法である符号付き順位検定より、外れ値の影響を受けたと考えられる。
$\blacksquare$
0 件のコメント:
コメントを投稿