母数と統計量-あるノマドの知の旅路～数学・統計学への道

本稿では、数理統計学における母数と統計量の概念についてまとめています。経験分布関数、標本平均、標本不偏分散、順序統計量、標本範囲、標本中央値などの定義の紹介や標本平均の期待値と分散、標本分散の期待値と分散、順序統計量の分布、最大値・最小値の分布の紹介などが含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

無作為標本

確率変数 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} が互いに独立でそれぞれ同一の確率分布に従うとき、それらは、その確率分布をもつ母集団 population からの大きさ $n$ の無作為標本 random sample といい、その確率分布を母集団分布 population distribution という。

さらに、 \begin{gather} f \left(x\right) \end{gather} を（母集団）確率変数 $X$ の確率関数または確率密度関数とすると、 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} を確率関数または確率密度関数 $f \left(x\right)$ をもつ確率分布からの大きさ $n$ の無作為標本ということもある。この場合、無作為標本の結合確率関数、または結合確率密度関数は \begin{align} f \left(x_1,x_2, \cdots ,x_n\right)=f \left(x_1\right) \cdot f \left(x_2\right) \cdots f \left(x_n\right) \end{align} で与えられる。

たとえば、ある学校の生徒の身長の調査を考えてみる。確率変数 $X$ がこの学校の生徒の身長を表わすとすると、この学校の全生徒の身長の分布がこの $X$ の分布である。いま、その生徒の中から無作為に10人選ぶとし、 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_{10}\right\} \end{gather} をその10人の生徒の身長とすると、これらは互いに独立でそれぞれ同一の確率分布、すなわち $X$ の分布に従うので、これらは母集団確率変数 $X$ からの大きさ10の無作為標本と見なすことができる。

このとき、選ばれた10人の身長を実際に観測した値を \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} とすると、無作為標本 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} は確率変数であり、 \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} はその確率変数の取る値である。実際の社会調査などでは、この学校の全生徒の身長の集合を母集団、選ばれた10人の身長の組を標本という言い方をすることもあるが、数理統計では上で定義したように、確率変数をもとにして考えていく。

統計量

無作為標本 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} の関数を統計量 statistics という。また、統計量の確率分布を標本分布 sampling distributionという。

統計量は無作為標本を変数変換したものであり、統計量もまた確率変数である。

ある統計量が \begin{gather} T=r \left(X_1,X_2, \cdots ,X_n\right) \end{gather} で定義されているとし、無作為標本を \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} 実際の観測値を \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} とすると、 \begin{gather} t=r \left(X_1,X_2, \cdots ,X_n\right) \end{gather} は観測値が \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} のときの統計量の値である。確率変数である統計量とその統計量が実際に取る値の区別をはっきりさせていることが大切である。

統計量は無作為標本の関数であるから、その観測値、すなわちデータが与えられていれば、その標本からの統計量の値は計算できる。同じ母集団から違う無作為標本を取れば、その観測値は違ったものであり、その観測値から計算された統計量の値もまた違ったものになる.また別の無作為標本を取れば、その観測値から計算された統計量の値もまた違うものになる。つまリ、統計量の分布、標本分布である。

経験分布関数

大きさ $n$ の無作為標本 \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} について、 $m$ を \begin{align} X_i \le x \end{align} を満たすデータの個数として、 \begin{align} {\hat{F}}_n \left(x\right)=\frac{m}{n} \end{align} を 経験分布関数 empirical distribution function、または標本分布関数 sample distribution function という。

経験分布関数の従う分布

【定理】
経験分布関数の従う分布
The Distribution of Empirical Distribution Function

分布関数 $F \left(x\right)$ をもつ大きさ $n$ の無作為標本を \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} とし、 \begin{align} {\hat{F}}_n \left(x\right) \end{align} をその経験分布関数とすると、 \begin{align} n{\hat{F}}_n \left(x\right) \end{align} は、パラメータ $n$、成功確率 $F \left(x\right)$ の二項分布 \begin{align} \mathrm{B} \left\{n,F \left(x\right)\right\} \end{align} に従う。また、 \begin{gather} E \left[{\hat{F}}_n \left(x\right)\right]=F \left(x\right)\\ V \left[{\hat{F}}_n \left(x\right)\right]=\frac{F \left(x\right) \left\{1-F \left(x\right)\right\}}{n} \end{gather} となる。

証明

まず、次の指示関数 \begin{gather} I_i= \left\{\begin{matrix}1&X_i \le x\\0&x \lt X_i\\\end{matrix}\right.\\ i=1,2, \cdots ,n \end{gather} を定義すると、 \begin{align} P \left(I_i=1\right)=P \left(X_i \le x\right)=F \left(x\right) \end{align} $X_i$ は互いに独立なので、$I_i$ もまた独立であり、 \begin{align} \boldsymbol{I}= \left\{I_1,I_2, \cdots ,I_n\right\} \end{align} は成功確率 $F \left(x\right)$ のベルヌーイ試行である。したがって、二項分布の定義より、 \begin{align} n{\hat{F}}_n \left(x\right)=\sum_{i=1}^{n}I_i \end{align} は、パラメータ $n$、成功確率 $F \left(x\right)$ の二項分布 \begin{align} \mathrm{B} \left\{n,F \left(x\right)\right\} \end{align} に従う。また、二項分布の期待値と分散の公式より、 \begin{gather} E \left[n{\hat{F}}_n \left(x\right)\right]=nF \left(x\right)\\ V \left[n{\hat{F}}_n \left(x\right)\right]=nF \left(x\right) \left\{1-F \left(x\right)\right\} \end{gather} 期待値の性質と分散の性質 $E \left(aX\right)=aE \left(X\right),V \left(aX\right)=a^2V \left(X\right)$ より、 \begin{gather} E \left[{\hat{F}}_n \left(x\right)\right]=F \left(x\right)\\ V \left[{\hat{F}}_n \left(x\right)\right]=\frac{F \left(x\right) \left\{1-F \left(x\right)\right\}}{n} \end{gather} $\blacksquare$

標本モーメント

任意の母集団分布からの大きさ $n$ の無作為標本 \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} の統計量のうち、 \begin{align} M_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k \end{align} を $k$ 次標本モーメント k-th sample moment という。

標本平均

特に、$k=1$ の場合、 \begin{align} \bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i \end{align} を標本平均 sample mean という。また、 \begin{align} \frac{1}{n}\sum_{i=1}^{n} \left(X_i-\bar{X}\right)^k \end{align} を標本平均まわりの $k$ 次標本モーメントという。

標本不偏分散

特に、$k=2$ の場合、 \begin{align} S^2=\frac{1}{n}\sum_{i=1}^{n} \left(X_i-\bar{X}\right)^2 \end{align} を標本分散sample variance といい、 \begin{align} s^2=\frac{1}{n-1}\sum_{i=1}^{n} \left(X_i-\bar{X}\right)^2 \end{align} を標本不偏分散 sample unbiased variance という。標本分散（または標本不偏分散）の正の平方根 \begin{align} S=\sqrt{S^2} \quad s=\sqrt{s^2} \end{align} を標本標準偏差 sample standard deviationという。

標本平均の期待値と分散

【定理】
標本平均の期待値と分散
Expected Value and Variance of Sample Mean

平均と分散がそれぞれ $\mu$ と $\sigma^2$ である任意の母集団分布 $\mathrm{P} \left(\mu,\sigma^2\right)$ からの大きさ $n$ の無作為標本 \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} についての標本平均の期待値と分散はそれぞれ、 \begin{gather} E \left(\bar{X}\right)=\mu\\ V \left(\bar{X}\right)=\frac{\sigma^2}{n} \end{gather} で与えられる。

標本分散の期待値と分散

【命題】
標本分散の期待値と分散
Expected Value and Variance of Sample Variance

平均と分散がそれぞれ $\mu$ と $\sigma^2$ である任意の母集団分布 $\mathrm{P} \left(\mu,\sigma^2\right)$ からの大きさ $n$ の無作為標本 \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} についての標本分散と標本不偏分散の期待値と分散は、 \begin{align} \mu_4=E \left[ \left(X-\mu\right)^4\right] \end{align} として、（I）標本分散 \begin{gather} E \left(S^2\right)=\frac{n-1}{n}\sigma^2\\ V \left(S^2\right)=\frac{ \left(n-1\right)^2}{n^3} \left(\mu_4-\frac{n-3}{n-1}\sigma^4\right) \end{gather} （II）標本不偏分散 \begin{gather} E \left(s^2\right)=\sigma^2\\ V \left(s^2\right)=\frac{1}{n} \left(\mu_4-\frac{n-3}{n-1}\sigma^4\right) \end{gather} で与えられる。

順序統計量

任意の母集団分布からの大きさ $n$ の無作為標本 \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} を値の小さい順に並べたものを順序統計量 order statisticsといい、 \begin{align} X_{ \left(1\right)} \le X_{ \left(2\right)} \le \cdots \le X_{ \left(n\right)} \end{align} と書く。

極値統計量

特に、1 番目の統計量 \begin{align} X_{ \left(1\right)} \end{align} を標本最小値 sample minimum $n$ 番目の統計量 \begin{align} X_{ \left(n\right)} \end{align} を標本最大値 sample maximum といい、これらを合わせて極値統計量 extreme value statistics という。

標本範囲

観測値が存在している領域の幅 \begin{align} R_n=X_{ \left(n\right)}-X_{ \left(1\right)} \end{align} を標本範囲 Sample Rangeという。

標本中央値

観測値の中央の値
\begin{gather} Me \left(X\right)= \left\{\begin{matrix}\ \frac{X_{ \left(m\right)}+X_{ \left(m+1\right)}}{2}&n=2m\\\ X_{ \left(m\right)}&n=2m+1\\\end{matrix}\right. \end{gather} を標本中央値 sample median という。

標本中点

サンプルサイズが偶数・奇数いずれであっても、 \begin{align} \frac{X_{ \left(m\right)}+X_{ \left(m+1\right)}}{2} \end{align} を標本中点 sample midrange という。

順序統計量の分布

【定理】
順序統計量の分布
Distribution of Order Statistics

累積分布関数 $F \left(x\right)$ をもつ任意の母集団分布（離散型・連続型いずれでもよい）からの無作為標本 \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} の $i$ 番目の順序統計量 \begin{align} X_{ \left(i\right)} \end{align} の累積分布関数 $F_i \left(x\right)$ は、 \begin{align} F_i \left(x\right)=\sum_{k=i}^{n}{{}_{n}C_k \left\{F \left(x\right)\right\}^k \left\{1-F \left(x\right)\right\}^{n-k}} \end{align} で与えられる。また、$\boldsymbol{X}$ が連続型確率変数であり、確率密度関数 $f \left(x\right)$ をもつとき、$X_{ \left(i\right)}$ の確率密度関数は、 \begin{align} f_i \left(x\right)=\frac{n!}{ \left(i-1\right)! \left(n-i\right)!} \left\{F \left(x\right)\right\}^{i-1} \cdot \left\{1-F \left(x\right)\right\}^{n-i} \cdot f \left(x\right) \end{align} で与えられる。

最大値・最小値の分布

【定理】
最大値・最小値の分布
Distribution of the Maximum and the Minimum

累積分布関数 $F \left(x\right)$ をもつ任意の確率分布（離散型・連続型いずれでもよい）からの無作為標本 \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} について、（i）最大値 $X_{ \left(n\right)}$ の累積分布関数は、 \begin{gather} F_{ \left(n\right)} \left(x\right)= \left\{F \left(x\right)\right\}^n \end{gather} また、連続型確率変数で確率密度関数 $f \left(x\right)$ をもつ場合、$X_{ \left(n\right)}$ の確率密度関数は、 \begin{gather} f_{ \left(n\right)} \left(x\right)=nf \left(x\right) \left\{F \left(x\right)\right\}^{n-1} \end{gather} で与えられる。（ii）最小値 $X_{ \left(1\right)}$ の累積分布関数は、 \begin{gather} F_{ \left(1\right)} \left(x\right)=1- \left\{1-F \left(x\right)\right\}^n \end{gather} また、連続型確率変数で確率密度関数 $f \left(x\right)$ をもつ場合、$X_{ \left(1\right)}$ の確率密度関数は、 \begin{gather} f_{ \left(1\right)} \left(x\right)=nf \left(x\right) \left\{1-F \left(x\right)\right\}^{n-1} \end{gather} で与えられる。

参考文献

野田一雄, 宮岡悦良著. 入門・演習数理統計. 共立出版, 1990, p.163-175
竹村彰通著. 現代数理統計学. 創文社, 1991, p.61-65, p.80-83
東京大学教養学部統計学教室編. 基礎統計学 1 統計学入門. 東京大学出版会, 1991, p.175-189
久保川達也著, 新井仁之, 小林俊行, 斎藤毅, 吉田朋広編. 現代数理統計学の基礎. 共立出版, 2017, p.84-86

母数と統計量

無作為標本

統計量

経験分布関数

経験分布関数の従う分布

証明

標本モーメント

標本平均

標本不偏分散

標本平均の期待値と分散

標本分散の期待値と分散

順序統計量

極値統計量

標本範囲

標本中央値

標本中点

順序統計量の分布

最大値・最小値の分布

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログアーカイブ

ラベル

不正行為を報告

よく読まれている記事

母数と統計量

無作為標本

統計量

経験分布関数

経験分布関数の従う分布

証明

標本モーメント

標本平均

標本不偏分散

標本平均の期待値と分散

標本分散の期待値と分散

順序統計量

極値統計量

標本範囲

標本中央値

標本中点

順序統計量の分布

最大値・最小値の分布

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログ アーカイブ

ラベル

不正行為を報告

よく読まれている記事

ブログアーカイブ