推定量の評価-あるノマドの知の旅路～数学・統計学への道

本稿では、数理統計学における推定量の評価についてまとめています。平均二乗誤差、不偏性、一致性、損失関数・危険関数、ミニマックス推定量、有効推定量、不偏推定量の漸近効率などの定義の紹介、ラオ・ブラックウェルの定理、レーマン・シェフェの定理、クラメール・ラオの不等式の内容の紹介が含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

平均二乗誤差

\begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} を統計モデル \begin{gather} \mathcal{F}= \left\{P_\theta:\theta\in\Theta\subset\boldsymbol{R}\right\} \end{gather} からの無作為標本とする。

推定量 $T \left(\boldsymbol{X}\right)$ を使ってパラメータ $\theta$ の値を推定するとき、推定量の値と実際のパラメータの値が近ければよいわけだが、$T \left(\boldsymbol{X}\right)$ は確率変数なので、どの値をとるかは前もって知ることはできないので、近さを計るのに \begin{gather} \left|T \left(\boldsymbol{X}\right)-\theta\right| \end{gather} のような距離を直接使うことはできない。

推定量とパラメータの距離を計るものに平均二乗誤差 mean squared error: M.S.E. がある。パラメータ $\theta$ の推定量 $T \left(\boldsymbol{X}\right)$ の平均二乗誤差は \begin{gather} \mathrm{MSE} \left\{T \left(\boldsymbol{X}\right),\theta\right\}=E \left[ \left\{T \left(\boldsymbol{X}\right)-\theta\right\}^2\right] \end{gather} で定義される。

$T=T \left(\boldsymbol{X}\right)$ とすると、 \begin{align} \mathrm{MSE} \left\{T \left(\boldsymbol{X}\right),\theta\right\}&=E \left[ \left\{T-E \left(T\right)+E \left(T\right)-\theta\right\}^2\right]\\ &=E \left[ \left\{T-E \left(T\right)\right\}^2\right]+ \left\{E \left(T\right)-\theta\right\}^2\\ &=V \left(T\right)+ \left\{E \left(T\right)-\theta\right\}^2 \end{align} すなわち、平均二乗誤差は推定量の分散と期待値により決まる。

特に、 \begin{gather} E \left(T\right)-\theta \end{gather} を偏り bias と呼ぶ。

偏りは、推定量の分布の中心（平均）が、推定されているパラメータとどのくらい、どの方向へ離れているのかを示している。そして、分散$V \left(T\right)$ は、推定量の分布がその中心のまわりにどのくらいの散らばり方をしているかを示している。このとき、推定量の分散を特に精度 precision と呼ぶことがある。

平均二乗誤差を使っていくつかの推定量を比べるとき、ある推定量 $T$ が、ほかのどの推定量 $T^\prime$ よりも“良い推定量”であるということは、すべての $\theta\in\Theta$ について、 \begin{gather} \mathrm{MSE} \left(T,\theta\right) \le \mathrm{MSE} \left(T^\prime,\theta\right) \end{gather} が成り立ち、ある $\theta$ でこの不等号が成り立つということである。

一般には、このような一様最良推定量は存在しない。なぜならば、あるパラメータ $\theta_0$ に対し、推定量 $S \left(\boldsymbol{X}\right)$ を \begin{gather} S \left(\boldsymbol{X}\right)=\theta_0 \end{gather} すなわち、常に推定値が $\theta_0$ であるような推定量とすると、 \begin{gather} \mathrm{MSE} \left(S,\theta_0\right)=0 \end{gather} であるので、推定量 $T$ がこれよりもよい推定量であるためには、 \begin{gather} \mathrm{MSE} \left(T,\theta_0\right)=0 \end{gather} とならなくてはならない。他の $\theta$ の値でも同様の推定量を考えていくと、一様に最良な推定量 $T$ は、すべての $\theta$ で、 \begin{gather} \mathrm{MSE} \left(T,\theta\right)=0 \end{gather} とならなければならない。つまり、パラメータを常に完全に正しく推定しなければならない。これは、一般には不可能である。そこで、すべての推定量の中で最良のものを探すかわりに、推定量の中である適当な性質をもったものの中で最良なものを探すのである。次に推定量の性質をいくつか述べる。

点推定量の評価

不偏性

推定量 $\hat{\theta}$ の期待値 $E \left(\hat{\theta}\right)$ が真の母数の値 $\theta$ となる、すなわち、すべての $\theta$ に対して、 \begin{align} E \left(\hat{\theta}\right)=\theta \end{align} となるとき、 $\hat{\theta}$ は $\theta$ の推定量として不偏、または、不偏推定量 unbiased estimator であるという。

不偏推定量では、その名のとおり偏りは \begin{gather} E \left(T\right)-\theta=0 \end{gather} であり、その平均二乗誤差は推定量の分散に等しい。

一致性

次に標本の大きさが増加していくときについての性質を考えてみる。 \begin{gather} T_n=T_n \left(X_1,X_2, \cdots ,X_n\right) \end{gather} を大きさが $n$ の標本からの推定量とする。つまり、 \begin{gather} T_1=T_1 \left(X_1\right) \quad T_2=T_2 \left(X_1,X_2\right) \quad T_3=T_3 \left(X_1,X_2,X_3\right)\\ \vdots\\ T_n=T_n \left(X_1,X_2, \cdots ,X_n\right) \end{gather} というような推定量の列を考えていくのである。

標本の大きさ $n$ が大きくなるに従い、${\hat{\theta}}_n$ が、真の母数の値 $\theta$ に確率収束する、すなわち、任意の正の数 $0 \lt \varepsilon$ に対して、 \begin{align} \lim_{n\rightarrow\infty}{P \left( \left|{\hat{\theta}}_n-\theta\right| \geq \varepsilon\right)}=0 \end{align} となるとき、 ${\hat{\theta}}_n$ は、$\theta$ の一致推定量 consistent estimator という。

【定理】
一致推定量であるための条件
Necessary and Sufficient Conditions for Consistency

$ \left\{T_n\right\}$ を母数 $\theta$ の推定量の列とし、すべての $\theta\in\Theta$ で、以下のいずれかを満たせば、$T_n$ は $\theta$ の一致推定量である。

（i）平均二乗誤差が0に収束する \begin{align} \lim_{n\rightarrow\infty}{\mathrm{MSE} \left(T_n,\theta\right)}=\lim_{n\rightarrow\infty}{E \left[ \left(T_n-\theta\right)^2\right]}\rightarrow0 \end{align} （ii）偏りと分散が0に収束する \begin{align} \begin{matrix}\displaystyle\lim_{n\rightarrow\infty}{ \left[E \left(T_n\right)-\theta\right]}\rightarrow0&\displaystyle\lim_{n\rightarrow\infty}{V \left(T_n\right)}\rightarrow0\\\end{matrix} \end{align} （iii）$ \left\{T_n\right\}$ が不偏推定量の列であり、分散が0に収束する \begin{align} \begin{matrix}E \left(T_n\right)=\theta&\displaystyle\lim_{n\rightarrow\infty}{V \left(T_n\right)}\rightarrow0\\\end{matrix} \end{align}

証明

（i）チェビシェフの不等式より、 \begin{align} \lim_{n\rightarrow\infty}{P \left( \left|T_n-\theta\right| \geq \varepsilon\right)} \le \lim_{n\rightarrow\infty}{\frac{E \left[ \left(T_n-\theta\right)^2\right]}{\varepsilon^2}}=0 \end{align} これは、確率収束の定義を満たすので、一致推定量の定義より、 $T_n$ は $\theta$ の一致推定量である。 $\blacksquare$

（ii）平均二乗誤差の定義式 $\mathrm{MSE} \left(T_n,\theta\right)=V \left(T_n\right)+ \left[E \left(T_n\right)-\theta\right]^2$ より、 \begin{align} \lim_{n\rightarrow\infty}{\mathrm{MSE} \left(T_n,\theta\right)}=\lim_{n\rightarrow\infty}{V \left(T_n\right)}+ \left\{\lim_{n\rightarrow\infty}{ \left[E \left(T_n\right)-\theta\right]}\right\}^2=0 \end{align} したがって、平均二乗誤差が0に収束するので（i）の結果より、$T_n$ は $\theta$ の一致推定量である。 $\blacksquare$

（iii）$ \left\{T_n\right\}$ が不偏推定量の列であれば、 \begin{align} E \left(T_n\right)-\theta=0\Rightarrow\lim_{n\rightarrow\infty}{ \left[E \left(T_n\right)-\theta\right]}\rightarrow0 \end{align} したがって、（ii）の結果より、$T_n$ は $\theta$ の一致推定量である。 $\blacksquare$

損失関数・危険関数

（i）すべての $\theta,t$\ で \begin{gather} 0 \le l \left(\theta,t\right) \end{gather} （ii）すべての $\theta$ で、$t=\theta$ のとき、 \begin{gather} l \left(\theta,t\right)=0 \end{gather} を満たす関数を損失関数 loss function という。推定値 $t$ とパラメータ $\theta$ の距離を損失と見なしているのである。推定値がパラメータに一致するとき、損失（つまり、距離）は、0 である。

推定量とパラメータの距離を計るものとして、 \begin{gather} R \left\{\theta,T \left(\boldsymbol{X}\right)\right\}=E \left[l \left\{\theta,T \left(\boldsymbol{X}\right)\right\}\right] \end{gather} で定義された関数を危険関数risk function という。例えば、 \begin{gather} l \left(\theta,t\right)= \left(\theta-t\right)^2 \end{gather} とすると、危険関数は平均二乗誤差であるつまり、危険関数は $T \left(\boldsymbol{X}\right)$ を推定量として使ったときの平均損失である。そして、パラメータの推定には、危険関数を小さくするような推定量を使うべきである。

ミニマックス推定量

2つの推定量 $T_1,T_2$ について、すべての $\theta\in\Theta$で、 \begin{gather} R \left\{\theta,T_1 \left(\boldsymbol{X}\right)\right\} \le R \left\{\theta,T_2 \left(\boldsymbol{X}\right)\right\} \end{gather} が成り立ち、少なくとも1つの $\theta\in\Theta$で \begin{gather} R \left\{\theta,T_1 \left(\boldsymbol{X}\right)\right\} \lt R \left\{\theta,T_2 \left(\boldsymbol{X}\right)\right\} \end{gather} が成り立つとき、 $T_1$ は $T_2$ に優越する dominate という。

$T$ をパラメータ $\theta$ の推定量とし、$T$ に優越する $\theta$ の推定量が他に存在しないとき、$T$ は許容的である admissible という。

また、危険関数の最大値に着目して、その値を最小にするもの、すなわち他のどの推定量 $T^\prime$ に対しても、 \begin{gather} \sup_{\theta\in\Theta}{R \left(\theta,T^\ast\right)} \le \sup_{\theta\in\Theta}{R \left(\theta,T^\prime\right)} \end{gather} となる推定量 \begin{gather} T^\ast \end{gather} をミニマックス推定量 minimax estimator という。

ラオ・ブラックウェルの定理

次の定理は、十分統計量を利用して平均二乗誤差の小さい推定量を見つけることができるという定理である。

【定理】
ラオ・ブラックウェルの定理
Rao-Blackwell Theorem

$S \left(\boldsymbol{X}\right)$ をパラメータ $\theta$ の十分統計量のうちのひとつとし、$T=T \left(\boldsymbol{X}\right)$ を $\theta$ のある統計量とする。

$S \left(\boldsymbol{X}\right)$ で条件付けた $T$ の期待値 \begin{align} T^\ast=E \left\{\ T \left(\boldsymbol{X}\right)\ \middle|\ S \left(\boldsymbol{X}\right)\ \right\} \end{align} によって定義される推定量 $T^\ast$ について、 $T^\ast$ の平均2乗誤差は他の任意の $T$ の平均2乗誤差以下になる、すなわち、 \begin{align} E \left[ \left\{T^\ast-\theta\right\}^2\right] \le E \left[ \left\{T-\theta\right\}^2\right] \end{align} が成り立つ。

一様最小分散不偏推定量

パラメータ $\theta$ の不偏推定量の中で、その分散が最小のもの、すなわちすべての $\theta\in\Theta$ で、
（i） \begin{gather} E \left(T\right)=\theta \end{gather} （ii）$\theta$ の他のどの不偏推定量 $T^\prime$ に対しても \begin{gather} V \left(T\right) \le V \left(T^\prime\right) \end{gather} となる不偏推定量 $T$ を $\theta$ の一様最小分散不偏推定量 uniformly minimum variance unbiased estimator: UMVUE と呼ぶ。

$T$ が $\theta$ の一様最小分散不偏推定量であるということは、$T$ の期待値が $\theta$ であり、同様に期待値が $\theta$ である他の推定量の分布よりもそのばらつきが小さいということである。そのような推定量は、その推定値が推定しているパラメータの値の近くにくる確率が高いわけである。

レーマン・シェフェの定理

次の定理は、最小分散不偏推定量を見つけるのに役立つものである。

【定理】
レーマン・シェフェの定理
Lehmann-Scheffe Theorem

$S \left(\boldsymbol{X}\right)$ をパラメータ $\theta$ の完備十分統計量、$T=T \left(\boldsymbol{X}\right)$ を $\theta$ の不偏推定量とするとき、完備十分統計量 $S \left(\boldsymbol{X}\right)$ によって条件づけた不偏推定量 $T \left(\boldsymbol{X}\right)$ の期待値 \begin{align} T^\ast \left(S\right)=E \left\{\ T \left(\boldsymbol{X}\right)\ \middle|\ S \left(\boldsymbol{X}\right)\ \right\} \end{align} はただ1つに定まり、一様最小分散不偏推定量となる。

クラメール・ラオの不等式

次に不偏推定量の分散の下限を与える不等式を示す。

【定理】
クラメール・ラオの不等式
Cramer-Rao’s Inequality

この分布の同時確率（密度）関数 \begin{align} f \left(\boldsymbol{x};\theta\right) \end{align} が正則条件①～③を満たすなら、パラメータ $\theta$ の関数 $g \left(\theta\right)$ の不偏推定量 \begin{align} T \left(\boldsymbol{X}\right)=\hat{\theta} \end{align} の分散の下限は、 \begin{align} \frac{ \left[\frac{\partial}{\partial\theta}g \left(\theta\right)\right]^2}{I_n \left(\theta\right)} \le V \left[T \left(\boldsymbol{X}\right)\right] \end{align} となる。特に、$g \left(\theta\right)=\theta$ のとき、「フィッシャー情報量の $n$ 倍の逆数以下の値」しか取り得ない、すなわち、 \begin{align} \frac{1}{nI_1 \left(\theta\right)}=\frac{1}{I_n \left(\theta\right)} \le V \left[T \left(\boldsymbol{X}\right)\right] \end{align} が成り立つ。これをクラメール・ラオの不等式といい、左辺をクラメール・ラオの下限という。

1パラメータの指数型分布族で、$c \left(\theta\right)$ が0でない連続な導関数をもつとき、正則条件の仮定が成り立つ。

もしも、不偏推定量の分散がクラメール・ラオの不等式の下限に等しいとき、その推定量はUMVUEである。ただし、UMVUEが存在しても、その分散がクラメール・ラオの不等式の下限よりも大きい場合もある。

不偏推定量の効率

任意の確率分布 $P_\theta \left(\theta\in\Theta\right)$ からの大きさ $n$ の無作為標本を \begin{align} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{align} その標本値を \begin{align} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{align} とする。この分布の同時確率質量関数、もしくは同時確率密度関数 $f \left(\boldsymbol{x};\theta\right)$ が正則条件を満たし、$T=T \left(\boldsymbol{X}\right)$ を $\theta$ の不偏推定量 $E \left[T \left(\boldsymbol{X}\right)\right]=g \left(\theta\right)$ とすると、 \begin{align} \mathrm{Eff} \left(T\right)=\frac{\frac{1}{I_n \left(\theta\right)}}{V \left(T\right)}=\frac{1}{I_n \left(\theta\right) \cdot V \left(T\right)} \end{align} を不偏推定量 $T \left(\boldsymbol{X}\right)$ の効率 efficiency と呼ぶ。

有効推定量

特に、 \begin{gather} \mathrm{Eff} \left(T\right)=1 \end{gather} となる、すなわち、クラメール・ラオの不等式の下限と等しい分散をもつ不偏推定量 $T$ を有効推定量 efficient estimator と呼ぶ。

漸近効率

$ \left\{T_n \left(\boldsymbol{X}\right)\right\}$ を $\theta$ の推定量の列としたとき、 \begin{align} \mathrm{AEff} \left(T\right)=\lim_{n\rightarrow\infty}{\mathrm{Eff} \left(T_n\right)}=\lim_{n\rightarrow\infty}{\frac{1}{I_n \left(\theta\right) \cdot V \left(T_n\right)}} \end{align} を $T_n$ の漸近効率 asymptotic efficiency という。

参考文献

野田一雄, 宮岡悦良著. 入門・演習数理統計. 共立出版, 1990, p.208-222
竹村彰通著. 現代数理統計学. 創文社, 1991, p.121-137
黒木学著. 数理統計学：統計的推論の基礎. 共立出版, 2020, p.144-156

推定量の評価

平均二乗誤差

点推定量の評価

不偏性

一致性

証明

損失関数・危険関数

ミニマックス推定量

ラオ・ブラックウェルの定理

一様最小分散不偏推定量

レーマン・シェフェの定理

クラメール・ラオの不等式

不偏推定量の効率

有効推定量

漸近効率

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログアーカイブ

ラベル

不正行為を報告

よく読まれている記事

推定量の評価

平均二乗誤差

点推定量の評価

不偏性

一致性

証明

損失関数・危険関数

ミニマックス推定量

ラオ・ブラックウェルの定理

一様最小分散不偏推定量

レーマン・シェフェの定理

クラメール・ラオの不等式

不偏推定量の効率

有効推定量

漸近効率

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログ アーカイブ

ラベル

不正行為を報告

よく読まれている記事

ブログアーカイブ