本稿では、数理統計学における統計モデルの概念についてまとめています。パラメータ空間、統計的推論の種類(点推定、区間推定、仮説検定)、推定量と推定値の定義や内容の紹介が含まれます。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
パラメータ
統計的推測においては、与えられたデータをある(未知の)確率分布に従う確率変数の観測値(実現値)とみなし、そのデータを基にしてその(未知の)確率分布についてのある種の推測を行う。その場合、確率変数が実際に従うと思われる確率分布がいくつかあり、それらの分布の集まり、つまり、分布族を考えているのである。その分布族の中の1つ1つの分布を特長づけるものを母数 parameter と呼び、すべての可能なパラメータの集まりをパラメータ空間 parameter space と呼ぶ。
ここで、 \begin{gather} \Theta \end{gather} をパラメータ空間 \begin{gather} \theta \left(\in\Theta\right) \end{gather} をあるパラメータとし、 \begin{gather} P_\theta \end{gather} でそのパラメータで特長づけられた確率分布を表わすとし、 その分布族を \begin{gather} \mathcal{F}= \left\{P_\theta:\theta\in\Theta\right\} \end{gather} で表わすとする。 観測値 $x$ は、確率変数 $X$ の実現値であり、$X$ の確率分布は、$\mathcal{F}$ に属していると考えるのである。このことを、 \begin{gather} X \sim \mathcal{F} \quad X \sim P_\theta \quad \theta\in\Theta \end{gather} と書くことがある。
また、確率分布 $P_\theta$ の分布関数を $F_\theta$ とし、そのとき確率関数、または確率密度関数 $f_\theta$ が存在するときは、その分布族を \begin{gather} \mathcal{F}= \left\{F_\theta:\theta\in\Theta\right\} \quad \mathcal{F}= \left\{f_\theta:\theta\in\Theta\right\} \end{gather} によって表わすこともある。 このような分布族 $\mathcal{F}$ を統計モデル statistical model と呼ぶ。
特に $\Theta\in\boldsymbol{R}^k$ で、確率関数や確率密度関数の形は分かっている場合、すなわちパラメータ $\theta$ の値さえわかれば、その確率分布が完全に分かる場合、その分布族をパラメトリックモデル parametric model という。それ以外の場合のモデルをノンパラメトリックモデル nonpararnetric model という。
①パラメータの関数 $g \left(\theta\right)$ もまたパラメータである。これをパラメータ変換 reparametrizationという。たとえば、正規分布のパラメータにおいて、$\sigma^2$ は、$\sigma$ のパラメータ変換である。分散をパラメータとして考えても、標準偏差をパラメータとして考えてもモデル自体は同じである。
②もしも $\theta_1 \neq \theta_2$ のとき、常に $P_{\theta_1} \neq P_{\theta_2}$ となるようなとき、パラメータは、認定可能 identifiableといい、そうでない場合は、認定不可能 nonidentifiableという。認定不可能なときは、パラメータについての推測はできない。たとえば、モデル \begin{gather} \mathcal{F}= \left\{N \left(\alpha+\beta,\sigma^2\right):-\infty \lt \alpha,\beta \lt \infty,0 \lt \sigma\right\} \end{gather} でパラメータ \begin{gather} \theta= \left(\alpha,\beta,\sigma\right) \end{gather} であるが、 \begin{gather} \theta_1= \left(0,1,1\right) \quad \theta_2= \left(0.3,0.7,1\right) \end{gather} とすると \begin{gather} \theta_1 \neq \theta_2 \end{gather} であるが、 \begin{gather} P_{\theta_1}=P_{\theta_2} \end{gather} であるので、このパラメータは、認定不可能である。 ただし、 \begin{gather} \mu=\alpha+\beta \end{gather} とバラメータ変換して、 \begin{gather} \theta^\prime= \left(\mu,\sigma\right) \end{gather} とすれば、$\theta^\prime$ は認定可能である。
③母集団分布の平均値についての推測に関心があり、標準偏差には関心がない場合があるが、一般にパラメータ \begin{gather} \boldsymbol{\theta}= \left(\theta_1,\theta_2, \cdots ,\theta_k\right) \end{gather} の中のいくつかの $\theta_i$ だけの推測に関心があるとき、 その残りのパラメータを携乱母数、または、局外母数 nuisance parameter と呼ぶ。
統計的推論の種類
与えられたデータを基にパラメータの値を見つけることを、特に点推定 point estimation といい、パラメータがパラメータ空間のどの部分集合に属しているのかをみつけるのが区間推定 interval estimation とか仮説検定 hypothesis testing である。
推定量と推定値
\begin{gather} \mathcal{F}= \left\{P_\theta:\theta\in\Theta\right\} \end{gather} を統計モデルとし、 \begin{gather} T \left(X_1,X_2, \cdots ,X_n\right) \end{gather} が 母集団からの標本の統計量で、パラメータ空間 $\Theta$ の値を取るとき、$T$ を $\theta$ の推定量 estimator という。推定量とは、推定に使われる統計量のことである。また、 \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} を標本 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} の観測値とすると、 \begin{gather} t \left(X_1,X_2, \cdots ,X_n\right) \end{gather} はそのときの推定量の値である。 これを特に推定値 estimate と呼ぶ。つまり、推定量は確率変数であるが、推定値はその確率変数の取る値である。
なお、未知のパラメータを含まない確率変数の関数を統計量といったが、この意味で推定量は統計量である。
参考文献
- 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.194-197
- 久保川 達也 著, 新井 仁之, 小林 俊行, 斎藤 毅, 吉田 朋広 編. 現代数理統計学の基礎. 共立出版, 2017, p.115-116
- 黒木 学 著. 数理統計学:統計的推論の基礎. 共立出版, 2020, p.143-144
0 件のコメント:
コメントを投稿