統計モデル-あるノマドの知の旅路～数学・統計学への道

統計モデル

公開日：更新日：

本稿では、数理統計学における統計モデルの概念についてまとめています。パラメータ空間、統計的推論の種類（点推定、区間推定、仮説検定）、推定量と推定値の定義や内容の紹介が含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

パラメータ

統計的推測においては、与えられたデータをある（未知の）確率分布に従う確率変数の観測値（実現値）とみなし、そのデータを基にしてその（未知の）確率分布についてのある種の推測を行う。その場合、確率変数が実際に従うと思われる確率分布がいくつかあり、それらの分布の集まり、つまり、分布族を考えているのである。その分布族の中の1つ1つの分布を特長づけるものを母数 parameter と呼び、すべての可能なパラメータの集まりをパラメータ空間 parameter space と呼ぶ。

ここで、 \begin{gather} \Theta \end{gather} をパラメータ空間 \begin{gather} \theta \left(\in\Theta\right) \end{gather} をあるパラメータとし、 \begin{gather} P_\theta \end{gather} でそのパラメータで特長づけられた確率分布を表わすとし、その分布族を \begin{gather} \mathcal{F}= \left\{P_\theta:\theta\in\Theta\right\} \end{gather} で表わすとする。観測値 $x$ は、確率変数 $X$ の実現値であり、$X$ の確率分布は、$\mathcal{F}$ に属していると考えるのである。このことを、 \begin{gather} X \sim \mathcal{F} \quad X \sim P_\theta \quad \theta\in\Theta \end{gather} と書くことがある。

また、確率分布 $P_\theta$ の分布関数を $F_\theta$ とし、そのとき確率関数、または確率密度関数 $f_\theta$ が存在するときは、その分布族を \begin{gather} \mathcal{F}= \left\{F_\theta:\theta\in\Theta\right\} \quad \mathcal{F}= \left\{f_\theta:\theta\in\Theta\right\} \end{gather} によって表わすこともある。このような分布族 $\mathcal{F}$ を統計モデル statistical model と呼ぶ。

特に $\Theta\in\boldsymbol{R}^k$ で、確率関数や確率密度関数の形は分かっている場合、すなわちパラメータ $\theta$ の値さえわかれば、その確率分布が完全に分かる場合、その分布族をパラメトリックモデル parametric model という。それ以外の場合のモデルをノンパラメトリックモデル nonpararnetric model という。

①パラメータの関数 $g \left(\theta\right)$ もまたパラメータである。これをパラメータ変換 reparametrizationという。たとえば、正規分布のパラメータにおいて、$\sigma^2$ は、$\sigma$ のパラメータ変換である。分散をパラメータとして考えても、標準偏差をパラメータとして考えてもモデル自体は同じである。

②もしも $\theta_1 \neq \theta_2$ のとき、常に $P_{\theta_1} \neq P_{\theta_2}$ となるようなとき、パラメータは、認定可能 identifiableといい、そうでない場合は、認定不可能 nonidentifiableという。認定不可能なときは、パラメータについての推測はできない。たとえば、モデル \begin{gather} \mathcal{F}= \left\{N \left(\alpha+\beta,\sigma^2\right):-\infty \lt \alpha,\beta \lt \infty,0 \lt \sigma\right\} \end{gather} でパラメータ \begin{gather} \theta= \left(\alpha,\beta,\sigma\right) \end{gather} であるが、 \begin{gather} \theta_1= \left(0,1,1\right) \quad \theta_2= \left(0.3,0.7,1\right) \end{gather} とすると \begin{gather} \theta_1 \neq \theta_2 \end{gather} であるが、 \begin{gather} P_{\theta_1}=P_{\theta_2} \end{gather} であるので、このパラメータは、認定不可能である。ただし、 \begin{gather} \mu=\alpha+\beta \end{gather} とバラメータ変換して、 \begin{gather} \theta^\prime= \left(\mu,\sigma\right) \end{gather} とすれば、$\theta^\prime$ は認定可能である。

③母集団分布の平均値についての推測に関心があり、標準偏差には関心がない場合があるが、一般にパラメータ \begin{gather} \boldsymbol{\theta}= \left(\theta_1,\theta_2, \cdots ,\theta_k\right) \end{gather} の中のいくつかの $\theta_i$ だけの推測に関心があるとき、その残りのパラメータを携乱母数、または、局外母数 nuisance parameter と呼ぶ。

統計的推論の種類

与えられたデータを基にパラメータの値を見つけることを、特に点推定 point estimation といい、パラメータがパラメータ空間のどの部分集合に属しているのかをみつけるのが区間推定 interval estimation とか仮説検定 hypothesis testing である。

推定量と推定値

\begin{gather} \mathcal{F}= \left\{P_\theta:\theta\in\Theta\right\} \end{gather} を統計モデルとし、 \begin{gather} T \left(X_1,X_2, \cdots ,X_n\right) \end{gather} が母集団からの標本の統計量で、パラメータ空間 $\Theta$ の値を取るとき、$T$ を $\theta$ の推定量 estimator という。推定量とは、推定に使われる統計量のことである。また、 \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} を標本 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} の観測値とすると、 \begin{gather} t \left(X_1,X_2, \cdots ,X_n\right) \end{gather} はそのときの推定量の値である。これを特に推定値 estimate と呼ぶ。つまり、推定量は確率変数であるが、推定値はその確率変数の取る値である。

なお、未知のパラメータを含まない確率変数の関数を統計量といったが、この意味で推定量は統計量である。

参考文献

野田一雄, 宮岡悦良著. 入門・演習数理統計. 共立出版, 1990, p.194-197
久保川達也著, 新井仁之, 小林俊行, 斎藤毅, 吉田朋広編. 現代数理統計学の基礎. 共立出版, 2017, p.115-116
黒木学著. 数理統計学：統計的推論の基礎. 共立出版, 2020, p.143-144

統計モデル

パラメータ

統計的推論の種類

推定量と推定値

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログアーカイブ

ラベル

不正行為を報告

よく読まれている記事

統計モデル

パラメータ

統計的推論の種類

推定量と推定値

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログ アーカイブ

ラベル

不正行為を報告

よく読まれている記事

ブログアーカイブ