統計モデル

公開日: 更新日:

【2023年4月3週】 【B000】数理統計学 【B070】統計的推定

この記事をシェアする
  • B!
サムネイル画像

本稿では、数理統計学における統計モデルの概念についてまとめています。パラメータ空間、統計的推論の種類(点推定、区間推定、仮説検定)、推定量と推定値の定義や内容の紹介が含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

パラメータ

統計的推測においては、与えられたデータをある(未知の)確率分布に従う確率変数の観測値(実現値)とみなし、そのデータを基にしてその(未知の)確率分布についてのある種の推測を行う。その場合、確率変数が実際に従うと思われる確率分布がいくつかあり、それらの分布の集まり、つまり、分布族を考えているのである。その分布族の中の1つ1つの分布を特長づけるものを母数 parameter と呼び、すべての可能なパラメータの集まりをパラメータ空間 parameter space と呼ぶ。

ここで、 \begin{gather} \Theta \end{gather} をパラメータ空間 \begin{gather} \theta \left(\in\Theta\right) \end{gather} をあるパラメータとし、 \begin{gather} P_\theta \end{gather} でそのパラメータで特長づけられた確率分布を表わすとし、 その分布族を \begin{gather} \mathcal{F}= \left\{P_\theta:\theta\in\Theta\right\} \end{gather} で表わすとする。 観測値 $x$ は、確率変数 $X$ の実現値であり、$X$ の確率分布は、$\mathcal{F}$ に属していると考えるのである。このことを、 \begin{gather} X \sim \mathcal{F} \quad X \sim P_\theta \quad \theta\in\Theta \end{gather} と書くことがある。

また、確率分布 $P_\theta$ の分布関数を $F_\theta$ とし、そのとき確率関数、または確率密度関数 $f_\theta$ が存在するときは、その分布族を \begin{gather} \mathcal{F}= \left\{F_\theta:\theta\in\Theta\right\} \quad \mathcal{F}= \left\{f_\theta:\theta\in\Theta\right\} \end{gather} によって表わすこともある。 このような分布族 $\mathcal{F}$ を統計モデル statistical model と呼ぶ。

特に $\Theta\in\boldsymbol{R}^k$ で、確率関数や確率密度関数の形は分かっている場合、すなわちパラメータ $\theta$ の値さえわかれば、その確率分布が完全に分かる場合、その分布族をパラメトリックモデル parametric model という。それ以外の場合のモデルをノンパラメトリックモデル nonpararnetric model という。

①パラメータの関数 $g \left(\theta\right)$ もまたパラメータである。これをパラメータ変換 reparametrizationという。たとえば、正規分布のパラメータにおいて、$\sigma^2$ は、$\sigma$ のパラメータ変換である。分散をパラメータとして考えても、標準偏差をパラメータとして考えてもモデル自体は同じである。

②もしも $\theta_1 \neq \theta_2$ のとき、常に $P_{\theta_1} \neq P_{\theta_2}$ となるようなとき、パラメータは、認定可能 identifiableといい、そうでない場合は、認定不可能 nonidentifiableという。認定不可能なときは、パラメータについての推測はできない。たとえば、モデル \begin{gather} \mathcal{F}= \left\{N \left(\alpha+\beta,\sigma^2\right):-\infty \lt \alpha,\beta \lt \infty,0 \lt \sigma\right\} \end{gather} でパラメータ \begin{gather} \theta= \left(\alpha,\beta,\sigma\right) \end{gather} であるが、 \begin{gather} \theta_1= \left(0,1,1\right) \quad \theta_2= \left(0.3,0.7,1\right) \end{gather} とすると \begin{gather} \theta_1 \neq \theta_2 \end{gather} であるが、 \begin{gather} P_{\theta_1}=P_{\theta_2} \end{gather} であるので、このパラメータは、認定不可能である。 ただし、 \begin{gather} \mu=\alpha+\beta \end{gather} とバラメータ変換して、 \begin{gather} \theta^\prime= \left(\mu,\sigma\right) \end{gather} とすれば、$\theta^\prime$ は認定可能である。

③母集団分布の平均値についての推測に関心があり、標準偏差には関心がない場合があるが、一般にパラメータ \begin{gather} \boldsymbol{\theta}= \left(\theta_1,\theta_2, \cdots ,\theta_k\right) \end{gather} の中のいくつかの $\theta_i$ だけの推測に関心があるとき、 その残りのパラメータを携乱母数、または、局外母数 nuisance parameter と呼ぶ。

統計的推論の種類

与えられたデータを基にパラメータの値を見つけることを、特に点推定 point estimation といい、パラメータがパラメータ空間のどの部分集合に属しているのかをみつけるのが区間推定 interval estimation とか仮説検定 hypothesis testing である。

推定量と推定値

\begin{gather} \mathcal{F}= \left\{P_\theta:\theta\in\Theta\right\} \end{gather} を統計モデルとし、 \begin{gather} T \left(X_1,X_2, \cdots ,X_n\right) \end{gather} 母集団からの標本の統計量で、パラメータ空間 $\Theta$ の値を取るとき、$T$ を $\theta$ の推定量 estimator という。推定量とは、推定に使われる統計量のことである。また、 \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} を標本 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} の観測値とすると、 \begin{gather} t \left(X_1,X_2, \cdots ,X_n\right) \end{gather} はそのときの推定量の値である。 これを特に推定値 estimate と呼ぶ。つまり、推定量は確率変数であるが、推定値はその確率変数の取る値である。

なお、未知のパラメータを含まない確率変数の関数を統計量といったが、この意味で推定量は統計量である。

参考文献

  • 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.194-197
  • 久保川 達也 著, 新井 仁之, 小林 俊行, 斎藤 毅, 吉田 朋広 編. 現代数理統計学の基礎. 共立出版, 2017, p.115-116
  • 黒木 学 著. 数理統計学:統計的推論の基礎. 共立出版, 2020, p.143-144

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ