最尤推定法とモーメント法

公開日: 更新日:

【2023年4月3週】 【B000】数理統計学 【B070】統計的推定

この記事をシェアする
  • B!
サムネイル画像

本稿では、数理統計学における最尤推定法についてまとめています。尤度関数、最尤推定量、対数尤度関数、尤度方程式の定義の紹介、最尤推定量の漸近的性質(一致性・漸近正規性)の紹介、最尤推定量の不変性の証明などが含まれます。また、モーメント法についても紹介しています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

最尤推定法

ここでは、 \begin{gather} \mathcal{F}= \left\{f \left(x;\theta\right):\theta\in\Theta\subset\boldsymbol{R}^k\right\} \end{gather} をパラメトリックモデルとする。 \begin{gather} f \left(x;\theta\right) \end{gather} は、 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} が離散型の場合は確率関数であり、連続型の場合は確率密度関数である。

尤度関数

与えられた観測値 \begin{gather} \boldsymbol{x}= \left\{x_1,x_2, \cdots ,x_n\right\} \end{gather} について、 結合確率関数または結合確率密度関数 \begin{gather} f \left(\boldsymbol{x};\theta\right) \end{gather} を、 $\theta$ の関数とみなしたものを尤度関数 likelihood function と呼び、特に \begin{gather} L \left(\theta;\boldsymbol{x}\right)=f \left(\boldsymbol{x};\theta\right) \end{gather} と表わす。 特に、無作為標本の場合は、その尤度関数は、 \begin{gather} L \left(\theta;\boldsymbol{x}\right)=\prod_{i=1}^{n}f \left(x_i;\theta\right) \end{gather} で与えられる。

確率関数または、確率密度関数 $f \left(\boldsymbol{x};\theta\right)$ は、パラメータ $\theta$ の値を固定したときの $\boldsymbol{x}$ の関数であり、尤度関数 $L \left(\theta;\boldsymbol{x}\right)$ は、$\boldsymbol{x}$ を固定したときの $\theta$ の関数であり、その定義域は $\Theta$ である。

最尤推定量

尤度関数を最大にする値 \begin{gather} \hat{\theta}=\hat{\theta} \left(\boldsymbol{x}\right) \end{gather} 最尤推定値(maximum likelihood estimate といい、 \begin{gather} L \left(\hat{\theta};\boldsymbol{x}\right)=\mathrm{sup} \left\{L \left(\theta;\boldsymbol{x}\right):\theta\in\Theta\right\}=\mathrm{sup} \left\{f \left(\boldsymbol{x};\theta\right):\theta\in\Theta\right\}\\ \hat{\theta}=\hat{\theta} \left(\boldsymbol{X}\right) \end{gather} を $\theta$ の最尤推定量 maximum likelihood estimator: MLE と呼ぶ。 また、パラメータを変換したものに関しては、$g \left(\hat{\theta}\right)$ を $g \left(\theta\right)$ の最尤推定量という。

対数尤度関数

尤度関数の対数をとったもの \begin{gather} l \left(\theta;\boldsymbol{x}\right)=\log{L \left(\theta;\boldsymbol{x}\right)} \end{gather} 対数尤度関数 log likelihood function という。 対数関数 $\log{t}$ は、$t$ の増加関数なので尤度関数を最大にする $\hat{\theta}$ は対数尤度関数も最大にする。

尤度方程式

\begin{gather} \boldsymbol{\theta}= \left(\theta_1,\theta_2, \cdots ,\theta_k\right)\in\Theta \end{gather} において、 $\Theta$ は、$\boldsymbol{R}^k$ の開集合で、それぞれの $\theta_i$ についての $L \left(\theta;\boldsymbol{x}\right)$ の1次の偏導関数が存在するとき、最尤推定量 \begin{gather} \hat{\boldsymbol{\theta}}= \left({\hat{\theta}}_1,{\hat{\theta}}_2, \cdots ,{\hat{\theta}}_k\right) \end{gather} は、次の方程式を満足させる。 \begin{gather} \frac{\partial}{\partial\theta_i}\log{L \left(\hat{\theta};\boldsymbol{x}\right)}=0 \quad i=1,2, \cdots ,k \end{gather} これを尤度方程式 likelihood equations という。

最尤推定量と有効推定量の関係

【定理】
最尤推定量と有効推定量の関係
Relationship between Efficient Estimator and MLE

$\theta$ の有効推定量 $T \left(\boldsymbol{X}\right)$ が存在すれば、その推定量は最尤推定量であり、尤度方程式のただ1つの解として求めることができる。

証明

証明

$T \left(\boldsymbol{X}\right)$ が $\theta$ の有効推定量であるとすると、クラメール・ラオの不等式より、 \begin{gather} \frac{\partial}{\partial\theta}\log{f \left(\boldsymbol{X}:\theta\right)}=\frac{1}{K \left(\theta\right)} \left[T \left(\boldsymbol{X}\right)-\theta\right] \end{gather} が成り立ち、 これを0と置くと尤度方程式となり、その解は \begin{gather} T \left(\boldsymbol{X}\right)=\theta \end{gather} である。 また、$v \left(\theta\right)=\frac{1}{K \left(\theta\right)}$ とおくと、積の微分公式より \begin{align} \frac{\partial^2}{\partial\theta^2}\log{L \left(\theta:\boldsymbol{X}\right)}&=v^\prime \left(\theta\right) \left[T \left(\boldsymbol{X}\right)-\theta\right]-v \left(\theta\right) \end{align} $\theta=T \left(\boldsymbol{X}\right)$ を代入すると、 \begin{align} \frac{\partial^2}{\partial\theta^2}\log{L \left(\theta:\boldsymbol{X}\right)}=-v \left(T\right) \end{align} ここで、 \begin{gather} v \left(\theta\right)=E \left[ \left\{\frac{\partial}{\partial\theta}\log{L \left(\theta\right)}\right\}^2\right] \gt 0 \end{gather} となり、極大である。 $\blacksquare$

最尤推定量と十分統計量の関係

【定理】
最尤推定量と十分統計量の関係
Relationship between MLE and Sufficient Statistic

$T \left(\boldsymbol{X}\right)$ がパラメータ $\theta$ に関する十分統計量であり、$\theta$\ の最尤推定量がただ1つだけ存在するとき、その最尤推定量は、十分統計量 $T \left(\boldsymbol{X}\right)$ の関数である。

証明

証明

$f \left(\boldsymbol{x}:\theta\right)$ を確率関数または確率密度関数とすると、フィッシャー・ネイマンの因子分解定理より、 \begin{align} f \left(\boldsymbol{x}:\theta\right)=g \left\{T \left(\boldsymbol{x}\right);\theta\right\} \cdot h \left(\boldsymbol{x}\right) \end{align} 最尤推定量の定義より、 \begin{align} \mathrm{MLE}=\sup_{\theta\in\Theta}{g \left\{T \left(\boldsymbol{x}\right);\theta\right\} \cdot h \left(\boldsymbol{x}\right)} \end{align} ここで、$h \left(\boldsymbol{x}\right)$ は $\boldsymbol{x}$ が与えられているとき、定数とみなすことができるので、尤度関数 $f \left(\boldsymbol{x}:\theta\right)$ は、十分統計量 $T \left(\boldsymbol{x}\right)$ の関数 $g \left\{T \left(\boldsymbol{x}\right);\theta\right\}$ の関数である。 $\blacksquare$

最尤推定量の不変性

【定理】
最尤推定量の不変性
Invariance property of the MLE

$\hat{\theta}$ が $\theta$ の最尤推定量であるとき、単調関数 \begin{gather} y=h \left(\theta\right) \end{gather} に対して、 $h \left(\hat{\theta}\right)$ は $h \left(\theta\right)$ の最尤推定量である。

証明

証明

$\hat{\theta}$ が $\theta$ の最尤推定量なので、 \begin{gather} L \left(\hat{\theta};\boldsymbol{x}\right) \geq L \left[h^{-1} \left(y\right);\boldsymbol{x}\right] \end{gather} したがって、 \begin{gather} y=h \left(\hat{\theta}\right) \end{gather} のとき、右辺が最大値を取る。 $\blacksquare$

最尤推定量の漸近的性質

次に標本の大きさが大きいときの性質についてみてみる。

最尤推定量の一致性

【定理】
最尤推定量の一致性
Consistency of the MLE

パラメータ空間 $\Theta$ を $\boldsymbol{R}$ の開区間とする。 \begin{gather} f \left(x;\theta\right) \end{gather} を確率関数または確率密度関数とし、$\theta$ についての導関数が存在するとする。 また、 \begin{gather} A= \left\{x\in\boldsymbol{R}:f \left(x;\theta\right) \gt 0\right\} \end{gather} は $\theta$ に依存しないとする。

\begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} を統計モデル \begin{gather} \left\{f \left(x;\theta\right):\theta\in\Theta\right\} \end{gather} からの無作為標本とすると、尤度方程式は一致推定量である解をもつ。

最尤推定量の漸近正規性

【定理】
最尤推定量の漸近正規性
Asymptotic Normality of the MLE

$\theta$ の最尤推定量 ${\hat{\theta}}_n$ について、正則条件①~⑥が満たされるとき、次の統計量は、漸近的に正規分布 \begin{gather} \sqrt n \left({\hat{\theta}}_n-\theta\right)\xrightarrow[]{d}\mathrm{N} \left[0,\frac{1}{I_1 \left(\theta\right)}\right] \end{gather} ただし、$I_1 \left(\theta\right)$ はフィッシャー情報量 に従う。

最尤推定量が尤度方程式のただ1つの解のときは、最尤推定量は $\theta$ の一致推定量であり、漸近的に正規分布に従う。つまり、標本の大きさが大きいときはこのような条件の下で、最尤推定量の分布は、 \begin{gather} {\hat{\theta}}_n\xrightarrow[]{d}\mathrm{N} \left[\theta,\frac{1}{nI_1 \left(\theta\right)}\right] \end{gather} の正規分布で近似される。

$\hat{\theta}$ を $\theta$ の最尤推定量とし、$g \left(\theta\right)$ が0でない導関数 $g^\prime \left(\theta\right)$ をもつ $\theta$ の関数だとすると、スラツキーの定理により、 \begin{gather} \sqrt n \left\{g \left(\hat{\theta}\right)-g \left(\theta\right)\right\}\xrightarrow[]{d}\mathrm{N} \left[0,\frac{ \left\{g^\prime \left(\theta\right)\right\}^2}{I_1 \left(\theta\right)}\right]\\ g \left(\hat{\theta}\right)\xrightarrow[]{d}\mathrm{N} \left[g \left(\theta\right),\frac{ \left\{g^\prime \left(\theta\right)\right\}^2}{nI_1 \left(\theta\right)}\right] \end{gather}

漸近相対効率

$ \left\{T_n\right\}$ を \begin{gather} \sqrt n \left\{T_n-g \left(\theta\right)\right\}\xrightarrow[]{d}\mathrm{N} \left(0,\sigma_1^2\right) \end{gather} となる $g \left(\theta\right)$ の推定量の列とし、 $ \left\{T_n^\ast\right\}$ を \begin{gather} \sqrt n \left\{T_n^\ast-g \left(\theta\right)\right\}\xrightarrow[]{d}\mathrm{N} \left(0,\sigma_2^2\right) \end{gather} となる $g \left(\theta\right)$ の他の推定量の列とすると、 $T_n^\ast$ に対する $T_n$ の漸近相対効率 asymptotic relative efficiency: ARE は、 \begin{gather} \mathrm{ARE} \left(T_n,T_n^\ast\right)=\frac{\sigma_2^2}{\sigma_1^2} \end{gather} で与えられる。

最良漸近正規推定量

分布 $P_\theta \left(\theta\in\Theta\right)$ からの大きさ $n$ の無作為標本を \begin{gather} \boldsymbol{X}= \left(X_1,X_2, \cdots ,X_n\right) \end{gather} とする。

$ \left\{T_n \left(X\right)\right\}$ を $g \left(\theta\right)$ の推定量の列とし、 \begin{gather} \sqrt n \left\{T_n-g \left(\theta\right)\right\}\xrightarrow[]{d}N \left(0,\sigma^2\right)\\ \sigma^2=\frac{ \left[\frac{\partial}{\partial\theta}g \left(\theta\right)\right]^2}{I_n \left(\theta\right)} \end{gather} が成り立つとき、 $T_n$ を最良漸近正規推定量 best asymptotically normal estimator: BAN estimator、またはBAN推定量という。

つまり、BAN 推定量はその分布が漸近的に正規分布であり、その漸近分散はクラメール・ラオの不等式の下限に等しい、つまり漸近効率が1である。

モーメント法推定量

ここでは、比較的簡単に推定量を見つけることができるモーメント法 method of moment を見ていく。

ある母集団からの無作為標本を \begin{gather} \boldsymbol{X}= \left(X_1,X_2, \cdots ,X_n\right) \end{gather} とし、 母集団の $k$ 次のモーメントを \begin{gather} \mu_k=E \left(X^k\right) \end{gather} 標本の $k$ 次のモーメントを \begin{gather} M_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k \end{gather} 推定するパラメータをモーメントの関数 \begin{gather} g \left(\boldsymbol{\theta}\right)=h \left(\mu_1,\mu_2, \cdots ,\mu_r\right) \end{gather} とする。 このとき、 \begin{gather} T \left(\boldsymbol{X}\right)=h \left(M_1,M_2, \cdots ,M_r\right) \end{gather} を $g \left(\boldsymbol{\theta}\right)$ のモーメント法推定量 method of moment estimator という。

例題

未知の平均と分散をもつ任意の母集団 \begin{gather} \mathrm{P} \left(\mu,\sigma^2\right) \end{gather} からの無作為標本を \begin{gather} \boldsymbol{X}= \left(X_1,X_2, \cdots ,X_n\right) \end{gather} とし、 推定するパラメータを \begin{gather} \boldsymbol{\theta}= \left(\mu,\sigma^2\right) \end{gather} とする。 \begin{gather} \mu=\mu_1\\ \sigma^2=\mu_2-\mu_1^2 \end{gather} のモーメント法推定量は、 \begin{gather} \hat{\mu}=\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i\\ {\hat{\sigma}}^2=\frac{1}{n}\sum_{i=1}^{n}X_i^k-{\bar{X}}^2 \end{gather} で与えられる。

モーメント法推定量の一致性

【定理】
モーメント法推定量の一致性
Consistency of method of moment estimator

パラメータ \begin{gather} g \left(\boldsymbol{\theta}\right)=h \left(\mu_1,\mu_2, \cdots ,\mu_r\right) \end{gather} で $h$ が連続なとき、 モーメント法推定量 \begin{gather} T \left(\boldsymbol{X}\right)=h \left(M_1,M_2, \cdots ,M_r\right) \end{gather} は、$g \left(\boldsymbol{\theta}\right)$ の一致推定量である。


証明

証明

大数の法則により、 \begin{align} M_k\xrightarrow[]{p}\mu_k \end{align} $\blacksquare$

参考文献

  • 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.224-233
  • 久保川 達也 著, 新井 仁之, 小林 俊行, 斎藤 毅, 吉田 朋広 編. 現代数理統計学の基礎. 共立出版, 2017, p.120-124
  • 黒木 学 著. 数理統計学:統計的推論の基礎. 共立出版, 2020, p.159-178

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ