本稿では、確率分布の特性値についてまとめています。期待値、確率変数の関数の期待値、多次元確率変数の期待値、分散、分散の公式、中央値・最頻値などの定義や性質の紹介が含まれます。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
確率変数の分布、つまりどの値をどのような確率で取るかということは、その分布関数を知ることによってわかるし、また離散型確率変数の場合はその確率関数、連続型確率変数の場合はその確率密度関数によってわかる。ここでは、さらに確率変数を特微づけるものを考えていく。確率変数(の取る値の確率)がどこを中心にどのくらいの広がりをもって分布しているのかということに注目して、この節では分布の中心(location)と広がり(scale)というものを考えていく。
期待値
確率変数 $X$ に対して、 \begin{align} E \left(X\right)= \left\{\begin{matrix}\sum_{-\infty}^{\infty}{x \cdot f \left(x\right)}&\mathrm{Discrete}\\\int_{-\infty}^{\infty}{x \cdot f \left(x\right)dx}&\mathrm{Continuous}\\\end{matrix}\right. \end{align} $f \left(x\right)$ は、離散型の場合は確率関数、連続型の場合は、確率密度関数 で定義される値を 平均値 mean、または期待値 expected value という。
右辺が有限の値に収束するとき、すなわち、 \begin{align} E \left(X\right) \lt \infty \end{align} のとき、期待値が存在するという。
$X$ を確率空間 $ \left(\Omega,\mathcal{F},P\right)$ に定義された確率変数とし、$F \left(x\right)$ をその分布関数とすると、期待値は一般に次のようなルベーグ式積分として定義される。離散型や連続型の場合は上の形と一致する。 \begin{align} E \left(X\right)=\int_{\boldsymbol{R}}{x \cdot d F \left(x\right)} \end{align}
確率変数の関数の期待値
確率変数 $X$ の関数 $Y=g \left(X\right)$ の期待値は、次式で与えられる。 \begin{align} E \left[g \left(X\right)\right]= \left\{\begin{matrix}\sum_{-\infty}^{\infty}{g \left(x\right) \cdot f \left(x\right)}&\mathrm{Discrete}\\\int_{-\infty}^{\infty}{g \left(x\right) \cdot f \left(x\right)dx}&\mathrm{Continuous}\\\end{matrix}\right. \end{align}
多次元確率変数の期待値
$n$ 次元確率変数を \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} 同時確率(密度)関数を \begin{align} f \left(x_1,x_2, \cdots ,x_n\right) \end{align} とすると、 (a)確率変数 $X_i$ のみの期待値は、 \begin{align} E \left(X_i\right)= \left\{\begin{matrix}\sum_{x_1=-\infty}^{\infty}{ \cdots \sum_{x_n=-\infty}^{\infty}{x_i \cdot f \left(x_1,x_2, \cdots ,x_n\right)}}&\mathrm{Discrete}\\\int_{-\infty}^{\infty}{ \cdots \int_{-\infty}^{\infty}{x_i \cdot f \left(x_1,x_2, \cdots ,x_n\right)dx_1 \cdots d x_n}}&\mathrm{Continuous}\\\end{matrix}\right. \end{align} (b)関数 $h \left(X_1,X_2, \cdots ,X_n\right)$ の期待値は、 \begin{align} E \left[h \left(X_1,X_2, \cdots ,X_n\right)\right]= \left\{\begin{matrix}\sum_{x_1=-\infty}^{\infty}{ \cdots \sum_{x_n=-\infty}^{\infty}{h \left(x_1,x_2, \cdots ,x_n\right) \cdot f \left(x_1,x_2, \cdots ,x_n\right)}}&\mathrm{Discrete}\\\int_{-\infty}^{\infty}{ \cdots \int_{-\infty}^{\infty}{h \left(x_1,x_2, \cdots ,x_n\right) \cdot f \left(x_1,x_2, \cdots ,x_n\right)dx_1 \cdots d x_n}}&\mathrm{Continuous}\\\end{matrix}\right. \end{align} で与えられる。
証明
例えば、$X_1$ について考えると、
(i)離散型の場合
期待値の定義式より、
\begin{align}
E \left(X\right)=\sum_{x_1=-\infty}^{\infty}{x_1 \cdot f \left(x_1\right)}
\end{align}
周辺確率関数の定義式 $f \left(x_1\right)=\sum_{x_2=-\infty}^{\infty}{ \cdots \sum_{x_n=-\infty}^{\infty}f \left(x_1,x_2, \cdots ,x_n\right)}$ より、
\begin{align}
E \left(X\right)&=\sum_{x_1=-\infty}^{\infty}{x_1 \cdot \left[\sum_{x_2=-\infty}^{\infty}{ \cdots \sum_{x_n=-\infty}^{\infty}f \left(x_1,x_2, \cdots ,x_n\right)}\right]}\\
&=\sum_{x_1=-\infty}^{\infty}{ \cdots \sum_{x_n=-\infty}^{\infty}{x_1 \cdot f \left(x_1,x_2, \cdots ,x_n\right)}}
\end{align}
(ii)連続型の場合
期待値の定義式より、
\begin{align}
E \left(X\right)=\int_{-\infty}^{\infty}{x_1 \cdot f \left(x_1\right)}dx_1
\end{align}
周辺確率関数の定義式 $f \left(x_1\right)=\int_{-\infty}^{\infty}{ \cdots \int_{-\infty}^{\infty}{f \left(x_1,x_2, \cdots ,x_n\right)dx_2 \cdots d x_n}}$ より、
\begin{align}
E \left(X\right)&=\int_{-\infty}^{\infty}x_1 \cdot \left[\int_{-\infty}^{\infty}{ \cdots \int_{-\infty}^{\infty}{f \left(x_1,x_2, \cdots ,x_n\right)dx_2 \cdots d x_n}}\right]dx_1\\
&=\int_{-\infty}^{\infty}{ \cdots \int_{-\infty}^{\infty}{x_i \cdot f \left(x_1,x_2, \cdots ,x_n\right)dx_1 \cdots d x_n}}
\end{align}
$\blacksquare$
期待値の基本性質
【定理】
期待値の基本性質
Basic Properties of Expected Value
確率変数 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} の期待値について、 \begin{gather} a \quad b \quad c \end{gather} を定数として、以下の式が成り立つ。
(i)定数関数の期待値 \begin{align} E \left(c\right)=c \end{align}
(ii)線形性 \begin{align} E \left(aX+b\right)=aE \left(X\right)+b \end{align}
(iii)有界性 \begin{gather} P \left(a \le X\right)=1\Rightarrow a \le E \left(X\right)\\ P \left(X \le b\right)=1\Rightarrow E \left(X\right) \le b \end{gather}
(iv)加法性 \begin{align} E \left(a_1X_1+a_2X_2+ \cdots +a_nX_n+b\right)=a_1E \left(X_1\right)+ \cdots +a_nE \left(X_n\right)+b \end{align} 和の記号を用いて表現すると、 \begin{align} E \left(\sum_{i=1}^{n}{a_iX_i}+b\right)= \left\{\sum_{i=1}^{n}{a_iE \left(X_i\right)}\right\}+b \end{align}
(v)確率変数が互いに独立なときの積の期待値
確率変数が互いに独立ならば、
\begin{align}
E \left(X_1X_2 \cdots X_n\right)=E \left(X_1\right) \cdot E \left(X_2\right) \cdots E \left(X_n\right)
\end{align}
積の記号を用いて表現すると、
\begin{align}
E \left(\prod_{i=1}^{n}X_i\right)=\prod_{i=1}^{n}E \left(X_i\right)
\end{align}
(vi)正の値のみ取る場合の期待値
確率変数 $X$ が離散型の場合は、正の整数値のみ、連続型の場合は、正の値のみを取るとき
\begin{align}
E \left(X\right)= \left\{\begin{matrix}\sum_{x=0}^{\infty} \left\{1-F \left(x\right)\right\}dx&\mathrm{Discrete}\\\int_{0}^{\infty} \left\{1-F \left(x\right)\right\}dx&\mathrm{Continuous}\\\end{matrix}\right.
\end{align}
分散・標準偏差
分散
分布の広がりを表わすものとして分散・標準偏差がある。
確率変数 $X$ の各値と期待値 $E \left(X\right)$ との差 \begin{align} X-E \left(X\right) \end{align} のことを偏差といい、 偏差の2乗値 \begin{align} \left\{X-E \left(X\right)\right\}^2 \end{align} を偏差平方という。 偏差平方の期待値 \begin{align} V \left(X\right)=E \left[ \left\{X-E \left(X\right)\right\}^2\right] \end{align} を確率変数 $X$ の分散 variance といい、 \begin{gather} \sigma^2 \end{gather} などで表す。 すなわち、分散は、 \begin{align} V \left(X\right)= \left\{\begin{matrix}\sum_{-\infty}^{\infty}{ \left\{X-E \left(X\right)\right\}^2 \cdot f \left(x\right)}&\mathrm{Discrete}\\\int_{-\infty}^{\infty}{ \left\{X-E \left(X\right)\right\}^2 \cdot f \left(x\right)dx}&\mathrm{Continuous}\\\end{matrix}\right. \end{align} で与えられ、 右辺が有限の値に収束するとき、すなわち、 \begin{align} V \left(X\right) \lt \infty \end{align} のとき、分散が存在するという。
標準偏差
また、分散の非負の平方根 \begin{align} \mathrm{SD} \left(X\right)=\sqrt{V \left(X\right)} \end{align} を確率変数 $X$ の標準偏差 standard deviation といい、 \begin{gather} \sigma \end{gather} などで表す。
確率変数の関数の分散
確率変数 $X$ の関数 $Y=g \left(X\right)$ の分散は、 \begin{align} V \left[g \left(X\right)\right]=E \left[ \left\{g \left(X\right)-E \left[g \left(X\right)\right]\right\}^2\right] \end{align} \begin{align} V \left(X\right)= \left\{\begin{matrix}\sum_{-\infty}^{\infty}{ \left\{g \left(X\right)-E \left[g \left(X\right)\right]\right\}^2 \cdot f \left(x\right)}&\mathrm{Discrete}\\\int_{-\infty}^{\infty}{ \left\{g \left(X\right)-E \left[g \left(X\right)\right]\right\}^2 \cdot f \left(x\right)dx}&\mathrm{Continuous}\\\end{matrix}\right. \end{align} で与えられる。
分散の基本性質
【定理】
分散の基本性質
Basic Properties of Variance
確率変数 \begin{gather} \boldsymbol{X}= \left\{X_1,X_2, \cdots ,X_n\right\} \end{gather} の分散について、 \begin{gather} a \quad b \quad c \end{gather} を定数として、以下の式が成り立つ。
(i)定数関数の分散
\begin{align}
V \left(c\right)=0
\end{align}
(ii)線形変換の分散
\begin{align}
V \left(aX+b\right)=a^2V \left(X\right)
\end{align}
(iii)確率変数が互いに独立なときの加法性
確率変数が互いに独立ならば、
\begin{align}
V \left(X_1+X_2+ \cdots +X_n\right)=V \left(X_1\right)+V \left(X_2\right)+ \cdots +V \left(X_n\right)
\end{align}
和の記号を用いて表現すると、
\begin{align}
V \left(\sum_{i=1}^{n}X_i\right)=\sum_{i=1}^{n}V \left(X_i\right)
\end{align}
分散の公式
【公式】
分散の公式
Variance Formula
確率変数 $X$ の期待値 $E \left(X\right)$ と $X^2$ の期待値 $E \left(X^2\right)$、分散 $V \left(X\right)$ の間には \begin{align} V \left(X\right)=E \left(X^2\right)- \left\{E \left(X\right)\right\}^2\\ E \left(X^2\right)=V \left(X\right)+ \left\{E \left(X\right)\right\}^2 \end{align} という関係式が成り立つ。
中央値・最頻値
分布の平均のほかに、分布の中心と考えられるものにメジアン(中央値)とモード(最頻値)がある。
中央値
確率変数 $X$ の分布に対し、 \begin{align} \frac{1}{2} \le P \left(m \le X\right) \quad \frac{1}{2} \le P \left(X \le m\right) \end{align} を与える実数 $m$ を中央値 median という。 分布関数が連続であれば、 \begin{gather} F \left(m-\right) \le \frac{1}{2} \le F \left(m\right)\\ F \left(m\right)=\frac{1}{2} \end{gather}
最頻値
確率変数 $X$ の確率関数や確率密度関数 $f \left(x\right)$ を最大にする値を分布の最頻値 mode という。
参考文献
- 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.70-80
- 竹村 彰通 著. 現代数理統計学. 創文社, 1991, p.12-19
- 東京大学教養学部統計学教室 編. 基礎統計学 1 統計学入門. 東京大学出版会, 1991, p.94-99
0 件のコメント:
コメントを投稿