多次元の確率分布

公開日:

【2023年3月2週】 【B000】数理統計学 【B020】確率変数と確率分布

この記事をシェアする
  • B!
サムネイル画像

本稿では、多次元の確率分布についてまとめています。同時分布関数、離散型確率変数ベクトルと同時確率関数、連続型確率変数ベクトルと同時確率密度関数、周辺分布関数、周周辺確率密度関数、条件付き確率関数、条件付き分布と同時確率分布の関係、確率変数の独立性などの定義や性質の紹介が含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

同時分布関数

ここでは、まず2次元確率変数についてみていく。たとえば、ある日の降雨量とその日の気温を観測する実験を考え、確率変数 X を降雨量、Y を最高気温とすると、標本空間の点 ω に2次元平面上の点 {X(ω),Y(ω)} を対応させている 2次元確率変数を考えているのであり、その (X,Y) の分布というものに関心があるわけである。

確率変数ベクトル (X,Y) に対し、 F(x,y)=P(Xx,Yy)<x<<y< を満たすものを 確率変数ベクトル (X,Y)同時分布関数 joint distribution function、または結合分布関数という。これは、確率変数 Xx 以下の値を取り、かつ、確率変数 Yy 以下の値を取る確率である。

同時分布関数の基本性質

同時分布関数には、単変量の場合と同様に、以下の性質がある。

【定理】
同時分布関数の基本性質
Basic Properties of Joint Distribution Function

(I)すべての (x,y)R2 に対し、 0F(x,y)1 (II)x,y± のときの極限値は、 limxF(x,y)=0limyF(x,y)=0limxyF(x)=1 (III)それぞれの変数に対して、単調非減少関数である
すなわち、ある y を固定したときは、F(x,y)x に関して単調非減少関数であり、ある x を固定したときは、y に関して単調非減少関数である。 x:a<bF(a,y)F(b,y)y:c<dF(x,c)F(x,d) (IV)それぞれの変数に対して、右側連続である limtx+0F(t,y)=F(x,y)limsy+0F(x,s)=F(x,y)

同時分布関数を用いた確率の計算

確率を計算する際の方法も、単変量の場合と同様に、以下のことが成り立つ。

【定理】
同時分布関数を用いた確率の計算
Calculating Probability with Joint Distribution Function

実数 a,b,c,da<b,c<d を満たすとき、
Xa より大きく、b 以下の値を取り、かつ、Yc より大きく、d 以下の値を取る確率は、 P(a<Xb,c<Yd)= F(b,d)F(a,d)F(b,c)+F(a,c)

証明

証明

P(a<Xb,c<Yd)=P(a<Xb,Yd)P(a<Xb,Yc)=P(Xb,Yd)P(Xa,Yd)P(Xb,Yc)P(Xa,Yc)=F(b,d)F(a,d)F(b,c)+F(a,c)

離散型確率変数ベクトルと同時確率関数

次に2 次元確率変数の場合の離散型と連統型についてみる。

離散型確率変数ベクトル

確率変数ベクトル (X,Y) がともに有限個 {x1,x2,,xn}{y1,y2,,yn} または可算無限個 {x1,x2,}{y1,y2,} の値をとるとき、 その確率変数ベクトルは離散型 discrete random vector であるという。つまり、XY も離散型確率変数である場合である。

同時確率関数

離散型確率変数に関して、 X=xY=y となる確率を 確率変数ベクトル (X,Y)同時確率関数 joint probability function、または結合確率関数といい、x,y に関する関数 f(x,y) として、 f(x,y)=P(X=x,Y=y)(x,y)R2 と表す。 単変数の場合と同様、x,y が取り得る値でないときは、 f(x,y)=0 と定義される。 すなわち、X の定義域を Ω={x:x1,x2,y:y1,y2,} とすると、 f(x,y)={P(X=x,Y=y)(x,y)Ω0(x,y)Ω

同時確率関数の性質

確率関数は、確率の公理を満たすため、すべての (x,y)R2 に関して、
(i)0以上の値である 0f(x,y) (ii)(X,Y) の取りうる値に対応する確率の総和は1 x=y=f(x,y)=1

任意の事象の確率

また、任意の集合 AR2 について、その確率は、 P{(X,Y)A}=(x,y)Af(x,y) で与えられる。 例えば、Xa 以上、b 以下、かつ、Yc 以上、d 以下の値を取る確率は、 P(aXb,cYd)=x=aby=cdf(x,y) である。

同時確率関数と同時分布関数の関係

同時確率関数を用いると、同時分布関数は、 F(x,y)=s=xt=yf(s,t) と表すことができる。

連続型確率変数ベクトルと同時確率密度関数

確率変数ベクトル (X,Y) について、次式のように、すべての (x,y) で、 F(x,y)=xyf(s,t)dsdt を満たす非負の関数 f(x,y) が存在するとき、 (X,Y) 連続型確率変数ベクトル continuous random vector といい、 f(x,y) X,Y同時確率密度関数 joint probability density function という。

同時確率密度関数の性質

確率密度関数は、確率の公理を満たすため、すべての (x,y)R2 に関して、
(i)0以上の値である 0f(x,y) (ii)(X,Y) の取りうる値に対応する確率の総和は1 f(x,y)dxdy=1

任意の事象の確率

任意の集合 AR2 について、その確率は、 P{(X,Y)A}=Af(x,y)dxdy で与えられる。 また、すべての実数 a,c に対し、 P(X=a,Y=c)=aaccf(x,y)dxdy=0 しかし、dx,dy が十分小さいときとは、f(x,y)dxdy は、 P(xXx+dx,yYy+dy) の近似としてみることができる。

同時確率密度関数と同時分布関数の関係

同時分布関数が変数 x,y2階微分可能であるとき、同時確率密度関数と同時分布関数の間には、 f(x,y)=2xyF(x,y) という関係が成り立つ。

周辺分布関数

確率変数ベクトル (X,Y) の同時分布関数 F(x,y) が与えられたとき、X のみに関する分布関数 G(x)=P(Xx)=limyP(Xx,Yy)=limyF(x,y) X周辺確率分布 marginal distribution function という。 同様に、Y のみに関する分布関数 H(y)=P(Yy)=limxP(Xx,Yy)=limxF(x,y) Y の周辺確率分布という。 これらは、同時確率関数、または同時確率密度関数 f(x,y) が与えられたとき、 G(x)={s=xy=f(s,y)Discretexf(s,y)dsdyContinuousH(y)={x=t=yf(x,t)Discreteyf(x,t)dxdtContinuous として求めることができる。

周辺確率関数

離散型2次元確率変数に対し、同時確率関数 f(x,y) が与えられたとき、X または、Y のみに関する確率関数 g(x)=y=f(x,y)h(y)=x=f(x,y) 周辺確率関数 marginal probability function という。

つまり、g(x) は、f(x,y)x で固定して、Y の取りうるすべての値で足したものである。

周辺確率密度関数

同様に、連続型2次元確率変数に対し、同時確率関数 f(x,y) が与えられたとき、X または、Y のみに関する確率密度関数 g(x)=f(x,y)dyh(y)=f(x,y)dx 周辺確率密度関数 marginal probability density function という。

つまり、g(x) は、f(x,y) を実数 x で固定して、Y の取りうるすべての値で積分したものである。

条件付き確率関数

ここでは2次元確率変数 (X,Y) で、X,Y のどちらかの確率変数の値が与えられているときのもういっぽうの確率変数の分布というものを考えてみる。たとえば、X を学生の体重、Y をその身長としたとき、身長170 cm の学生の体重の分布、つまり Y=170 が与えられているときの X の分布を考える。

離散型2次元確率変数 (X,Y) について、Y=y が与えられたときに X=x となる確率は、条件付き確率の定義より、0<f(y) として、 P(X=x|Y=y)=P(X=x,Y=y)P(Y=y)=f(x,y)h(y) で求められる。 このようにして得られた X の分布を Y=y が与えられたときの X条件付き確率分布 conditional probability distribution といい、 g(x|y)=f(x,y)h(y) X条件付き確率関数 conditional probability function という。 同様に、Y の条件付き確率関数は、 h(y|x)=f(x,y)g(x) で与えられる。

同時確率密度関数の性質

条件付き確率関数は、確率の公理を満たすため、すべての (x,y)R2 に関して、
(i)0以上の値である 0g(x|y)0h(y|x) (ii)X または、Y の取りうる値に対応する確率の総和は1 x=g(x|y)=1y=h(y|x)=1

証明

条件付き確率関数の定義式より、 x=g(x|y)=x=f(x,y)h(y)=1h(y)x=f(x,y) 周辺確率関数の定義式 x=f(x,y)=h(y) より、 x=g(x|y)=h(y)h(y)=1

任意の事象の確率

任意の集合 AR について、その確率は、 P(XA|Y=y)=xAg(x|y) で与えられる。

条件付き確率密度関数

離散型のときと同様に、連続型の場合においても、Y=y が与えられたとき、0<f(y) として、 g(x|y)=f(x,y)h(y) X条件付き確率密度関数 conditional probability density functionといい、 h(y|x)=f(x,y)g(x) Y の条件付き確率密度関数という。

同時確率密度関数の性質

離散型のときと同様に、すべての (x,y)R2 に関して、
(i)0以上の値である 0g(x|y)0h(y|x) (ii)X または、Y の取りうる値に対応する確率の総和は1 g(x|y)dx=1h(y|x)dy=1

証明

条件付き確率密度関数の定義式より、 g(x|y)dx=f(x,y)h(y)dx=1h(y)f(x,y)dx 周辺確率関数の定義式 f(x,y)dx=h(y) より、 g(x|y)dx=h(y)h(y)=1

任意の事象の確率

任意の集合 AR について、その確率は、 P(XA|Y=y)=Ag(x|y)dx で与えられる。

条件付き分布と同時確率分布の関係

条件付き確率(密度)関数の定義式を変形すると、条件付き分布と同時確率分布の間には、 f(x,y)=g(x|y)h(y)f(x,y)=h(y|x)g(x) という関係があることが分かる。

この関係を用いて周辺分布を g(x)={y=f(x,y)=y=g(x|y)h(y)Discretef(x,y)dy=g(x|y)h(y)dyContinuoush(y)={x=f(x,y)=x=h(y|x)g(x)Discretef(x,y)dx=h(y|x)g(x)dxContinuous のように導くことができる。 これは、全確率の定理の拡張とみることができる。

また、0<g(x),0<h(y) として、 g(x|y)={h(y|x)g(x)x=h(y|x)g(x)Discreteh(y|x)g(x)h(y|x)g(x)dxContinuoush(y|x)={g(x|y)h(y)y=g(x|y)h(y)Discreteg(x|y)h(y)g(x|y)h(y)dyContinuous これは、ベイズの定理の拡張とみることができる。

確率変数の独立性

2次元変数の独立性

確率変数 (X,Y) がどのような事象 A,B に対しても、 P(XA,YB)=P(XA)P(YB) を満たすとき、X,Y は互いに独立であるという。 ここで、 A=(,x],B=(,y] とすると、 X,Y が独立であるとき、 F(x,y)=P(Xx,Yy)=P(Xx)P(Yy)=G(x)H(y) が成り立つ。 また、(X,Y) が離散型、または連続型の場合には、同時確率(密度)関数と周辺確率(密度)関数との間に、 f(x,y)=g(x)h(y) が成り立つ。 条件付き確率(密度)関数の定義から、X,Y が独立かつ、0<f(x),0<f(y) であるとき f( x | y )=f(x,y)f(y)=f(x)f(y)f(y)=f(x)f( y | x )=f(x,y)f(x)=f(x)f(y)f(x)=f(y) が成り立つ。

多次元変数の独立性

一般に、確率変数 X1,X2,,Xn がどのような事象 A1,A2,,An に対しても、 P(X1A1,,XnAn)=P(X1A1)P(XnAn) を満たすとき、X1,X2,,Xn は互いに独立であるという。 このとき、 F(x1,x2,,xn)=F(x1)F(x2)F(xn)f(x1,x2,,xn)=f(x1)f(x2)f(xn) が成り立つ。 特に X={X1,X2,,Xn} が独立で、 各確率変数 Xi,i=1,2,,n が同じ分布に従うとき、X1,X2,,Xn は、
独立で同一な分布に従う確率変数
independent and identically distributed random variables
と呼ばれる。 また、独立で同一の確率分布にしたがう n 個の確率変数 X={X1,X2,,Xn} を同時に考えるとき、 その確率分布を持つ母集団からのサンプルサイズ n無作為標本 random sampleという。無作為標本の実現値の集まりがデータ・セットである。母集団を特徴づける確率分布を母集団分布 population distribution ということがある。

離散型または連続型の場合、f(xi) を各 Xi,i=1,2,,n の周辺確率関数または周辺確率密度関数とすると、X1,X2,,Xn\ が独立で同一な分布に従う確率変数のときの同時確率密度関数は、 f(x1,x2,,xn)=f(x1)f(x2)f(xn) で与えられる。

また、一般に n 個の独立な確率変数の部分の関数は互いに独立、すなわち、 X1,X2,,Xn が独立 f(X1,X2,,Xr),g(Xr+1,Xr+2,,Xr+s), は互いに独立 が成り立つ。

参考文献

  • 野田 一雄, 宮岡 悦良 著. 入門・演習数理統計. 共立出版, 1990, p.46-58
  • 竹村 彰通 著. 現代数理統計学. 創文社, 1991, p.37-41
  • 東京大学教養学部統計学教室 編. 基礎統計学 1 統計学入門. 東京大学出版会, 1991, p.133-136, p.141-143
  • 黒木 学 著. 数理統計学:統計的推論の基礎. 共立出版, 2020, p.45-54

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ