ロジスティック・モデルによる対数オッズ比の最尤推定

公開日:

【2022年11月2週】 【A000】生物統計学 【A051】コホート研究 【A090】多変量回帰モデル 【A092】ロジスティック回帰分析

この記事をシェアする
  • B!
サムネイル画像

本稿では、ロジスティック・モデルによる対数オッズ比の最尤推定について解説しています。回帰係数の最尤推定量の分散がWoolfによる対数オッズ比の公式と等しいことの証明、回帰係数のワルド検定、尤度比検定、有効スコア検定の検定統計量の導出、有効スコア検定がコクラン検定と同値であることの証明が含まれます。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合(n0,π0 など)や「2」である場合(n2,π2 など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
  • 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。
  • デルタ法を用いる際、剰余項(2次の項)が漸近的に無視できる(0に確率収束する)と仮定しています。

【定理】ロジスティック・モデルによる対数オッズ比の最尤推定

【定理】
ロジスティック・モデルによる対数オッズ比の最尤推定
MLE of Log Odd Ratios by Logistic Regression Models

マッチングなしのコホート研究(積二項モデル)において、ロジスティック・モデルを用いると、パラメータ α,β の最尤推定量は、 α^=logbdβ^=logadbc で与えられる。

証明

証明

積二項尤度の基本式より、 L(π1,π0)=n1Caπ1a(1π1)n1an0Cbπ0b(1π0)n0b 対数尤度関数の定義式 l(θ,x)=logL(θ,x) より、 l(π1,π0)=log[n1Caπ1a(1π1)n1an0Cbπ0b(1π0)n0b]=logn1Ca+alogπ1+(n1a)log(1π1)+logn0Cb+blogπ0+(n0b)log(1π0) logn1Ca+logn0Cb=C とすると、n1a=c,n0b=d より、 l(π1,π0)=alogπ1+clog(1π1)+blogπ0+dlog(1π0)+C

対数尤度をパラメータ α,β およびの周辺度数 n1,n0,m1,m0 で表すと、 l(π1,π0)=alog(eα+β1+eα+β)+clog(11+eα+β)+blog(eα1+eα)+dlog(11+eα)+C=alog(eα+β)alog(1+eα+β)clog(1+eα+β)+blog(eα)blog(1+eα)dlog(1+eα)+C=alog(eα+β)(a+c)log(1+eα+β)+blog(eα)(b+d)log(1+eα)+C 各セル度数どうしの関係より、 a+c=n1b+d=n0a+b=m1 よって、 l(π1,π0)=a(α+β)n1log(1+eα+β)+bαn0log(1+eα)+C=(a+b)α+aβn1log(1+eα+β)n0log(1+eα)+C=m1α+aβn1log(1+eα+β)n0log(1+eα)+C この対数尤度関数を α で偏微分すると、 Uα(θ)=m1n1eα+β1+eα+βn0eα1+eα ロジスティック・モデルの仮定より、 π1=eα+β1+eα+βπ0=eα1+eα よって、 Uα(θ)=m1n1π1n0π0 同様に、対数尤度関数を β で偏微分すると、 Uβ(θ)=an1eα+β1+eα+β=an1π1

ヘッセ行列の成分の定義より、 Hα(θ)=2α2l(θ)=n1eα+β(1+eα+β)2n0eα(1+eα)2=n1π1(1π1)n0π0(1π0) Hβ(θ)=2β2l(θ)=n1eα+β(1+eα+β)2=n1π1(1π1) Hαβ(θ)=2αβl(θ)=n1eα+β(1+eα+β)2=n1π1(1π1) 観測情報行列の定義 i(θ)=H(θ) と二項分布における期待情報行列との関係 i(θ)=I(θ) から I(θ)=i(θ)=[Hα(θ)Hαβ(θ)Hαβ(θ)Hβ(θ)]=[n1π1(1π1)+n0π0(1π0)n1π1(1π1)n1π1(1π1)n1π1(1π1)]

最尤推定量 U(θ^)=0 を求めると、 (1)Uα(α^,β^)=m1n1π1n0π0=0(2)Uβ(α^,β^)=an1π1=0 この連立方程式を解くと、 π0=m1an0=bn0eα^1+eα^=bn0eα^=bn0b=bdα^=logbd この結果と式 (2) より、 an1eα^+β^1+eα^+β^=0 これを β^ について解くと、 (1+eα^+β^)an1eα^+β^=0a+aeα^+β^n1eα^+β^=0a+(an1)eα^eβ^=0acbdeβ^=0eβ^=adbcβ^=logadbc

【定理】ロジスティック・モデルによる対数オッズ比の漸近分散

【定理】
ロジスティック・モデルによる対数オッズ比の漸近分散
Asymptotic Variance of Log Odd Ratios by Logistic Regression Models

ロジスティック・モデルのパラメータ α,β の最尤推定量の分散と共分散は、 V(α^)=1n0π0(1π0)V(β^)=1n1π1(1π1)+1n0π0(1π0)Cov(α^,β^)=1n0π0(1π0) で与えられる。

パラメータ β の最尤推定量の分散は、Woolfの公式と等しく V^(β^)=1a+1b+1c+1d で与えられる。

導出

導出

期待情報行列の成分は、 I(θ)=[Iα(θ)Iαβ(θ)Iαβ(θ)TIβ(θ)] このとき、推定量の共分散行列は、V(θ^)=I(θ)1 となる。期待情報行列の逆行列は、 I(θ)1=1|I(θ)|[Iβ(θ)Iαβ(θ)TIαβ(θ)Iα(θ)] 2×2行列の行列式の公式 |A|=a11a22a12a21 より、 |I(θ)|={n1π1(1π1)+n0π0(1π0)}n1π1(1π1){n1π1(1π1)}2={n1π1(1π1)+n0π0(1π0)n1π1(1π1)}n1π1(1π1)=n1π1(1π1)n0π0(1π2) π1(1π1)=ψ1,π0(1π0)=ψ0 とすると、 |I(θ)|=n1ψ1n0ψ0 したがって、 I(θ)1=1n1ψ1n0ψ0[n1ψ1n1ψ1n1ψ1n1ψ1+n0ψ0]=[1n0ψ01n0ψ01n0ψ0n1ψ1+n0ψ0n1ψ1n0ψ0]

別な表現として、 I(θ)1=[[I(θ)1]α[I(θ)1]α,β[I(θ)1]α,βT[I(θ)1]β] したがって、推定量の共分散行列は、 V(α^)=[I(θ)1]α=1n0π0(1π0) V(β^)=[I(θ)1]β=n1π1(1π1)+n0π0(1π0)n1π1(1π1)n0π0(1π0)=1n1π1(1π1)+1n0π0(1π0) Cov(α^,β^)=[I(θ)1]α,β=1n0π0(1π0)

推定量の共分散行列に、ロジスティック・モデルの各値を代入すると、 V(β^)=1n1eα+β1+eα+β11+eα+β+1n0eα1+eα11+eα=(1+eα+β)2n1eα+β+(1+eα)2n0eα この最尤推定量は、α=α^,β=β^ を代入して、 V^(β^)=(1+eα^+β^)2n1eα^+β^+(1+eα^)2n0eα^=(1+ac)2n1ac+(1+bd)2n0bd=(a+c)2c2can1+(b+d)2d2dbn0=(a+c)2acn1+(b+d)2bdn0 a+c=n1,b+d=n0 より、 V^(β^)=a+cac+b+dbd 各項を部分分数分解すると、 V^(β^)=1a+1b+1c+1d

【定理】ロジスティック・モデルのパラメータに対する検定統計量

【定理】
ロジスティック・モデルのパラメータに関する検定統計量
Test Statistics for the Parameter of Logistic Regression Models

ロジスティック・モデルのパラメータに関する帰無仮説と対立仮説を H0:β=0H1:β0 とする。

この仮説を検定する検定統計量について、
〔1〕ワルド検定の検定統計量は、 χW2=(logadbc)2[1a+1b+1c+1d] で与えられる。 〔2〕尤度比検定の検定統計量は、 χLR2=2log[aabbccddNNn1n1n0n0m1m1m0m0] で与えられる。 〔3〕有効スコア検定の検定統計量は、コクラン検定と等しく χ2=[an1m1N]2n1n0m1m0N3 で与えられる。

導出

導出

ロジスティック・モデルのパラメータと対数オッズ比の関係から、問題としている帰無仮説と対立仮説を評価すると、 H0:logOR=0H1:logOR0 すなわち、この検定問題は、通常の分割表における曝露と発症の関係に関する検定問題と同値である。

〔1〕ワルド検定の検定統計量
ワルド検定の検定統計量の定義 χW2=β^2V^(β^) より、 χW2=(logadbc)2[1a+1b+1c+1d]

〔2〕尤度比検定の検定統計量
対数尤度の式より、帰無仮説 β=0 における対数尤度は、 l(π1,π2)=m1α+aβn1log(1+eα+β)n0log(1+eα)l(α^,0)=m1α+a0n1log(1+eα+0)n0log(1+eα)=m1α(n1+n0)log(1+eα)=m1αNlog(1+eα) この対数尤度関数を α で偏微分すると、スコア関数は、 Uα(θ)=m1Neα1+eα 尤度方程式 Uα(θ)=0 を解くことによって得られる α の最尤推定量は、 m1Neα^01+eα^0=0eα^01+eα^0=m1N(1m1N)eα^0=m1Neα^0=m1NNNm1eα^0=m1m0α^0=logm1m0 尤度比検定の検定統計量の定義 χLR2=2logL(α^,β^)2logL(α^,0) より、 χLR2=2{m1α^+aβ^n1log(1+eα^+β^)n0log(1+eα)}2{m1α^0Nlog(1+eα^0)}=2{m1(α^α^0)+aβ^n1log(1+eα^+β^)n0log(1+eα)+Nlog(1+eα^0)}=2{m1(logbdlogm1m0)+alogadbcn1log(1+ac)n0log(1+bd)+Nlog(1+m1m0)}=2{m1logbm0dm1+alogadbcn1logn1cn0logn0d+NlogNm0}=2(m1logbm0dm1+alogadbc+n1logcn1+n0logdn0+NlogNm0)=2(logbm1m0m1dm1m1m1+logaadabaca+logcn1n1n1+logdn0n0n0+logNNm0N)=2log[bm1m0m1dm1m1m1aadabacacn1n1n1dn0n0n0NNm0N]=2log[aaNNn1n1n0n0m1m1bm1bacn1cadadn0dm1m0m1m0N]=2log[aaNNn1n1n0n0m1m1ba+baca+cada+b+d(a+b)m0(m1+m0)m1]=2log[aabbccddNNn1n1n0n0m1m1m0m0]

〔3〕有効スコア検定の検定統計量
β に関する、スコア関数は、帰無仮説 β=0 においては、 Uβ(θ)=an1eα^01+eα^0=an1m1m01+m1m0=an1m1N=aE^(a) 帰無仮説のもとで π1=π0=π であり、 π^=eα^01+eα^0=m1N これを、期待情報行列 I(θ) の式に代入すると、 I(θ^0)=[n1π^(1π^)+n0π^(1π^)n1π^(1π^)n1π^(1π^)n1π^(1π^)]=π^(1π^)[Nn1n1n1] 期待情報行列の逆行列 I(θ)1 の式に代入すると、 I(θ^0)1=[1n0π^(1π^)1n0π^(1π^)1n0π^(1π^)n1π^(1π^)+n0π^(1π^)n1π^(1π^)n0π^(1π^)]=1π^(1π^)[1n01n01n0Nn1n0]=1π^(1π^)1Nn1n12[n1n1n1N] また、帰無仮説のもとで β に対応する推定情報量の逆行列の成分は、 V(β^)=[I(θ)1]β=Nn1n0π^(1π^)=N3n1n0m1m0 結果として有効スコア検定 χ2=β^2V^(β^) は、 χ2=[an1m1N]2n1n0m1m0N3=[aE^(a)]2V^[aE^(a)] これは、通常の分割表に対するコクラン検定の検定統計量と等しい。

超幾何分布モデルに対するロジスティック・モデル

超幾何分布モデルに対してもロジスティック・モデルを仮定することができる。この場合もやはり、対数オッズ比が回帰係数と等しい β=logφ とするモデルである。

周辺度数が固定されているという条件のもとでは、条件付き超幾何確率となる尤度関数は、 L(φ)=n1Can2Cm1aφai=alaun1Cin2Cm1iφi β=logφ より、対数尤度 l(θ)=logL(θ) は、 l(φ)=log(n1Can2Cm1aφa)log(i=alaun1Cin2Cm1iφi)=logn1Ca+logn2Cm1a+alogφlog(i=alaun1Cin2Cm1iφi)=aβlog(i=alaun1Cin2Cm1iφi)+C スコア関数 U(θ)=θl(θ) は、この対数尤度関数を β で偏微分して、 U(β)=ai=alaun1Cin2Cm1iieiβi=alaun1Cin2Cm1ieiβ=aE(a|β) 尤度方程式 U(θ)=0 は、 ai=alaun1Cin2Cm1iieiβi=alaun1Cin2Cm1ieiβ=0ai=alaun1Cin2Cm1ieiβ=i=alaun1Cin2Cm1iieiβ これには閉形式の解が存在しないため、ニュートン・ラフソン法などの反復計算が必要となる。これを行うためには、ヘッセ行列、あるいは観測情報量に関する式が必要になる。

表記の省略のため、次の Ci=n1Cin0Cm1i という文字を用いると、 観測情報量 i(β)=2β2l(β) は、 i(β)=[i=alauCieiβ][i=alauCii2eiβ][i=alauCiieiβ]2[i=alauCieiβ]2=i=alauCii2eiβi=alauCieiβ[i=alauCiieiβi=alauCieiβ]2 ここで、以下が成り立つので、 E(a2|β)=i=alauCii2eiβi=alauCieiβ{E(a|β)}2=[i=alauCiieiβi=alauCieiβ]2 観測情報量および期待情報量は i(β)=I(β)=E(a2|β){E(a|β)}2=V(a|β)

有効スコア検定

帰無仮説 H0:β=β0=0 のもとでのスコア方程式は、 U(β0)=ai=alauCiii=alauCi=aE(a|β0)=am1n1N 期待情報量は、 I(β0)=V(a|β0)=m1n1m0n0N2(N1) スコア検定量の定義式より、 χ2=[U(β)]2I(β0)=[aE(a|β0)]2V(a|β0)=[am1n1N]2m1n1m2n2N2(N1) これはマンテル・ヘンツェル検定の検定統計量と等しい。

スコアにもとづく推定

スコアにもとづく推定値の公式 θ^0=U(θ0)I(θ0) より、 β^=(an1m1N){N2(N1)n1n0m1m0} また、スコアにもとづく推定値の分散の公式 V(θ^0)=1I(θ0) より、 V(β^)=N2(N1)n1n0m1m0

参考文献

  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.268-278

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ