ペア・マッチングされたデータ内での相関

公開日:

【2022年10月3週】 【A000】生物統計学 【A051】コホート研究 【A052】ケース・コントロール研究 【A061】マッチング研究

この記事をシェアする
  • B!
サムネイル画像

本稿では、ペア・マッチングされたデータには、データ内での相関があることを証明しています。この命題により、データ間の独立性を仮定する解析方法の妥当性が損なわれるため、マッチングされたデータについては、特別な解析方法が必要となります。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合(n0,π0 など)や「2」である場合(n2,π2 など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。

前提条件①:二値応答の場合

各ペアの曝露者と非曝露者は、ある連続な共変量 Z の値にもとづいてマッチングされており、応答値がある値を取る確率は共変量の関数であるとする。

仮定①

j を任意のペアのメンバーの曝露状況を表す指示変数を j={1Exposed0Unexposed i 番目のペア内での、曝露者と非曝露者の発症状況を表す確率変数を Yij={1Disease0Not Disease とし、 確率変数 Yij は、成功確率がそれぞれ πi1,πi0 のベルヌーイ分布 YijBer(πij)E(Yi1)=πi1E(Yi0)=πi0 に従っているとする。 ここでは、話を単純にするために、一般的な帰無仮説 πi1=πi0 の場合を考える。

仮定②

i 番目のペアについて共変量の値が Z=zi のときの、共通の発症確率を πi1=πi0=π(zi)=πz 共通の発症確率の分散を V(πz)=σπ2 とする。

仮定③

i 番目のペアのメンバーは独立に標本抽出され、マッチングされたベアの応答 yi1yi0 は条件付き独立とする。 すなわち、 E(Yi1|Yi0,zi)=E(Yi1|zi)=π(zi)E(Yi0|Yi1,zi)=E(Yi0|zi)=π(zi)Cov(Y1,Y0|z)=0

【命題】マッチングされたペア内での相関① 二値応答の場合

【命題】
マッチングされたペア内での相関① 二値応答の場合
Correlation between Matched Pair Data for Dichotomous Response

先述の条件下において、ペア内の応答 Y1,Y0 の相関係数は、 ρY1Y0=σπ2E[πz(1πz)]+σπ2

導出法:全共分散の法則・全分散の法則を使用する方法

導出

[1]ペア内の共分散
全共分散の法則より、 Cov(Y1,Y2)=E[Cov(Y1,Y2|z)]+Cov[E(Y1|z),E(Y2|z)] ここで、Y1,Y0 は、Z=z において条件付き独立 Cov(Y1,Y0|z)=0 なので、 E[Cov(Y1,Y0|Z)]=E(0)=0 共分散の公式 Cov(X,Y)=E(XY)E(X)E(Y) より、 Cov[E(Y1|Z),E(Y0|Z)]=E[E(yi1|z)E(yi0|z)]E[E(yi1|z)]E[E(yi0|z)] また E(Y1|Z)=E(Y0|Z)=π(z) より、 Cov[E(Y1|Z),E(Y0|Z)]=E[{π(z)}2][E{π(z)}]2 分散の公式 V(X)=E(X2){E(X)}2 より、 Cov[E(Y1|Z),E(Y0|Z)]=V{π(z)}=σπ2 したがって、 Cov(Y1,Y0)=σπ20

[2]応答値の分散
全分散の法則 V(X)=E[V(X|Y)]+V[E(X|Y)] より、 V(Yj)=E[V(Yj|z)]+V[E(Yj|z)] ベルヌーイ分布の分散の公式 V(X)=p(1p) より、 V(Yj)=E[πz(1πz)]+V(πz)=E[πz(1πz)]+σπ2

[3]ペア内の相関係数
相関係数の定義式より、 ρY1Y0=Cov(Y1,Y0)V(Y1)V(Y0)=σπ2E[πz(1πz)]+σπ2E[πz(1πz)]+σπ2=σπ2E[πz(1πz)]+σπ2

前提条件②:連続値応答の場合

各ペアの曝露者と非曝露者は、ある連続な共変量 Z の値にもとづいてマッチングされており、応答値がある値を取る確率は共変量の関数であるとする。

仮定①

j を任意のペアのメンバーの曝露状況を表す指示変数を j={1Exposed0Unexposed i 番目のペア内での、曝露者と非曝露者の連続的な応答値を表す確率変数を Yij とする。

仮定②

Yij に対して、回帰モデル yij=u(zi)+εij を考える。 ただし、u(zi)=uz は、共変量の値が Z=z のときの Yij の条件付き期待値とし、 uz=E(yi1|zi)=E(yi0|zi)V(uz)=σu2 を満たす。 誤差項 εij は、 E(εij)=0V(εij)=σε2Cov(εi1,εi2)=0 を満たす。

仮定③

誤差項 εij と条件付き期待値 uz は互いに独立である。

仮定④

i 番目のペアにおけるメンバーは独立に標本抽出され、マッチングされたベアの応答値 yi1yi0 は条件付き独立とする。 E(Yi1|Yi0,Z)=E(Yi1|Z)=uzE(Yi0|Yi1,Z)=E(Yi0|Z)=uzCov(Y1,Y0|Z)=0

【命題】マッチングされたペア内での相関② 連続値応答の場合

【命題】
マッチングされたペア内での相関② 連続値応答の場合
Correlation between Matched Pair Data for Continuous Value Response

先述の条件下において、ペア内の応答 Y1,Y0 の相関係数は、 ρY1Y0=σu2σu2+σε2

導出法:全共分散の法則・全分散の法則を使用する方法

導出

〔1〕ペア内の共分散
全共分散の法則より、 Cov(Y1,Y0)=E[Cov(Y1,Y0|z)]+Cov[E(Y1|z),E(Y0|z)] ここで、Y1,Y0 は、Z=z において条件付き独立 Cov(Y1,Y0|z)=0 なので、 E[Cov(Y1,Y0|Z)]=E(0)=0 共分散の公式 Cov(X,Y)=E(XY)E(X)E(Y) より、 Cov[E(Y1|z),E(Y0|z)]=E[E(yi1|z)E(yi0|z)]E[E(yi1|z)]E[E(yi0|z)] また E(Y1|z)=E(Y0|z)=uz より、 Cov[E(Y1|z),E(Y0|z)]=E(uz2)[E(uz)]2 分散の公式 V(X)=E(X2){E(X)}2 より、 Cov[E(Y1|Z),E(Y0|Z)]=V(uz) したがって、V(uz)=σu2 とすると、 Cov(Y1,Y0)=σu20

〔2〕応答値の分散
回帰式の分散を取ると、uz は定数なので、 V(Yj|z)=V(uz+εi1|z)=V(εi1)=σε2 全分散の法則 V(X)=E[V(X|Y)]+V[E(X|Y)] より、 V(Yj)=E(σε2)+V(uz)=σu2+σε2

〔3〕ペア内の相関係数
相関係数の定義式より、 ρY1Y0=Cov(Y1,Y0)V(Y1)V(Y0)=σu2σu2+σε2σu2+σε2=σu2σε2+σu2

参考文献

  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.223-224, 258

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ