ペア・マッチングされたデータ内での相関

公開日: 更新日:

【2022年10月3週】 【A000】生物統計学 【A051】コホート研究 【A052】ケース・コントロール研究 【A061】マッチング研究

この記事をシェアする
  • B!
サムネイル画像

本稿では、ペア・マッチングされたデータには、データ内での相関があることを証明しています。この命題により、データ間の独立性を仮定する解析方法の妥当性が損なわれるため、マッチングされたデータについては、特別な解析方法が必要となります。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。

前提条件①:二値応答の場合

各ペアの曝露者と非曝露者は、ある連続な共変量 $Z$ の値にもとづいてマッチングされており、応答値がある値を取る確率は共変量の関数であるとする。

仮定①

$j$ を任意のペアのメンバーの曝露状況を表す指示変数を \begin{gather} j= \left\{\begin{matrix}1&\mathrm{Exposed}\\0&\mathrm{Unexposed}\\\end{matrix}\right. \end{gather} $i$ 番目のペア内での、曝露者と非曝露者の発症状況を表す確率変数を \begin{gather} Y_{ij}= \left\{\begin{matrix}1&\mathrm{Disease}\\0&\mathrm{Not\ Disease}\\\end{matrix}\right. \end{gather} とし、 確率変数 $Y_{ij}$ は、成功確率がそれぞれ $\pi_{i1},\pi_{i0}$ のベルヌーイ分布 \begin{gather} Y_{ij} \sim \mathrm{Ber} \left(\pi_{ij}\right)\\ E \left(Y_{i1}\right)=\pi_{i1} \quad E \left(Y_{i0}\right)=\pi_{i0} \end{gather} に従っているとする。 ここでは、話を単純にするために、一般的な帰無仮説 \begin{align} \pi_{i1}=\pi_{i0} \end{align} の場合を考える。

仮定②

$i$ 番目のペアについて共変量の値が $Z=z_i$ のときの、共通の発症確率を \begin{gather} \pi_{i1}=\pi_{i0}=\pi \left(z_i\right)=\pi_z \end{gather} 共通の発症確率の分散を \begin{align} V \left(\pi_z\right)=\sigma_\pi^2 \end{align} とする。

仮定③

$i$ 番目のペアのメンバーは独立に標本抽出され、マッチングされたベアの応答 \begin{gather} y_{i1} \quad y_{i0} \end{gather} は条件付き独立とする。 すなわち、 \begin{gather} E \left(Y_{i1}\middle| Y_{i0},z_i\right)=E \left(Y_{i1}\middle| z_i\right)=\pi \left(z_i\right)\\ E \left(Y_{i0}\middle| Y_{i1},z_i\right)=E \left(Y_{i0}\middle| z_i\right)=\pi \left(z_i\right)\\ \mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0 \end{gather}

【命題】マッチングされたペア内での相関① 二値応答の場合

【命題】
マッチングされたペア内での相関① 二値応答の場合
Correlation between Matched Pair Data for Dichotomous Response

先述の条件下において、ペア内の応答 $Y_1,Y_0$ の相関係数は、 \begin{align} \rho_{Y_1Y_0}=\frac{\sigma_\pi^2}{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \end{align}

導出法:全共分散の法則・全分散の法則を使用する方法

導出

[1]ペア内の共分散
全共分散の法則より、 \begin{align} \mathrm{Cov} \left(Y_1,Y_2\right)=E \left[\mathrm{Cov} \left(Y_1,Y_2\middle| z\right)\right]+\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_2\middle| z\right)\right] \end{align} ここで、$Y_1,Y_0$ は、$Z=z$ において条件付き独立 $\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0$ なので、 \begin{align} E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)\right]=E \left(0\right)=0 \end{align} 共分散の公式 $\mathrm{Cov} \left(X,Y\right)=E \left(XY\right)-E \left(X\right)E \left(Y\right)$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=E \left[E \left(y_{i1}\middle| z\right) \cdot E \left(y_{i0}\middle| z\right)\right]-E \left[E \left(y_{i1}\middle| z\right)\right] \cdot E \left[E \left(y_{i0}\middle| z\right)\right] \end{align} また $E \left(Y_1\middle| Z\right)=E \left(Y_0\middle| Z\right)=\pi \left(z\right)$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=E \left[ \left\{\pi \left(z\right)\right\}^2\right]- \left[E \left\{\pi \left(z\right)\right\}\right]^2 \end{align} 分散の公式 $V \left(X\right)=E \left(X^2\right)- \left\{E \left(X\right)\right\}^2$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=V \left\{\pi \left(z\right)\right\}=\sigma_\pi^2 \end{align} したがって、 \begin{align} \mathrm{Cov} \left(Y_1,Y_0\right)=\sigma_\pi^2 \neq 0 \end{align}

[2]応答値の分散
全分散の法則 $V \left(X\right)=E \left[V \left(X\middle| Y\right)\right]+V \left[E \left(X\middle| Y\right)\right]$ より、 \begin{align} V \left(Y_j\right)=E \left[V \left(Y_j\middle| z\right)\right]+V \left[E \left(Y_j\middle| z\right)\right] \end{align} ベルヌーイ分布の分散の公式 $V \left(X\right)=p \left(1-p\right)$ より、 \begin{align} V \left(Y_j\right)&=E \left[\pi_z \left(1-\pi_z\right)\right]+V \left(\pi_z\right)\\ &=E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2 \end{align}

[3]ペア内の相関係数
相関係数の定義式より、 \begin{align} \rho_{Y_1Y_0}&=\frac{\mathrm{Cov} \left(Y_1,Y_0\right)}{\sqrt{V \left(Y_1\right)}\sqrt{V \left(Y_0\right)}}\\ &=\frac{\sigma_\pi^2}{\sqrt{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \cdot \sqrt{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2}}\\ &=\frac{\sigma_\pi^2}{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \end{align} $\blacksquare$

前提条件②:連続値応答の場合

各ペアの曝露者と非曝露者は、ある連続な共変量 $Z$ の値にもとづいてマッチングされており、応答値がある値を取る確率は共変量の関数であるとする。

仮定①

$j$ を任意のペアのメンバーの曝露状況を表す指示変数を \begin{gather} j= \left\{\begin{matrix}1&\mathrm{Exposed}\\0&\mathrm{Unexposed}\\\end{matrix}\right. \end{gather} $i$ 番目のペア内での、曝露者と非曝露者の連続的な応答値を表す確率変数を \begin{gather} Y_{ij} \end{gather} とする。

仮定②

$Y_{ij}$ に対して、回帰モデル \begin{gather} y_{ij}=u \left(z_i\right)+\varepsilon_{ij} \end{gather} を考える。 ただし、$u \left(z_i\right)=u_z$ は、共変量の値が $Z=z$ のときの $Y_{ij}$ の条件付き期待値とし、 \begin{gather} u_z=E \left(y_{i1}\middle| z_i\right)=E \left(y_{i0}\middle| z_i\right)\\ V \left(u_z\right)=\sigma_u^2 \end{gather} を満たす。 誤差項 $\varepsilon_{ij}$ は、 \begin{gather} E \left(\varepsilon_{ij}\right)=0 \quad V \left(\varepsilon_{ij}\right)=\sigma_\varepsilon^2\\ \mathrm{Cov} \left(\varepsilon_{i1},\varepsilon_{i2}\right)=0 \end{gather} を満たす。

仮定③

誤差項 $\varepsilon_{ij}$ と条件付き期待値 $u_z$ は互いに独立である。

仮定④

$i$ 番目のペアにおけるメンバーは独立に標本抽出され、マッチングされたベアの応答値 \begin{gather} y_{i1} \quad y_{i0} \end{gather} は条件付き独立とする。 \begin{gather} E \left(Y_{i1}\middle| Y_{i0},Z\right)=E \left(Y_{i1}\middle| Z\right)=u_z\\ E \left(Y_{i0}\middle| Y_{i1},Z\right)=E \left(Y_{i0}\middle| Z\right)=u_z\\ \mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)=0 \end{gather}

【命題】マッチングされたペア内での相関② 連続値応答の場合

【命題】
マッチングされたペア内での相関② 連続値応答の場合
Correlation between Matched Pair Data for Continuous Value Response

先述の条件下において、ペア内の応答 $Y_1,Y_0$ の相関係数は、 \begin{align} \rho_{Y_1Y_0}=\frac{\sigma_u^2}{\sigma_u^2+\sigma_\varepsilon^2} \end{align}

導出法:全共分散の法則・全分散の法則を使用する方法

導出

〔1〕ペア内の共分散
全共分散の法則より、 \begin{align} \mathrm{Cov} \left(Y_1,Y_0\right)=E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)\right]+\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right] \end{align} ここで、$Y_1,Y_0$ は、$Z=z$ において条件付き独立 $\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0$ なので、 \begin{align} E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)\right]=E \left(0\right)=0 \end{align} 共分散の公式 $\mathrm{Cov} \left(X,Y\right)=E \left(XY\right)-E \left(X\right)E \left(Y\right)$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right]=E \left[E \left(y_{i1}\middle| z\right) \cdot E \left(y_{i0}\middle| z\right)\right]-E \left[E \left(y_{i1}\middle| z\right)\right] \cdot E \left[E \left(y_{i0}\middle| z\right)\right] \end{align} また $E \left(Y_1\middle| z\right)=E \left(Y_0\middle| z\right)=u_z$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right]=E \left(u_z^2\right)- \left[E \left(u_z\right)\right]^2 \end{align} 分散の公式 $V \left(X\right)=E \left(X^2\right)- \left\{E \left(X\right)\right\}^2$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=V \left(u_z\right) \end{align} したがって、$V \left(u_z\right)=\sigma_u^2$ とすると、 \begin{align} \mathrm{Cov} \left(Y_1,Y_0\right)=\sigma_u^2 \neq 0 \end{align}

〔2〕応答値の分散
回帰式の分散を取ると、$u_z$ は定数なので、 \begin{align} V \left(Y_j\middle| z\right)&=V \left(u_z+\varepsilon_{i1}\middle| z\right)\\ &=V \left(\varepsilon_{i1}\right)\\ &=\sigma_\varepsilon^2 \end{align} 全分散の法則 $V \left(X\right)=E \left[V \left(X\middle| Y\right)\right]+V \left[E \left(X\middle| Y\right)\right]$ より、 \begin{align} V \left(Y_j\right)&=E \left(\sigma_\varepsilon^2\right)+V \left(u_z\right)\\ &=\sigma_u^2+\sigma_\varepsilon^2 \end{align}

〔3〕ペア内の相関係数
相関係数の定義式より、 \begin{align} \rho_{Y_1Y_0}&=\frac{\mathrm{Cov} \left(Y_1,Y_0\right)}{\sqrt{V \left(Y_1\right)}\sqrt{V \left(Y_0\right)}}\\ &=\frac{\sigma_u^2}{\sqrt{\sigma_u^2+\sigma_\varepsilon^2} \cdot \sqrt{\sigma_u^2+\sigma_\varepsilon^2}}\\ &=\frac{\sigma_u^2}{\sigma_\varepsilon^2+\sigma_u^2} \end{align} $\blacksquare$

参考文献

  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.223-224, 258

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ