ペア・マッチングされたデータ内での相関-あるノマドの知の旅路～数学・統計学への道

本稿では、ペア・マッチングされたデータには、データ内での相関があることを証明しています。この命題により、データ間の独立性を仮定する解析方法の妥当性が損なわれるため、マッチングされたデータについては、特別な解析方法が必要となります。

なお、閲覧にあたっては、以下の点にご注意ください。

スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
曝露（発症）状況を表す右下の添え字は、「0」である場合（$n_0,\pi_0$ など）や「2」である場合（$n_2,\pi_2$ など）がありますが、どちらも「非曝露群（コントロール群）」を表しています。

前提条件①：二値応答の場合

各ペアの曝露者と非曝露者は、ある連続な共変量 $Z$ の値にもとづいてマッチングされており、応答値がある値を取る確率は共変量の関数であるとする。

仮定①

$j$ を任意のペアのメンバーの曝露状況を表す指示変数を \begin{gather} j= \left\{\begin{matrix}1&\mathrm{Exposed}\\0&\mathrm{Unexposed}\\\end{matrix}\right. \end{gather} $i$ 番目のペア内での、曝露者と非曝露者の発症状況を表す確率変数を \begin{gather} Y_{ij}= \left\{\begin{matrix}1&\mathrm{Disease}\\0&\mathrm{Not\ Disease}\\\end{matrix}\right. \end{gather} とし、確率変数 $Y_{ij}$ は、成功確率がそれぞれ $\pi_{i1},\pi_{i0}$ のベルヌーイ分布 \begin{gather} Y_{ij} \sim \mathrm{Ber} \left(\pi_{ij}\right)\\ E \left(Y_{i1}\right)=\pi_{i1} \quad E \left(Y_{i0}\right)=\pi_{i0} \end{gather} に従っているとする。ここでは、話を単純にするために、一般的な帰無仮説 \begin{align} \pi_{i1}=\pi_{i0} \end{align} の場合を考える。

仮定②

$i$ 番目のペアについて共変量の値が $Z=z_i$ のときの、共通の発症確率を \begin{gather} \pi_{i1}=\pi_{i0}=\pi \left(z_i\right)=\pi_z \end{gather} 共通の発症確率の分散を \begin{align} V \left(\pi_z\right)=\sigma_\pi^2 \end{align} とする。

仮定③

$i$ 番目のペアのメンバーは独立に標本抽出され、マッチングされたベアの応答 \begin{gather} y_{i1} \quad y_{i0} \end{gather} は条件付き独立とする。すなわち、 \begin{gather} E \left(Y_{i1}\middle| Y_{i0},z_i\right)=E \left(Y_{i1}\middle| z_i\right)=\pi \left(z_i\right)\\ E \left(Y_{i0}\middle| Y_{i1},z_i\right)=E \left(Y_{i0}\middle| z_i\right)=\pi \left(z_i\right)\\ \mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0 \end{gather}

【命題】マッチングされたペア内での相関① 二値応答の場合

【命題】
マッチングされたペア内での相関① 二値応答の場合
Correlation between Matched Pair Data for Dichotomous Response

先述の条件下において、ペア内の応答 $Y_1,Y_0$ の相関係数は、 \begin{align} \rho_{Y_1Y_0}=\frac{\sigma_\pi^2}{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \end{align}

導出法：全共分散の法則・全分散の法則を使用する方法

導出

［1］ペア内の共分散
全共分散の法則より、 \begin{align} \mathrm{Cov} \left(Y_1,Y_2\right)=E \left[\mathrm{Cov} \left(Y_1,Y_2\middle| z\right)\right]+\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_2\middle| z\right)\right] \end{align} ここで、$Y_1,Y_0$ は、$Z=z$ において条件付き独立 $\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0$ なので、 \begin{align} E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)\right]=E \left(0\right)=0 \end{align} 共分散の公式 $\mathrm{Cov} \left(X,Y\right)=E \left(XY\right)-E \left(X\right)E \left(Y\right)$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=E \left[E \left(y_{i1}\middle| z\right) \cdot E \left(y_{i0}\middle| z\right)\right]-E \left[E \left(y_{i1}\middle| z\right)\right] \cdot E \left[E \left(y_{i0}\middle| z\right)\right] \end{align} また $E \left(Y_1\middle| Z\right)=E \left(Y_0\middle| Z\right)=\pi \left(z\right)$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=E \left[ \left\{\pi \left(z\right)\right\}^2\right]- \left[E \left\{\pi \left(z\right)\right\}\right]^2 \end{align} 分散の公式 $V \left(X\right)=E \left(X^2\right)- \left\{E \left(X\right)\right\}^2$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=V \left\{\pi \left(z\right)\right\}=\sigma_\pi^2 \end{align} したがって、 \begin{align} \mathrm{Cov} \left(Y_1,Y_0\right)=\sigma_\pi^2 \neq 0 \end{align}

［2］応答値の分散
全分散の法則 $V \left(X\right)=E \left[V \left(X\middle| Y\right)\right]+V \left[E \left(X\middle| Y\right)\right]$ より、 \begin{align} V \left(Y_j\right)=E \left[V \left(Y_j\middle| z\right)\right]+V \left[E \left(Y_j\middle| z\right)\right] \end{align} ベルヌーイ分布の分散の公式 $V \left(X\right)=p \left(1-p\right)$ より、 \begin{align} V \left(Y_j\right)&=E \left[\pi_z \left(1-\pi_z\right)\right]+V \left(\pi_z\right)\\ &=E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2 \end{align}

［3］ペア内の相関係数
相関係数の定義式より、 \begin{align} \rho_{Y_1Y_0}&=\frac{\mathrm{Cov} \left(Y_1,Y_0\right)}{\sqrt{V \left(Y_1\right)}\sqrt{V \left(Y_0\right)}}\\ &=\frac{\sigma_\pi^2}{\sqrt{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \cdot \sqrt{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2}}\\ &=\frac{\sigma_\pi^2}{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \end{align} $\blacksquare$

前提条件②：連続値応答の場合

仮定①

仮定②

$Y_{ij}$ に対して、回帰モデル \begin{gather} y_{ij}=u \left(z_i\right)+\varepsilon_{ij} \end{gather} を考える。ただし、$u \left(z_i\right)=u_z$ は、共変量の値が $Z=z$ のときの $Y_{ij}$ の条件付き期待値とし、 \begin{gather} u_z=E \left(y_{i1}\middle| z_i\right)=E \left(y_{i0}\middle| z_i\right)\\ V \left(u_z\right)=\sigma_u^2 \end{gather} を満たす。誤差項 $\varepsilon_{ij}$ は、 \begin{gather} E \left(\varepsilon_{ij}\right)=0 \quad V \left(\varepsilon_{ij}\right)=\sigma_\varepsilon^2\\ \mathrm{Cov} \left(\varepsilon_{i1},\varepsilon_{i2}\right)=0 \end{gather} を満たす。

仮定③

誤差項 $\varepsilon_{ij}$ と条件付き期待値 $u_z$ は互いに独立である。

仮定④

$i$ 番目のペアにおけるメンバーは独立に標本抽出され、マッチングされたベアの応答値 \begin{gather} y_{i1} \quad y_{i0} \end{gather} は条件付き独立とする。 \begin{gather} E \left(Y_{i1}\middle| Y_{i0},Z\right)=E \left(Y_{i1}\middle| Z\right)=u_z\\ E \left(Y_{i0}\middle| Y_{i1},Z\right)=E \left(Y_{i0}\middle| Z\right)=u_z\\ \mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)=0 \end{gather}

【命題】マッチングされたペア内での相関② 連続値応答の場合

【命題】
マッチングされたペア内での相関② 連続値応答の場合
Correlation between Matched Pair Data for Continuous Value Response

先述の条件下において、ペア内の応答 $Y_1,Y_0$ の相関係数は、 \begin{align} \rho_{Y_1Y_0}=\frac{\sigma_u^2}{\sigma_u^2+\sigma_\varepsilon^2} \end{align}

導出法：全共分散の法則・全分散の法則を使用する方法

導出

〔1〕ペア内の共分散
全共分散の法則より、 \begin{align} \mathrm{Cov} \left(Y_1,Y_0\right)=E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)\right]+\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right] \end{align} ここで、$Y_1,Y_0$ は、$Z=z$ において条件付き独立 $\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0$ なので、 \begin{align} E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)\right]=E \left(0\right)=0 \end{align} 共分散の公式 $\mathrm{Cov} \left(X,Y\right)=E \left(XY\right)-E \left(X\right)E \left(Y\right)$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right]=E \left[E \left(y_{i1}\middle| z\right) \cdot E \left(y_{i0}\middle| z\right)\right]-E \left[E \left(y_{i1}\middle| z\right)\right] \cdot E \left[E \left(y_{i0}\middle| z\right)\right] \end{align} また $E \left(Y_1\middle| z\right)=E \left(Y_0\middle| z\right)=u_z$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right]=E \left(u_z^2\right)- \left[E \left(u_z\right)\right]^2 \end{align} 分散の公式 $V \left(X\right)=E \left(X^2\right)- \left\{E \left(X\right)\right\}^2$ より、 \begin{align} \mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=V \left(u_z\right) \end{align} したがって、$V \left(u_z\right)=\sigma_u^2$ とすると、 \begin{align} \mathrm{Cov} \left(Y_1,Y_0\right)=\sigma_u^2 \neq 0 \end{align}

〔2〕応答値の分散
回帰式の分散を取ると、$u_z$ は定数なので、 \begin{align} V \left(Y_j\middle| z\right)&=V \left(u_z+\varepsilon_{i1}\middle| z\right)\\ &=V \left(\varepsilon_{i1}\right)\\ &=\sigma_\varepsilon^2 \end{align} 全分散の法則 $V \left(X\right)=E \left[V \left(X\middle| Y\right)\right]+V \left[E \left(X\middle| Y\right)\right]$ より、 \begin{align} V \left(Y_j\right)&=E \left(\sigma_\varepsilon^2\right)+V \left(u_z\right)\\ &=\sigma_u^2+\sigma_\varepsilon^2 \end{align}

〔3〕ペア内の相関係数
相関係数の定義式より、 \begin{align} \rho_{Y_1Y_0}&=\frac{\mathrm{Cov} \left(Y_1,Y_0\right)}{\sqrt{V \left(Y_1\right)}\sqrt{V \left(Y_0\right)}}\\ &=\frac{\sigma_u^2}{\sqrt{\sigma_u^2+\sigma_\varepsilon^2} \cdot \sqrt{\sigma_u^2+\sigma_\varepsilon^2}}\\ &=\frac{\sigma_u^2}{\sigma_\varepsilon^2+\sigma_u^2} \end{align} $\blacksquare$

参考文献

ジョン・ラチン著, 宮岡悦良監訳, 遠藤輝, 黒沢健, 下川朝有, 寒水孝司訳. 医薬データのための統計解析. 共立出版, 2020, p.223-224, 258

ペア・マッチングされたデータ内での相関

前提条件①：二値応答の場合

仮定①

仮定②

仮定③

【命題】マッチングされたペア内での相関① 二値応答の場合

導出法：全共分散の法則・全分散の法則を使用する方法

前提条件②：連続値応答の場合

仮定①

仮定②

仮定③

仮定④

【命題】マッチングされたペア内での相関② 連続値応答の場合

導出法：全共分散の法則・全分散の法則を使用する方法

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログアーカイブ

ラベル

不正行為を報告

よく読まれている記事

ペア・マッチングされたデータ内での相関

前提条件①：二値応答の場合

仮定①

仮定②

仮定③

【命題】マッチングされたペア内での相関① 二値応答の場合

導出法：全共分散の法則・全分散の法則を使用する方法

前提条件②：連続値応答の場合

仮定①

仮定②

仮定③

仮定④

【命題】マッチングされたペア内での相関② 連続値応答の場合

導出法：全共分散の法則・全分散の法則を使用する方法

参考文献

関連記事

0 件のコメント:

コメントを投稿

自己紹介

このブログを検索

ブログ アーカイブ

ラベル

不正行為を報告

よく読まれている記事

ブログアーカイブ