本稿では、ペア・マッチングされたデータには、データ内での相関があることを証明しています。この命題により、データ間の独立性を仮定する解析方法の妥当性が損なわれるため、マッチングされたデータについては、特別な解析方法が必要となります。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
前提条件①:二値応答の場合
各ペアの曝露者と非曝露者は、ある連続な共変量 $Z$ の値にもとづいてマッチングされており、応答値がある値を取る確率は共変量の関数であるとする。
仮定①
$j$ を任意のペアのメンバーの曝露状況を表す指示変数を \begin{gather} j= \left\{\begin{matrix}1&\mathrm{Exposed}\\0&\mathrm{Unexposed}\\\end{matrix}\right. \end{gather} $i$ 番目のペア内での、曝露者と非曝露者の発症状況を表す確率変数を \begin{gather} Y_{ij}= \left\{\begin{matrix}1&\mathrm{Disease}\\0&\mathrm{Not\ Disease}\\\end{matrix}\right. \end{gather} とし、 確率変数 $Y_{ij}$ は、成功確率がそれぞれ $\pi_{i1},\pi_{i0}$ のベルヌーイ分布 \begin{gather} Y_{ij} \sim \mathrm{Ber} \left(\pi_{ij}\right)\\ E \left(Y_{i1}\right)=\pi_{i1} \quad E \left(Y_{i0}\right)=\pi_{i0} \end{gather} に従っているとする。 ここでは、話を単純にするために、一般的な帰無仮説 \begin{align} \pi_{i1}=\pi_{i0} \end{align} の場合を考える。
仮定②
$i$ 番目のペアについて共変量の値が $Z=z_i$ のときの、共通の発症確率を \begin{gather} \pi_{i1}=\pi_{i0}=\pi \left(z_i\right)=\pi_z \end{gather} 共通の発症確率の分散を \begin{align} V \left(\pi_z\right)=\sigma_\pi^2 \end{align} とする。
仮定③
$i$ 番目のペアのメンバーは独立に標本抽出され、マッチングされたベアの応答 \begin{gather} y_{i1} \quad y_{i0} \end{gather} は条件付き独立とする。 すなわち、 \begin{gather} E \left(Y_{i1}\middle| Y_{i0},z_i\right)=E \left(Y_{i1}\middle| z_i\right)=\pi \left(z_i\right)\\ E \left(Y_{i0}\middle| Y_{i1},z_i\right)=E \left(Y_{i0}\middle| z_i\right)=\pi \left(z_i\right)\\ \mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0 \end{gather}
【命題】マッチングされたペア内での相関① 二値応答の場合
【命題】
マッチングされたペア内での相関① 二値応答の場合
Correlation between Matched Pair Data for Dichotomous Response
先述の条件下において、ペア内の応答 $Y_1,Y_0$ の相関係数は、 \begin{align} \rho_{Y_1Y_0}=\frac{\sigma_\pi^2}{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \end{align}
導出法:全共分散の法則・全分散の法則を使用する方法
[1]ペア内の共分散
全共分散の法則より、
\begin{align}
\mathrm{Cov} \left(Y_1,Y_2\right)=E \left[\mathrm{Cov} \left(Y_1,Y_2\middle| z\right)\right]+\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_2\middle| z\right)\right]
\end{align}
ここで、$Y_1,Y_0$ は、$Z=z$ において条件付き独立 $\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0$ なので、
\begin{align}
E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)\right]=E \left(0\right)=0
\end{align}
共分散の公式 $\mathrm{Cov} \left(X,Y\right)=E \left(XY\right)-E \left(X\right)E \left(Y\right)$ より、
\begin{align}
\mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=E \left[E \left(y_{i1}\middle| z\right) \cdot E \left(y_{i0}\middle| z\right)\right]-E \left[E \left(y_{i1}\middle| z\right)\right] \cdot E \left[E \left(y_{i0}\middle| z\right)\right]
\end{align}
また $E \left(Y_1\middle| Z\right)=E \left(Y_0\middle| Z\right)=\pi \left(z\right)$ より、
\begin{align}
\mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=E \left[ \left\{\pi \left(z\right)\right\}^2\right]- \left[E \left\{\pi \left(z\right)\right\}\right]^2
\end{align}
分散の公式 $V \left(X\right)=E \left(X^2\right)- \left\{E \left(X\right)\right\}^2$ より、
\begin{align}
\mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=V \left\{\pi \left(z\right)\right\}=\sigma_\pi^2
\end{align}
したがって、
\begin{align}
\mathrm{Cov} \left(Y_1,Y_0\right)=\sigma_\pi^2 \neq 0
\end{align}
[2]応答値の分散
全分散の法則 $V \left(X\right)=E \left[V \left(X\middle| Y\right)\right]+V \left[E \left(X\middle| Y\right)\right]$ より、
\begin{align}
V \left(Y_j\right)=E \left[V \left(Y_j\middle| z\right)\right]+V \left[E \left(Y_j\middle| z\right)\right]
\end{align}
ベルヌーイ分布の分散の公式 $V \left(X\right)=p \left(1-p\right)$ より、
\begin{align}
V \left(Y_j\right)&=E \left[\pi_z \left(1-\pi_z\right)\right]+V \left(\pi_z\right)\\
&=E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2
\end{align}
[3]ペア内の相関係数
相関係数の定義式より、
\begin{align}
\rho_{Y_1Y_0}&=\frac{\mathrm{Cov} \left(Y_1,Y_0\right)}{\sqrt{V \left(Y_1\right)}\sqrt{V \left(Y_0\right)}}\\
&=\frac{\sigma_\pi^2}{\sqrt{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2} \cdot \sqrt{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2}}\\
&=\frac{\sigma_\pi^2}{E \left[\pi_z \left(1-\pi_z\right)\right]+\sigma_\pi^2}
\end{align}
$\blacksquare$
前提条件②:連続値応答の場合
各ペアの曝露者と非曝露者は、ある連続な共変量 $Z$ の値にもとづいてマッチングされており、応答値がある値を取る確率は共変量の関数であるとする。
仮定①
$j$ を任意のペアのメンバーの曝露状況を表す指示変数を \begin{gather} j= \left\{\begin{matrix}1&\mathrm{Exposed}\\0&\mathrm{Unexposed}\\\end{matrix}\right. \end{gather} $i$ 番目のペア内での、曝露者と非曝露者の連続的な応答値を表す確率変数を \begin{gather} Y_{ij} \end{gather} とする。
仮定②
$Y_{ij}$ に対して、回帰モデル \begin{gather} y_{ij}=u \left(z_i\right)+\varepsilon_{ij} \end{gather} を考える。 ただし、$u \left(z_i\right)=u_z$ は、共変量の値が $Z=z$ のときの $Y_{ij}$ の条件付き期待値とし、 \begin{gather} u_z=E \left(y_{i1}\middle| z_i\right)=E \left(y_{i0}\middle| z_i\right)\\ V \left(u_z\right)=\sigma_u^2 \end{gather} を満たす。 誤差項 $\varepsilon_{ij}$ は、 \begin{gather} E \left(\varepsilon_{ij}\right)=0 \quad V \left(\varepsilon_{ij}\right)=\sigma_\varepsilon^2\\ \mathrm{Cov} \left(\varepsilon_{i1},\varepsilon_{i2}\right)=0 \end{gather} を満たす。
仮定③
誤差項 $\varepsilon_{ij}$ と条件付き期待値 $u_z$ は互いに独立である。
仮定④
$i$ 番目のペアにおけるメンバーは独立に標本抽出され、マッチングされたベアの応答値 \begin{gather} y_{i1} \quad y_{i0} \end{gather} は条件付き独立とする。 \begin{gather} E \left(Y_{i1}\middle| Y_{i0},Z\right)=E \left(Y_{i1}\middle| Z\right)=u_z\\ E \left(Y_{i0}\middle| Y_{i1},Z\right)=E \left(Y_{i0}\middle| Z\right)=u_z\\ \mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)=0 \end{gather}
【命題】マッチングされたペア内での相関② 連続値応答の場合
【命題】
マッチングされたペア内での相関② 連続値応答の場合
Correlation between Matched Pair Data for Continuous Value Response
先述の条件下において、ペア内の応答 $Y_1,Y_0$ の相関係数は、 \begin{align} \rho_{Y_1Y_0}=\frac{\sigma_u^2}{\sigma_u^2+\sigma_\varepsilon^2} \end{align}
導出法:全共分散の法則・全分散の法則を使用する方法
〔1〕ペア内の共分散
全共分散の法則より、
\begin{align}
\mathrm{Cov} \left(Y_1,Y_0\right)=E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)\right]+\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right]
\end{align}
ここで、$Y_1,Y_0$ は、$Z=z$ において条件付き独立 $\mathrm{Cov} \left(Y_1,Y_0\middle| z\right)=0$ なので、
\begin{align}
E \left[\mathrm{Cov} \left(Y_1,Y_0\middle| Z\right)\right]=E \left(0\right)=0
\end{align}
共分散の公式 $\mathrm{Cov} \left(X,Y\right)=E \left(XY\right)-E \left(X\right)E \left(Y\right)$ より、
\begin{align}
\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right]=E \left[E \left(y_{i1}\middle| z\right) \cdot E \left(y_{i0}\middle| z\right)\right]-E \left[E \left(y_{i1}\middle| z\right)\right] \cdot E \left[E \left(y_{i0}\middle| z\right)\right]
\end{align}
また $E \left(Y_1\middle| z\right)=E \left(Y_0\middle| z\right)=u_z$ より、
\begin{align}
\mathrm{Cov} \left[E \left(Y_1\middle| z\right),E \left(Y_0\middle| z\right)\right]=E \left(u_z^2\right)- \left[E \left(u_z\right)\right]^2
\end{align}
分散の公式 $V \left(X\right)=E \left(X^2\right)- \left\{E \left(X\right)\right\}^2$ より、
\begin{align}
\mathrm{Cov} \left[E \left(Y_1\middle| Z\right),E \left(Y_0\middle| Z\right)\right]=V \left(u_z\right)
\end{align}
したがって、$V \left(u_z\right)=\sigma_u^2$ とすると、
\begin{align}
\mathrm{Cov} \left(Y_1,Y_0\right)=\sigma_u^2 \neq 0
\end{align}
〔2〕応答値の分散
回帰式の分散を取ると、$u_z$ は定数なので、
\begin{align}
V \left(Y_j\middle| z\right)&=V \left(u_z+\varepsilon_{i1}\middle| z\right)\\
&=V \left(\varepsilon_{i1}\right)\\
&=\sigma_\varepsilon^2
\end{align}
全分散の法則 $V \left(X\right)=E \left[V \left(X\middle| Y\right)\right]+V \left[E \left(X\middle| Y\right)\right]$ より、
\begin{align}
V \left(Y_j\right)&=E \left(\sigma_\varepsilon^2\right)+V \left(u_z\right)\\
&=\sigma_u^2+\sigma_\varepsilon^2
\end{align}
〔3〕ペア内の相関係数
相関係数の定義式より、
\begin{align}
\rho_{Y_1Y_0}&=\frac{\mathrm{Cov} \left(Y_1,Y_0\right)}{\sqrt{V \left(Y_1\right)}\sqrt{V \left(Y_0\right)}}\\
&=\frac{\sigma_u^2}{\sqrt{\sigma_u^2+\sigma_\varepsilon^2} \cdot \sqrt{\sigma_u^2+\sigma_\varepsilon^2}}\\
&=\frac{\sigma_u^2}{\sigma_\varepsilon^2+\sigma_u^2}
\end{align}
$\blacksquare$
参考文献
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.223-224, 258
0 件のコメント:
コメントを投稿