本稿では、横断研究・コホート研究の研究デザインのうち、①有病率(横断研究)や発生割合(コホート研究)を曝露効果の指標とする、②マッチングなし、③層化ありのデザイン・パターンについて、その分割表の形式、統計モデル、曝露効果の指標の定義をまとめています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
周辺解析
分割表の形式
曝露群と非曝露群の観察対象人数をそれぞれ、 \begin{gather} n_{1\bullet } \quad n_{0\bullet }\\ N_{\bullet }=n_{1\bullet }+n_{0\bullet } \end{gather} 発症者と非発症者の人数をそれぞれ、 \begin{gather} m_{1\bullet } \quad m_{0\bullet }\\ N_{\bullet }=m_{1\bullet }+m_{0\bullet } \end{gather} 曝露群と非曝露群の発症人数をそれぞれ、 \begin{gather} a_{\bullet } \quad b_{\bullet } \end{gather} 曝露群と非曝露群の非発症人数をそれぞれ、 \begin{gather} c_{\bullet } \quad d_{\bullet } \end{gather} とする。
発症あり $ \left(D\right)$ | 発症なし $(\bar{D})$ | 合計 | |
---|---|---|---|
曝露群 $ \left(E\right)$ | $a_{\bullet }$ | $c_{\bullet }$ | $n_{1\bullet }$ |
非曝露群 $(\bar{E})$ | $b_{\bullet }$ | $d_{\bullet }$ | $n_{0\bullet }$ |
合計 | $m_{1\bullet }$ | $m_{0\bullet }$ | $N_{\bullet }$ |
統計モデル①:積二項モデル
曝露群と非曝露群の発症人数 $a_{\bullet },b_{\bullet }$ が互いに独立に、
試行回数がそれぞれ
\begin{align}
n_{1\bullet } \quad n_{0\bullet }
\end{align}
母比率(発症確率)がそれぞれ
\begin{align}
\pi_{1\bullet }=P \left(D\middle| E\right) \quad \pi_{0\bullet }=P \left(D\middle|\bar{E}\right)
\end{align}
である
二項分布
\begin{align}
a_{\bullet } \sim \mathrm{B} \left(n_{1\bullet },\pi_{1\bullet }\right) \quad b_{\bullet } \sim \mathrm{B} \left(n_{0\bullet },\pi_{0\bullet }\right)
\end{align}
に従うとする。
発症あり $ \left(D\right)$ | 発症なし $(\bar{D})$ | 合計 | |
---|---|---|---|
曝露群 $ \left(E\right)$ | $\pi_{1\bullet }$ | $1-\pi_{1\bullet }$ | $1$ |
非曝露群 $(\bar{E})$ | $\pi_{0\bullet }$ | $1-\pi_{0\bullet }$ | $1$ |
統計モデル②:超幾何分布モデル
周辺度数 \begin{gather} n_{1\bullet } \quad n_{0\bullet } \quad m_{1\bullet } \quad m_{0\bullet } \end{gather} が固定されているという条件の下で、 曝露群の発症人数 $a_{\bullet }$ が超幾何分布 \begin{align} a_{\bullet } \sim \mathrm{HG} \left(N_{\bullet },n_{1\bullet },m_{1\bullet }\right) \end{align} に従うとする。
曝露効果の指標
発生割合
\begin{gather} \pi_{1\bullet } \quad \pi_{0\bullet }\\ {\hat{\pi}}_{1\bullet }=\frac{a_{\bullet }}{n_{1\bullet }} \quad {\hat{\pi}}_{0\bullet }=\frac{b_{\bullet }}{n_{0\bullet }} \end{gather}
発生オッズ
\begin{gather} {\mathrm{OD}}_{1\bullet }=\frac{\pi_{1\bullet }}{1-\pi_{1\bullet }} \quad {\mathrm{OD}}_{0\bullet }=\frac{\pi_{0\bullet }}{1-\pi_{0\bullet }}\\ {\mathrm{\widehat{OD}}}_{1\bullet }=\frac{{\hat{\pi}}_{1\bullet }}{1-{\hat{\pi}}_{1\bullet }}=\frac{a_{\bullet }}{c_{\bullet }} \quad {\mathrm{\widehat{OD}}}_{0\bullet }=\frac{{\hat{\pi}}_{0\bullet }}{1-{\hat{\pi}}_{0\bullet }}=\frac{b_{\bullet }}{d_{\bullet }} \end{gather}
発生リスク差
\begin{gather} \delta={\mathrm{RD}}_{\bullet }=\pi_{1\bullet }-\pi_{0\bullet }\\ \hat{\delta}={\mathrm{\widehat{RD}}}_{\bullet }={\hat{\pi}}_{1\bullet }-{\hat{\pi}}_{0\bullet }=\frac{a_{\bullet }}{n_{1\bullet }}-\frac{b_{\bullet }}{n_{0\bullet }} \end{gather}
発生リスク比
\begin{gather} \delta={\mathrm{RR}}_{\bullet }=\frac{\pi_{1\bullet }}{\pi_{0\bullet }}\\ \hat{\delta}={\mathrm{\widehat{RR}}}_{\bullet }=\frac{{\hat{\pi}}_{1\bullet }}{{\hat{\pi}}_{0\bullet }}=\frac{a_{\bullet }n_{0\bullet }}{b_{\bullet }n_{1\bullet }} \end{gather}
発生オッズ比
\begin{gather} \delta={\mathrm{OR}}_{\bullet }=\frac{{\mathrm{OD}}_{1\bullet }}{{\mathrm{OD}}_{0\bullet }}=\frac{\pi_{1\bullet }}{1-\pi_{1\bullet }} \cdot \frac{1-\pi_{0\bullet }}{\pi_{0\bullet }}\\ \hat{\delta}={\mathrm{\widehat{OR}}}_{\bullet }=\frac{{\mathrm{\widehat{OD}}}_{1\bullet }}{{\mathrm{\widehat{OD}}}_{0\bullet }}=\frac{{\hat{\pi}}_{1\bullet }}{1-{\hat{\pi}}_{1\bullet }} \cdot \frac{1-{\hat{\pi}}_{0\bullet }}{{\hat{\pi}}_{0\bullet }}=\frac{a_{\bullet }d_{\bullet }}{b_{\bullet }c_{\bullet }} \end{gather}
交絡の調整
しかし、このような単純な周辺解析を行うと、交絡の影響により、誤った結論に陥る可能性がある。そのため、「対象者の限定」の原理にもとづいて交絡因子の影響を取り除くために、得られたデータを交絡因子の水準にもとづいて、互いに独立な $K$ 個の層に層化する。
層別解析
分割表の形式
第 $k$ 層における曝露群と非曝露群の観察対象人数をそれぞれ、 \begin{gather} n_{1k} \quad n_{0k}\\ N_k=n_{1k}+n_{0k} \end{gather} 発症者と非発症者の人数をそれぞれ、 \begin{gather} m_{1k} \quad m_{0k}\\ N_k=m_{1k}+m_{0k} \end{gather} 曝露群と非曝露群の発症人数をそれぞれ、 \begin{gather} a_k \quad b_k \end{gather} 曝露群と非曝露群の非発症人数をそれぞれ、 \begin{gather} c_k \quad d_k \end{gather} とする。
発症あり $ \left(D\right)$ | 発症なし $(\bar{D})$ | 合計 | |
---|---|---|---|
曝露群 $ \left(E\right)$ | $a_k$ | $c_k$ | $n_{1k}$ |
非曝露群 $(\bar{E})$ | $b_k$ | $d_k$ | $n_{0k}$ |
合計 | $m_{1k}$ | $m_{0k}$ | $N_k$ |
ただし、 \begin{gather} a_{\bullet }=\sum_{k=1}^{K}a_k \quad b_{\bullet }=\sum_{k=1}^{K}b_k\\ c_{\bullet }=\sum_{k=1}^{K}c_k \quad d_{\bullet }=\sum_{k=1}^{K}d_k\\ m_{1\bullet }=\sum_{k=1}^{K}m_{1k} \quad m_{0\bullet }=\sum_{k=1}^{K}m_{0k}\\ n_{1\bullet }=\sum_{k=1}^{K}n_{1k} \quad n_{0\bullet }=\sum_{k=1}^{K}n_{0k}\\ N_{\bullet }=\sum_{k=1}^{K}N_k \end{gather}
統計モデル①:積二項モデル
第 $k$ 層の曝露群と非曝露群の発症人数 $a_k,b_k$ が互いに独立に、 試行回数がそれぞれ \begin{align} n_{1k} \quad n_{0k} \end{align} 母比率(発症確率)がそれぞれ \begin{align} \pi_{1k}=P \left(D\middle| E\right) \quad \pi_{0k}=P \left(D\middle|\bar{E}\right) \end{align} である 二項分布 \begin{align} a_k \sim \mathrm{B} \left(n_{1k},\pi_{1k}\right) \quad b_k \sim \mathrm{B} \left(n_{0k},\pi_{0k}\right) \end{align} に従うとする。
発症あり $ \left(D\right)$ | 発症なし $(\bar{D})$ | 合計 | |
---|---|---|---|
曝露群 $ \left(E\right)$ | $\pi_{1k}$ | $1-\pi_{1k}$ | $1$ |
非曝露群 $(\bar{E})$ | $\pi_{0k}$ | $1-\pi_{0k}$ | $1$ |
積二項尤度
\begin{align} H_0:\pi_{1k}=\pi_{0k} \left(=\pi_k\right) \quad \mathrm{vs.} \quad H_1:\pi_{1k} \neq \pi_{0k} \end{align} として、 第 $k$ 層の尤度関数 \begin{gather} L_{1k} \left(\pi_{1k},\pi_{0k}\right)={}_{n_{1k}}C_{a_k} \cdot \pi_{1k}^{a_k} \left(1-\pi_{1k}\right)^{n_{1k}-a_k} \cdot {}_{n_{0k}}C_{b_k} \cdot \pi_{0k}^{b_k} \left(1-\pi_{0k}\right)^{n_{0k}-b_k}\\ L_{0k} \left(\pi_k\right)={}_{n_1}C_{a_k} \cdot {}_{n_0}C_{b_k} \cdot \pi_k^{a_k+b_k} \left(1-\pi_k\right)^{n_{1k}+n_{0k}-a_k-b_k} \end{gather} 各層の発症人数が互いに独立なとき、全体の尤度関数 \begin{gather} L_1 \left(\boldsymbol{\pi}_\boldsymbol{1},\boldsymbol{\pi}_\boldsymbol{0}\right)=\prod_{k=1}^{K}{{}_{n_{1k}}C_{a_k} \cdot \pi_{1k}^{a_k} \left(1-\pi_{1k}\right)^{n_{1k}-a_k} \cdot {}_{n_{0k}}C_{b_k} \cdot \pi_{0k}^{b_k} \left(1-\pi_{0k}\right)^{n_{0k}-b_k}}\\ L_0 \left(\boldsymbol{\pi}\right)=\prod_{k=1}^{K}{{}_{n_1}C_{a_k} \cdot {}_{n_0}C_{b_k} \cdot \pi_k^{a_k+b_k} \left(1-\pi_k\right)^{n_{1k}+n_{0k}-a_k-b_k}} \end{gather}
統計モデル②:超幾何分布モデル
各層の周辺度数 \begin{gather} n_{1k} \quad n_{0k} \quad m_{1k} \quad m_{0k} \end{gather} が固定されているという条件の下で、 各層の曝露群の発症人数 $a_k$ が超幾何分布 \begin{align} a_k \sim \mathrm{HG} \left(N_k,n_{1k},m_{1k}\right) \end{align} に従うとする。
超幾何尤度
\begin{gather} H_0:\varphi_k=1 \quad \mathrm{vs.} \quad H_1:\varphi_k \neq 1\\ \varphi_k={\mathrm{OR}}_k \end{gather} として、 \begin{align} L_{1k} \left(\varphi_k\right)&=\frac{{}_{n_1}C_{a_k} \cdot {}_{n_0}C_{m_1-a_k} \cdot \varphi_k^{a_k}}{\sum_{i=a_{kl}}^{a_{ku}}{{}_{n_1}C_i \cdot {}_{n_0}C_{m_1-i} \cdot \varphi_k^i}}\\ L_{0k} \left(\varphi_k\right)&=\frac{{}_{n_{1k}}C_{a_k} \cdot {}_{N_k-n_{1k}}C_{m_{1k}-a_k}}{{}_{N_k}C_{m_{1k}}}\\ &=\frac{n_{1k}!n_{0k}!m_{1k}!m_{0k}!}{N_k!a_k!b_k!c_k!d_k!} \end{align} 各層の発症人数が互いに独立なとき、全体の尤度関数 \begin{gather} L_1 \left(\boldsymbol{\varphi}\right)=\prod_{k=1}^{K}\frac{{}_{n_1}C_{a_k} \cdot {}_{n_0}C_{m_1-a_k} \cdot \varphi_k^{a_k}}{\sum_{i=a_{kl}}^{a_{ku}}{{}_{n_1}C_i \cdot {}_{n_0}C_{m_1-i} \cdot \varphi_k^i}}\\ L_0 \left(\boldsymbol{\varphi}\right)=\prod_{k=1}^{K}\frac{n_{1k}!n_{0k}!m_{1k}!m_{0k}!}{N_k!a_k!b_k!c_k!d_k!} \end{gather}
曝露効果の指標
発生割合
\begin{gather} \pi_{1k} \quad \pi_{0k}\\ {\hat{\pi}}_{1k}=\frac{a_k}{n_{1k}} \quad {\hat{\pi}}_0=\frac{b_k}{n_{0k}} \end{gather}
発生オッズ
\begin{gather} {\mathrm{OD}}_{1k}=\frac{\pi_{1k}}{1-\pi_{1k}} \quad {\mathrm{OD}}_{0k}=\frac{\pi_{0k}}{1-\pi_{0k}}\\ {\mathrm{\widehat{OD}}}_{1k}=\frac{{\hat{\pi}}_{1k}}{1-{\hat{\pi}}_{1k}}=\frac{a_k}{c_k} \quad {\mathrm{\widehat{OD}}}_{0k}=\frac{{\hat{\pi}}_{0k}}{1-{\hat{\pi}}_{0k}}=\frac{b_k}{d_k} \end{gather}
発生リスク差
\begin{gather} \delta={\mathrm{RD}}_k=\pi_{1k}-\pi_{0k}\\ \hat{\delta}={\mathrm{\widehat{RD}}}_k={\hat{\pi}}_{1k}-{\hat{\pi}}_{0k}=\frac{a_k}{n_{1k}}-\frac{b_k}{n_{0k}} \end{gather}
発生リスク比
\begin{gather} \delta={\mathrm{RR}}_k=\frac{\pi_{1\bullet }}{\pi_{0\bullet }}\\ \hat{\delta}={\mathrm{\widehat{RR}}}_k=\frac{{\hat{\pi}}_{1k}}{{\hat{\pi}}_{0k}}=\frac{a_kn_{0k}}{b_kn_{1k}} \end{gather}
発生オッズ比
\begin{gather} \delta={\mathrm{OR}}_k=\frac{{\mathrm{OD}}_{1k}}{{\mathrm{OD}}_{0k}}=\frac{\pi_{1k}}{1-\pi_{1k}} \cdot \frac{1-\pi_{0k}}{\pi_{0k}}\\ \hat{\delta}={\mathrm{\widehat{OR}}}_k=\frac{{\mathrm{\widehat{OD}}}_{1k}}{{\mathrm{\widehat{OD}}}_{0k}}=\frac{{\hat{\pi}}_{1k}}{1-{\hat{\pi}}_{1k}} \cdot \frac{1-{\hat{\pi}}_{0k}}{{\hat{\pi}}_{0k}}=\frac{a_kd_k}{b_kc_k} \end{gather}
検定仮説
特に、層別解析に対するコクラン検定やマンテル・ヘンツェル検定を想定する場合、 各層に共通した曝露効果がある との前提から始める。
帰無仮説
帰無仮説は、 全層共通のオッズ比が1である すなわち、すべての $k=1,2, \cdots ,K$ に対し、 \begin{align} H_0:\varphi_k=1 \end{align} これは、 すべての層で曝露群と非曝露群の発症確率が等しい \begin{align} H_0:\pi_{1k}=\pi_{0k} \end{align} という仮説と同値である。
対立仮説
対立仮説は、 1ではない全層共通のオッズ比が存在する すなわち、すべての $k=1,2, \cdots ,K$ に対し、 \begin{align} H_1:\varphi_k=\varphi \left( \neq 1\right) \end{align} これは、 各層の曝露群と非曝露群の発症確率は等しくない \begin{align} H_0:\pi_{1k} \neq \pi_{0k} \end{align} という仮説と同値である。
参考文献
- ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学. 篠原出版新社, 2013, p.249
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.129
0 件のコメント:
コメントを投稿