本稿では、横断研究・コホート研究の研究デザインのうち、①有病率(横断研究)や発生割合(コホート研究)を曝露効果の指標とする、②マッチングあり、③層化ありのデザイン・パターンについて、その分割表の形式、統計モデル、曝露効果の指標の定義をまとめています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。
分割表の形式
指示変数 $j$ を任意の被験者の曝露状況を表す変数
\begin{align}
j= \left\{\begin{matrix}1&\mathrm{Exposed} \left(E\right)\\0&\mathrm{Unexposed}(\bar{E})\\\end{matrix}\right.
\end{align}
とし、
曝露者1人に対し、背景因子の水準が同程度の非曝露者を1人マッチングし、計2人のペアを作る。そして、調整したい交絡因子の水準にもとづいて、互いに独立な $K$ 個の層に層化する。
このペアの総数(サンプルサイズ)を
\begin{align}
N_k
\end{align}
とし、発症状況について調べる。
指示変数 $Y$ を $i$ 番目のペアの $j$ 番目のメンバーの発症状況を表す変数
\begin{align}
y_{ijk}= \left\{\begin{matrix}1&\mathrm{Disease} \left(D\right)\\0&\mathrm{Not\ disease}(\bar{D})\\\end{matrix}\right.
\end{align}
とする。
このとき、各ペアの曝露・発症状況は、
曝露者・非曝露者=①発症あり・発症あり、②発症あり・発症なし、
③発症なし・発症あり、④発症なし・発症なし
\begin{gather}
\left(y_{i1k},y_{i0k}\right)= \left(1,1\right), \left(1,0\right), \left(0,1\right), \left(0,0\right)
\end{gather}
のいずれかに分類される。
それぞれの曝露・発症状況に該当するペアの数を
\begin{gather}
e_k \left(=n_{11k}\right) \quad f_k \left(=n_{12k}\right) \quad g_k \left(=n_{21k}\right) \quad h_k \left(=n_{22k}\right)
\end{gather}
とする。
また、周辺度数として、
①曝露者が発症したペア、②曝露者が発症しなかったペア、
③非曝露者が発症したペア、④非曝露者が発症しなかったペア
が得られる。
それぞれの合計ペア数を
\begin{gather}
n_{EDk} \left(=n_{1\bullet k}\right) \quad n_{E\bar{D}k} \left(=n_{0\bullet k}\right) \quad n_{\bar{E}Dk} \left(=n_{\bullet 1k}\right) \quad n_{\bar{E}\bar{D}k} \left(=n_{\bullet 0k}\right)
\end{gather}
とする。
非曝露者 $(\bar{E})$ | 合計 | |||
---|---|---|---|---|
発症あり $(D)$ | 発症なし $(\bar{D})$ | |||
曝露者 $(E)$ | 発症あり $(D)$ | $e_k$ $ \left(=n_{11k}\right)$ | $f_k$ $ \left(=n_{12k}\right)$ | $n_{EDk}$ $ \left(=n_{1\bullet k}\right)$ |
発症なし $(\bar{D})$ | $g_k$ $ \left(=n_{21k}\right)$ | $h_k$ $ \left(=n_{22k}\right)$ | $n_{E\bar{D}k}$ $ \left(=n_{0\bullet k}\right)$ | |
合計 | $n_{\bar{E}Dk}$ $ \left(=n_{\bullet 1k}\right)$ | $n_{\bar{E}\bar{D}k}$ $ \left(=n_{\bullet 0k}\right)$ | $N_k$ |
統計モデル
第 $k$ 層における各セルの観測値 \begin{align} \boldsymbol{n}_\boldsymbol{k}= \left(\begin{matrix}e_k\\f_k\\g_k\\h_k\\\end{matrix}\right) \end{align} が四項分布
\begin{gather} \boldsymbol{n}_\boldsymbol{k} \sim \mathrm{MN} \left(N_k,\boldsymbol{\pi}_\boldsymbol{k}\right)\\ \boldsymbol{\pi}_\boldsymbol{k}= \left(\begin{matrix}\pi_{11k}\\\pi_{12k}\\\pi_{21k}\\\pi_{22k}\\\end{matrix}\right) \end{gather} に従うとする。
非曝露者 $(\bar{E})$ | 合計 | |||
---|---|---|---|---|
発症あり $(D)$ | 発症なし $(\bar{D})$ | |||
曝露者 $(E)$ | 発症あり $(D)$ | $\pi_{11k}$ | $\pi_{12k}$ | $\pi_{EDk}$ $ \left(=\pi_{1\bullet k}\right)$ |
発症なし $(\bar{D})$ | $\pi_{21k}$ | $\pi_{22k}$ | $\pi_{E\bar{D}k}$ $ \left(=\pi_{0\bullet k}\right)$ | |
合計 | $\pi_{\bar{E}Dk}$ $ \left(=\pi_{\bullet 1k}\right)$ | $\pi_{\bar{E}\bar{D}k}$ $ \left(=\pi_{\bullet 0k}\right)$ | $1$ |
四項尤度
\begin{align} L \left(\boldsymbol{\pi}_\boldsymbol{k}\right)=\frac{N_k!}{e_k!f_k!g_k!h_k!}\pi_{11k}^{e_k}\pi_{12k}^{f_k}\pi_{21k}^{g_k}\pi_{22k}^{h_k} \end{align}
曝露効果の指標
標本比率
\begin{gather} {\hat{\pi}}_{11k}=\frac{e_k}{N_k} \quad {\hat{\pi}}_{12k}=\frac{f_k}{N_k}\\ {\hat{\pi}}_{21k}=\frac{g_k}{N_k} \quad {\hat{\pi}}_{22k}=\frac{h_k}{N_k} \end{gather}
条件付き周辺発症オッズ比
\begin{gather} {\mathrm{OR}}_{zk}=\frac{\pi_{ \left.12k\right|z}}{\pi_{ \left.21k\right|z}}\\ \end{gather}
条件付き発症オッズ比
\begin{gather} {\mathrm{OR}}_{Ck}=\frac{\pi_{12k}}{\pi_{21k}}\\ {\mathrm{\widehat{OR}}}_{Ck}=\frac{{\hat{\pi}}_{12k}}{{\hat{\pi}}_{21k}}=\frac{f_k}{g_k} \end{gather}
母集団平均発症リスク比
\begin{gather} {\mathrm{RR}}_{Ak}=\frac{\pi_{1\bullet k}}{\pi_{\bullet 1k}}=\frac{\pi_{11k}+\pi_{12k}}{\pi_{11k}+\pi_{21k}}\\ {\mathrm{\widehat{RR}}}_{Ak}=\frac{{\hat{\pi}}_{1\bullet k}}{{\hat{\pi}}_{\bullet 1k}}=\frac{{\hat{\pi}}_{11k}+{\hat{\pi}}_{12k}}{{\hat{\pi}}_{11k}+{\hat{\pi}}_{21k}}=\frac{e_k+f_k}{e_k+g_k}=\frac{n_{1\bullet k}}{n_{\bullet 1k}} \end{gather}
参考文献
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.232-233
0 件のコメント:
コメントを投稿