横断研究・コホート研究【有病率・発生割合】(マッチングあり・層化なし)

公開日: 更新日:

【2022年10月1週】 【A000】生物統計学 【A050】研究デザイン 【A051】コホート研究

この記事をシェアする
  • B!
サムネイル画像

本稿では、横断研究・コホート研究の研究デザインのうち、①有病率(横断研究)や発生割合(コホート研究)を曝露効果の指標とする、②マッチングなし、③層化ありのデザイン・パターンについて、その分割表の形式、統計モデル、曝露効果の指標の定義をまとめています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 曝露(発症)状況を表す右下の添え字は、「0」である場合($n_0,\pi_0$ など)や「2」である場合($n_2,\pi_2$ など)がありますが、どちらも「非曝露群(コントロール群)」を表しています。

周辺解析

分割表の形式

曝露群と非曝露群の観察対象人数をそれぞれ、 \begin{gather} n_{1\bullet } \quad n_{0\bullet }\\ N_{\bullet }=n_{1\bullet }+n_{0\bullet } \end{gather} 発症者と非発症者の人数をそれぞれ、 \begin{gather} m_{1\bullet } \quad m_{0\bullet }\\ N_{\bullet }=m_{1\bullet }+m_{0\bullet } \end{gather} 曝露群と非曝露群の発症人数をそれぞれ、 \begin{gather} a_{\bullet } \quad b_{\bullet } \end{gather} 曝露群と非曝露群の非発症人数をそれぞれ、 \begin{gather} c_{\bullet } \quad d_{\bullet } \end{gather} とする。

表1 横断研究・コホート研究に関する $2\times2$ 分割表(観測値)
発症あり
$ \left(D\right)$
発症なし
$(\bar{D})$
合計
曝露群
$ \left(E\right)$
$a_{\bullet }$ $c_{\bullet }$ $n_{1\bullet }$
非曝露群
$(\bar{E})$
$b_{\bullet }$ $d_{\bullet }$ $n_{0\bullet }$
合計 $m_{1\bullet }$ $m_{0\bullet }$ $N_{\bullet }$

統計モデル①:積二項モデル

曝露群と非曝露群の発症人数 $a_{\bullet },b_{\bullet }$ が互いに独立に、
試行回数がそれぞれ \begin{align} n_{1\bullet } \quad n_{0\bullet } \end{align} 母比率(発症確率)がそれぞれ \begin{align} \pi_{1\bullet }=P \left(D\middle| E\right) \quad \pi_{0\bullet }=P \left(D\middle|\bar{E}\right) \end{align} である 二項分布 \begin{align} a_{\bullet } \sim \mathrm{B} \left(n_{1\bullet },\pi_{1\bullet }\right) \quad b_{\bullet } \sim \mathrm{B} \left(n_{0\bullet },\pi_{0\bullet }\right) \end{align} に従うとする。

表2 横断研究・コホート研究に関する $2\times2$ 分割表(統計モデル)
発症あり
$ \left(D\right)$
発症なし
$(\bar{D})$
合計
曝露群
$ \left(E\right)$
$\pi_{1\bullet }$ $1-\pi_{1\bullet }$ $1$
非曝露群
$(\bar{E})$
$\pi_{0\bullet }$ $1-\pi_{0\bullet }$ $1$

統計モデル②:超幾何分布モデル

周辺度数 \begin{gather} n_{1\bullet } \quad n_{0\bullet } \quad m_{1\bullet } \quad m_{0\bullet } \end{gather} が固定されているという条件の下で、 曝露群の発症人数 $a_{\bullet }$ が超幾何分布 \begin{align} a_{\bullet } \sim \mathrm{HG} \left(N_{\bullet },n_{1\bullet },m_{1\bullet }\right) \end{align} に従うとする。

曝露効果の指標

発生割合

\begin{gather} \pi_{1\bullet } \quad \pi_{0\bullet }\\ {\hat{\pi}}_{1\bullet }=\frac{a_{\bullet }}{n_{1\bullet }} \quad {\hat{\pi}}_{0\bullet }=\frac{b_{\bullet }}{n_{0\bullet }} \end{gather}

発生オッズ

\begin{gather} {\mathrm{OD}}_{1\bullet }=\frac{\pi_{1\bullet }}{1-\pi_{1\bullet }} \quad {\mathrm{OD}}_{0\bullet }=\frac{\pi_{0\bullet }}{1-\pi_{0\bullet }}\\ {\mathrm{\widehat{OD}}}_{1\bullet }=\frac{{\hat{\pi}}_{1\bullet }}{1-{\hat{\pi}}_{1\bullet }}=\frac{a_{\bullet }}{c_{\bullet }} \quad {\mathrm{\widehat{OD}}}_{0\bullet }=\frac{{\hat{\pi}}_{0\bullet }}{1-{\hat{\pi}}_{0\bullet }}=\frac{b_{\bullet }}{d_{\bullet }} \end{gather}

発生リスク差

\begin{gather} \delta={\mathrm{RD}}_{\bullet }=\pi_{1\bullet }-\pi_{0\bullet }\\ \hat{\delta}={\mathrm{\widehat{RD}}}_{\bullet }={\hat{\pi}}_{1\bullet }-{\hat{\pi}}_{0\bullet }=\frac{a_{\bullet }}{n_{1\bullet }}-\frac{b_{\bullet }}{n_{0\bullet }} \end{gather}

発生リスク比

\begin{gather} \delta={\mathrm{RR}}_{\bullet }=\frac{\pi_{1\bullet }}{\pi_{0\bullet }}\\ \hat{\delta}={\mathrm{\widehat{RR}}}_{\bullet }=\frac{{\hat{\pi}}_{1\bullet }}{{\hat{\pi}}_{0\bullet }}=\frac{a_{\bullet }n_{0\bullet }}{b_{\bullet }n_{1\bullet }} \end{gather}

発生オッズ比

\begin{gather} \delta={\mathrm{OR}}_{\bullet }=\frac{{\mathrm{OD}}_{1\bullet }}{{\mathrm{OD}}_{0\bullet }}=\frac{\pi_{1\bullet }}{1-\pi_{1\bullet }} \cdot \frac{1-\pi_{0\bullet }}{\pi_{0\bullet }}\\ \hat{\delta}={\mathrm{\widehat{OR}}}_{\bullet }=\frac{{\mathrm{\widehat{OD}}}_{1\bullet }}{{\mathrm{\widehat{OD}}}_{0\bullet }}=\frac{{\hat{\pi}}_{1\bullet }}{1-{\hat{\pi}}_{1\bullet }} \cdot \frac{1-{\hat{\pi}}_{0\bullet }}{{\hat{\pi}}_{0\bullet }}=\frac{a_{\bullet }d_{\bullet }}{b_{\bullet }c_{\bullet }} \end{gather}

交絡の調整

しかし、このような単純な周辺解析を行うと、交絡の影響により、誤った結論に陥る可能性がある。そのため、「対象者の限定」の原理にもとづいて交絡因子の影響を取り除くために、得られたデータを交絡因子の水準にもとづいて、互いに独立な $K$ 個の層に層化する。

層別解析

分割表の形式

第 $k$ 層における曝露群と非曝露群の観察対象人数をそれぞれ、 \begin{gather} n_{1k} \quad n_{0k}\\ N_k=n_{1k}+n_{0k} \end{gather} 発症者と非発症者の人数をそれぞれ、 \begin{gather} m_{1k} \quad m_{0k}\\ N_k=m_{1k}+m_{0k} \end{gather} 曝露群と非曝露群の発症人数をそれぞれ、 \begin{gather} a_k \quad b_k \end{gather} 曝露群と非曝露群の非発症人数をそれぞれ、 \begin{gather} c_k \quad d_k \end{gather} とする。

表3 横断研究・コホート研究に関する $2\times2$ 分割表(第 $k$ 層の観測値)
発症あり
$ \left(D\right)$
発症なし
$(\bar{D})$
合計
曝露群
$ \left(E\right)$
$a_k$ $c_k$ $n_{1k}$
非曝露群
$(\bar{E})$
$b_k$ $d_k$ $n_{0k}$
合計 $m_{1k}$ $m_{0k}$ $N_k$

ただし、 \begin{gather} a_{\bullet }=\sum_{k=1}^{K}a_k \quad b_{\bullet }=\sum_{k=1}^{K}b_k\\ c_{\bullet }=\sum_{k=1}^{K}c_k \quad d_{\bullet }=\sum_{k=1}^{K}d_k\\ m_{1\bullet }=\sum_{k=1}^{K}m_{1k} \quad m_{0\bullet }=\sum_{k=1}^{K}m_{0k}\\ n_{1\bullet }=\sum_{k=1}^{K}n_{1k} \quad n_{0\bullet }=\sum_{k=1}^{K}n_{0k}\\ N_{\bullet }=\sum_{k=1}^{K}N_k \end{gather}

統計モデル①:積二項モデル

第 $k$ 層の曝露群と非曝露群の発症人数 $a_k,b_k$ が互いに独立に、 試行回数がそれぞれ \begin{align} n_{1k} \quad n_{0k} \end{align} 母比率(発症確率)がそれぞれ \begin{align} \pi_{1k}=P \left(D\middle| E\right) \quad \pi_{0k}=P \left(D\middle|\bar{E}\right) \end{align} である 二項分布 \begin{align} a_k \sim \mathrm{B} \left(n_{1k},\pi_{1k}\right) \quad b_k \sim \mathrm{B} \left(n_{0k},\pi_{0k}\right) \end{align} に従うとする。

表4 横断研究・コホート研究に関する $2\times2$ 分割表(第 $k$ 層の統計モデル)
発症あり
$ \left(D\right)$
発症なし
$(\bar{D})$
合計
曝露群
$ \left(E\right)$
$\pi_{1k}$ $1-\pi_{1k}$ $1$
非曝露群
$(\bar{E})$
$\pi_{0k}$ $1-\pi_{0k}$ $1$

積二項尤度

\begin{align} H_0:\pi_{1k}=\pi_{0k} \left(=\pi_k\right) \quad \mathrm{vs.} \quad H_1:\pi_{1k} \neq \pi_{0k} \end{align} として、 第 $k$ 層の尤度関数 \begin{gather} L_{1k} \left(\pi_{1k},\pi_{0k}\right)={}_{n_{1k}}C_{a_k} \cdot \pi_{1k}^{a_k} \left(1-\pi_{1k}\right)^{n_{1k}-a_k} \cdot {}_{n_{0k}}C_{b_k} \cdot \pi_{0k}^{b_k} \left(1-\pi_{0k}\right)^{n_{0k}-b_k}\\ L_{0k} \left(\pi_k\right)={}_{n_1}C_{a_k} \cdot {}_{n_0}C_{b_k} \cdot \pi_k^{a_k+b_k} \left(1-\pi_k\right)^{n_{1k}+n_{0k}-a_k-b_k} \end{gather} 各層の発症人数が互いに独立なとき、全体の尤度関数 \begin{gather} L_1 \left(\boldsymbol{\pi}_\boldsymbol{1},\boldsymbol{\pi}_\boldsymbol{0}\right)=\prod_{k=1}^{K}{{}_{n_{1k}}C_{a_k} \cdot \pi_{1k}^{a_k} \left(1-\pi_{1k}\right)^{n_{1k}-a_k} \cdot {}_{n_{0k}}C_{b_k} \cdot \pi_{0k}^{b_k} \left(1-\pi_{0k}\right)^{n_{0k}-b_k}}\\ L_0 \left(\boldsymbol{\pi}\right)=\prod_{k=1}^{K}{{}_{n_1}C_{a_k} \cdot {}_{n_0}C_{b_k} \cdot \pi_k^{a_k+b_k} \left(1-\pi_k\right)^{n_{1k}+n_{0k}-a_k-b_k}} \end{gather}

統計モデル②:超幾何分布モデル

各層の周辺度数 \begin{gather} n_{1k} \quad n_{0k} \quad m_{1k} \quad m_{0k} \end{gather} が固定されているという条件の下で、 各層の曝露群の発症人数 $a_k$ が超幾何分布 \begin{align} a_k \sim \mathrm{HG} \left(N_k,n_{1k},m_{1k}\right) \end{align} に従うとする。

超幾何尤度

\begin{gather} H_0:\varphi_k=1 \quad \mathrm{vs.} \quad H_1:\varphi_k \neq 1\\ \varphi_k={\mathrm{OR}}_k \end{gather} として、 \begin{align} L_{1k} \left(\varphi_k\right)&=\frac{{}_{n_1}C_{a_k} \cdot {}_{n_0}C_{m_1-a_k} \cdot \varphi_k^{a_k}}{\sum_{i=a_{kl}}^{a_{ku}}{{}_{n_1}C_i \cdot {}_{n_0}C_{m_1-i} \cdot \varphi_k^i}}\\ L_{0k} \left(\varphi_k\right)&=\frac{{}_{n_{1k}}C_{a_k} \cdot {}_{N_k-n_{1k}}C_{m_{1k}-a_k}}{{}_{N_k}C_{m_{1k}}}\\ &=\frac{n_{1k}!n_{0k}!m_{1k}!m_{0k}!}{N_k!a_k!b_k!c_k!d_k!} \end{align} 各層の発症人数が互いに独立なとき、全体の尤度関数 \begin{gather} L_1 \left(\boldsymbol{\varphi}\right)=\prod_{k=1}^{K}\frac{{}_{n_1}C_{a_k} \cdot {}_{n_0}C_{m_1-a_k} \cdot \varphi_k^{a_k}}{\sum_{i=a_{kl}}^{a_{ku}}{{}_{n_1}C_i \cdot {}_{n_0}C_{m_1-i} \cdot \varphi_k^i}}\\ L_0 \left(\boldsymbol{\varphi}\right)=\prod_{k=1}^{K}\frac{n_{1k}!n_{0k}!m_{1k}!m_{0k}!}{N_k!a_k!b_k!c_k!d_k!} \end{gather}

曝露効果の指標

発生割合

\begin{gather} \pi_{1k} \quad \pi_{0k}\\ {\hat{\pi}}_{1k}=\frac{a_k}{n_{1k}} \quad {\hat{\pi}}_0=\frac{b_k}{n_{0k}} \end{gather}

発生オッズ

\begin{gather} {\mathrm{OD}}_{1k}=\frac{\pi_{1k}}{1-\pi_{1k}} \quad {\mathrm{OD}}_{0k}=\frac{\pi_{0k}}{1-\pi_{0k}}\\ {\mathrm{\widehat{OD}}}_{1k}=\frac{{\hat{\pi}}_{1k}}{1-{\hat{\pi}}_{1k}}=\frac{a_k}{c_k} \quad {\mathrm{\widehat{OD}}}_{0k}=\frac{{\hat{\pi}}_{0k}}{1-{\hat{\pi}}_{0k}}=\frac{b_k}{d_k} \end{gather}

発生リスク差

\begin{gather} \delta={\mathrm{RD}}_k=\pi_{1k}-\pi_{0k}\\ \hat{\delta}={\mathrm{\widehat{RD}}}_k={\hat{\pi}}_{1k}-{\hat{\pi}}_{0k}=\frac{a_k}{n_{1k}}-\frac{b_k}{n_{0k}} \end{gather}

発生リスク比

\begin{gather} \delta={\mathrm{RR}}_k=\frac{\pi_{1\bullet }}{\pi_{0\bullet }}\\ \hat{\delta}={\mathrm{\widehat{RR}}}_k=\frac{{\hat{\pi}}_{1k}}{{\hat{\pi}}_{0k}}=\frac{a_kn_{0k}}{b_kn_{1k}} \end{gather}

発生オッズ比

\begin{gather} \delta={\mathrm{OR}}_k=\frac{{\mathrm{OD}}_{1k}}{{\mathrm{OD}}_{0k}}=\frac{\pi_{1k}}{1-\pi_{1k}} \cdot \frac{1-\pi_{0k}}{\pi_{0k}}\\ \hat{\delta}={\mathrm{\widehat{OR}}}_k=\frac{{\mathrm{\widehat{OD}}}_{1k}}{{\mathrm{\widehat{OD}}}_{0k}}=\frac{{\hat{\pi}}_{1k}}{1-{\hat{\pi}}_{1k}} \cdot \frac{1-{\hat{\pi}}_{0k}}{{\hat{\pi}}_{0k}}=\frac{a_kd_k}{b_kc_k} \end{gather}

検定仮説

特に、層別解析に対するコクラン検定やマンテル・ヘンツェル検定を想定する場合、 各層に共通した曝露効果がある との前提から始める。

帰無仮説

帰無仮説は、 全層共通のオッズ比が1である すなわち、すべての $k=1,2, \cdots ,K$ に対し、 \begin{align} H_0:\varphi_k=1 \end{align} これは、 すべての層で曝露群と非曝露群の発症確率が等しい \begin{align} H_0:\pi_{1k}=\pi_{0k} \end{align} という仮説と同値である。

対立仮説

対立仮説は、 1ではない全層共通のオッズ比が存在する すなわち、すべての $k=1,2, \cdots ,K$ に対し、 \begin{align} H_1:\varphi_k=\varphi \left( \neq 1\right) \end{align} これは、 各層の曝露群と非曝露群の発症確率は等しくない \begin{align} H_0:\pi_{1k} \neq \pi_{0k} \end{align} という仮説と同値である。

参考文献

  • ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学. 篠原出版新社, 2013, p.249
  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.129

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ