医学・疫学研究の基本指標

公開日: 更新日:

【2022年10月2週】 【A000】生物統計学 【A020】尺度と測定

この記事をシェアする
  • B!
サムネイル画像

医学的研究のうち「発症機序」、すなわち「要因」と「疾病の発生頻度」についての研究は、疫学的な手法によって研究が進められます。本稿では、そうした疫学の基本用語である曝露やアウトカム、基本指標である①比、②割合、③率について、定義と特質を解説しています。これらの用語は日常語としての意味と異なる点があるので、しっかりと理解することが大切です。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

曝露と疾病

疾病(アウトカム)

医学研究、あるいは、特に疫学研究では、「発症機序(ある要因と疾患の発症や有害事象の出現との因果関係)」がよく研究テーマとなります。そこでポイントとなるのは、「要因」と「疾病」ということになりますが、特に疫学研究においては、世間一般が考えているような病気はもちろんのこと、ある種の条件のもとで起こってくる健康上のすべての現象疾病 disease と称することがあります。

また、その研究を実施するうえで問題としている状態や結果のことを一般にアウトカム outcome、あるいはエンドポイント endpointアウトカムとなる事象のことをイベント event と呼んでいます。例えば、喫煙とがんの発生との関連性を調べる研究では、がんが発生していることを「アウトカムが発生している」と表現し、アスピリンの心血管疾患予防効果を調べる臨床試験を考える際には、心血管疾患の発症が「イベント発症」となります。

このように、「胃がんに罹患する」「障碍のために介助が必要になる」といった「悪い状態」は、もちろん疾病(アウトカム)となりますが、逆に「80 歳まで自立して生きる」という「良い状態」も医学・疫学においては disease outcome として観察対象となります。

曝露

曝露 exposure というと何かを体に浴びるような印象がありますが、疫学では、疾病発生の以前に存在する特定の状態のことを指します。たとえば、喫煙とがんの発生の関係を調べる研究では、喫煙していることを「曝露している(曝露あり)」、喫煙していないことを「曝露していない(曝露なし)」と表現します。

また、「毎日30 分以上の散歩を行う」という日常生活習慣も、疫学上は「曝露」であり、「年齢」や「性」、「遺伝的要因」などもすべて曝露条件となります。

曝露のなかでもアウトカムとなるイベントの発生確率に影響を与えるもの危険因子(リスク・ファクター) risk factor、あるいは、予測因子 predictive factor といいます。たとえば、喫煙は肺がんの発生確率に影響を与える(発生確率を高くする)ので、肺がんの危険因子といえます。ただ、「治療がうまくいった」、「効果があった」、「救命できた」のような、むしろ歓迎すべき結果でも、2群を比較したりするときには、一般的に「リスク」という言葉を使用するため、「リスク・ファクター」となります。

疫学研究における曝露は、以下に示すように、宿主要因、環境要因(社会文化経済的環境要因)、環境要因(自然環境要因)に大まかに分類することができます。

また、1 回のみの曝露(たとえば、原子爆弾被爆、災害など)と、継続する曝露(たとえば、食事・喫煙などの日常生活習慣、職業など)に分類することもできます。曝露量(あり・なしの2 値データ、数量データ、など)の評価においても、疾病と同様に評価方法と定義をきちんとしておく必要です。

表1 曝露の分類例
  1. 宿主要因
    1. 遺伝的要因:遺伝病家族歴、素因、体質、家族歴、遺伝子多型など
    2. 身体的要因:年齢、性、人種、体格・体型、身体活動、既往疾思など
    3. 精神的要因:性格・気質、行動型、性行動など
  2. 環境要因(社会文化経済的環境要因)
    1. 社会生活因子:出生地、居住地、社会活動など
    2. 婚姻・家族因子:婚姻状況、家族構成、生活レベルなど
    3. 居住因子:家屋構造、換気、上下水など
    4. 衣服因子:着用衣服、履物、寝具など
    5. 食生活・食習慣因子:摂取食品、嗜好品、摂取習慣,調味料、食品汚染、低栄養・過栄養など
    6. 嗜好品:喫煙、飲酒、コーヒー、清涼飲料水など
    7. 職業:職種、労働環境、労働条件、職業性曝露、通動、転職、職場のストレス、単身赴任など
    8. 医療・保健:検診受診、医療機関との近接性、薬物乱用、個人衛生習慣、運動・スボーツなど
    9. 教育・文化:教育レベル、宗教 趣味、風俗・風習、余暇の過ごし方など
    10. 経済:収入、財産、景気、戦争など
    11. 社会環境:人口密度、人口移動 政治形態、産業構造、交通など
  3. 環境要因(自然環境要因)
    1. 気象(自然・人工):気温、湿度、気圧、風速、風向、日照時間、季節など
    2. 地理:地形、地質、高度、緯度、海流など
    3. 物理:騒音、振動、粉塵、電磁界、放射線など
    4. 化学:天然毒、化学薬品、廃棄物、微量元素、重金属など
    5. 生物:環境中のすべての生物

予防

危険因子とは疾病発生の前に存在し、疾病発生確率に影響を与えるものです。疫学研究によって危険因子が明らかになれば、これを変化させることによって疾病の発生確率を低下させることが可能となります。これが予防 prevention です。たとえば、「特定の井戸の水を使うことがコレラの危険因子である」、「喫煙が心筋梗塞の危険因子である」ということが判明した場合、このような行動様式を改めれば(井戸水を使わない、喫煙しない)、リスクの低下をはかることができます。

指標の理論的背景:比・割合・率の違い

集団中の疾病発生の頻度は通常、①比、②割合、③率のいずれかで表されます。これらの言葉は、日常語として定着し、ほぼ同じような意味として使い分けられることはありませんが、疫学や医療統計の言葉として使うときには、明確に使い分ける必要があるため注意が必要です$^\mathrm{(1)}$。

比 ratio とは、ある数を別の数で割ることで得られる値であり、さまざまな2つの量の比較に広く用いられる指標です。割合とは異なり、性質が違うものどうしの割り算です。

数学的には、ある性質 $A$ を有するものの個数を $a$、別の性質 $B$ をもつものの個数を $b$ とするとき、 \begin{align} \mathrm{Ratio}=\frac{b}{a} \quad \mathrm{or} \quad \frac{a}{b} \end{align} 理論的に取り得る値の範囲は、0以上の値すべてです。 \begin{align} \mathrm{Ratio}\in \left[0,\infty\right] \end{align}

たとえば、ある疾患が男性に多いのか女性に多いのかを示す場合に、男女比 gender ratio を用いることがあります。男女比の場合、生物学的には、$A,B$ の両方に含まれる人はいませんが、観察する項目によっては両者に含まれるものが存在してもかまいません。

「割合」とは異なり、分子が分母の一部である必要はなく、次元や単位の異なる量の比較にも利用できるため、性質の異なる2つの事象や発生の対比による頻度の表現によく用いられます。分子と分母が同じ単位を取る場合には単位がキャンセルされ、単位を持たない値として比が算出されますが、分母と分子が異なる単位を持つ場合には、分子の単位を分母の単位で除した形の単位が残ります。

例えば、男女比は、 \begin{align} \mathrm{GR}=\frac{\mathrm{male} \left[\mathrm{person}\right]}{\mathrm{female} \left[\mathrm{person}\right]} \end{align} となり、単位の〔人〕が相殺されて、無次元となります。 いっぽう、例えば、肥満度の指標である BMI (body mass index) は \begin{align} \mathrm{BMI}=\frac{\mathrm{weight} \left[\mathrm{kg}\right]}{\mathrm{height} \left[\mathrm{m^2}\right]} \end{align} となり、単位は、$\mathrm{kg}/\mathrm{m^2}$ となります。

割合

割合 proportion, fraction$^\mathrm{(i)}$ とは、全体の中で特定の特徴をもつものが占める部分の大きさのことです。別の言い方をすると、比の中で、分子が分母の一部であるものを指すということもできます。

数学的には、集団が性質 $A,B$ のいずれかをもつものだけで構成されており、性質 $A$ の個数を $a$、性質 $B$ の個数を $b$ とするとき、 \begin{align} \mathrm{Proportion}=\frac{a}{a+b} \end{align} 理論的に取り得る値の範囲は、0以上1以下の値であり、しばしば百分率(%)で表記されます。 \begin{align} \mathrm{Proportion \left[N.D.\right]}\in \left[0,1\right] \end{align} たとえば、集団のなかでの喫煙者の割合などがこれに該当します。分子が分母の一部であるため、分子と分母の次元や単位は同じになり、次元や単位が打ち消され、無次元で単位のない値になります。

ここで、集団における男女の数の比較を例に挙げて、「割合」と「比」の違いを簡単に説明したいと思います。男性20人、女性80人、合計100人の集団について男女の比を計算すると、男性に対する女性の比は \begin{align} \mathrm{Ratio}=\frac{80}{20}=4 \end{align} この「比」という値をもとに、「集団において女性の数は男性の数の4倍」であり、逆に「男性の数は女性の数の $\frac{1}{4}$ である」と表現することができます。

また、集団における男性と女性それぞれの割合は、 \begin{gather} \mathrm{Proportion\ of\ Male}=\frac{20}{20+80}=0.2\\ \mathrm{Proportion\ of\ Female}=\frac{80}{20+80}=0.8 \end{gather} いずれも、同じ集団内の男性と女性の量を表現していますが、前者の「比」の算出では、男性と女性は「別グループ」と考え、2つの量を比較するために用いられています。いっぽう、後者の「割合」の算出では、男性と女性それぞれの状態を別個に記述しているといえます。

率 rate とは、ある現象の発生頻度に関する指標であり、適当な単位量あたりの変化量(変化の速度)を比として表現する指標です。より平易な言い方をすれば、「比」の特殊な形態の1つで、分母に時間的要素が含まれるものということもできます。

数学的には、一定の時間内である事象が観測された回数を $a$、観測時間の合計を $t$ とするとき、 \begin{align} \mathrm{Rate}=\frac{a}{t} \end{align} 理論的に取り得る値の範囲は、0以上の値すべてです。 \begin{align} \mathrm{Rate} \left[/\mathrm{time}\right]\in \left[0,\infty\right] \end{align} 「割合」とは異なり、分子は分母の一部ではないため、値は1よりも大きくなることがあり、分子の単位を分母の単位で除した単位をつけて表記します。

最も身近な例は、自動車の走行速度でしょう。あるときは時速100 km で走り、あるときは時速30 km で走るときがあるなど、速度は常に揺れ動き、変化するものですが、1時間に60 km 走行していれば平均時速は60 km/h となります。このように一瞬ごとに変化する率を瞬間的な率 instantaneous rate、一定時問で丸めた率を平均的な率 average rate といいます。

疫学の領域では、イベントの発生速度を意味する指標として、「疾患の発生率」、「感染率」、「発生率」、「死亡率」などの指標があります。

医療統計の分野では、「集団におけるイベントの発生頻度」を表す瞬間的な率のことを「ハザード hazard」と表現することがあり、生存時間分析でハザードは、リスク因子への曝露時間の影響が加味(調整)されたアウトカム指標として用いられています。

両者の使い分けとしては、イベント発生の有無だけに関心がある場合は「リスク」を、イベントが発生するまでの時間にも関心がある(時間の影響を調整して評価したい)場合には「ハザード」を用います。

ひとつの集団に用いられる疾病頻度測定の指標

ここでは、実際に用いられている疾病頻度を表す指標について説明します。ただし、それぞれの指標の理論上の定義と日常語としてのイメージは、(日本語でも英語でも)必ずしも一致していないので、混乱しないように注意してください。

発生率

発生率 incidence rateとは、単位時間あたりのイベントの発生頻度のことを指し、ある瞬間におけるイベントの起こりやすさを表す指標です。「率」の説明で出てきた「瞬間的な率」にあたるものであり、相対的な率 relative rate と呼ばれることもあります。

関心のあるイベントには、「疾患の発生」、「疾病への罹患」や「死亡」などの種類があり、疾患の発生なら「疾病発生率」、罹患なら「罹患率」$^\mathrm{(ii)}$、死亡なら「死亡率 mortality rate」と呼ばれることがあります。

数学的には、観察している集団におけるイベントの新規発生数 $a$ をそれぞれの対象者の観察期間 time periods$^\mathrm{(iii)}$ $T_i$ の総計で割ったものであり、0以上の値すべてを取る可能性があります。 \begin{align} \mathrm{IR}=\frac{a}{\sum_{i=1}^{n}T_i} \left[\mathrm{/time}\right]\in \left[0,\infty\right] \end{align}

ここで、分子は問題としている疾病の新発生数であり、観察開始時点で既に罹っている者(有病者)は原則として含めません。そして、アウトカムが発生した人については、その時点で分母の観察対象からは除かれ、それまでの観察期間のみが計上されます。観察期間の計算方法については、例えば、10000人を5年間観察すれば、 \begin{align} \sum_{i=1}^{n}T_i=10000\times5=50000 \left[\mathrm{person-year}\right] \end{align} この場合の結果についている単位 ”person-year” は日本語では「延べ」に相当する疫学専門用語であり、しばしば、人・時 person-time、例えば、人・年 person-year人・月 person-month と表現されます。ちなみに、100000人を半年間観察しても、同様に50000[人・年]の観察期間となります。

発生率の次元 dimension としては、分子が「人」に対して分母が「人・時」であるので[/年]となります。例えば、32750[人・年]の観察期間中、80人が脳卒中を発症した場合、脳卒中の発生率は、 \begin{align} \mathrm{IR}=\frac{80 \left[\mathrm{person}\right]}{32750 \left[\mathrm{person-year}\right]}=0.00244 \left[\mathrm{/year}\right] \end{align} あるいは、1000[人・年]あたり2.44[人]と表します。こうした表現は、比較的大きな集団を扱う疫学の分野でよく用いられます。

累積発生率(疾病発生割合)

累積発生率 cumulative incidence rate は、一定期間内に、対象固定集団から疾病に罹患した者の割合であり、「率」という用語が習慣的に使われていますが、疫学の定義上の「率」ではありません。疾病発生割合 incidence proportion と呼ばれることもありますが、こちらは疫学上の定義と意味が一致しています。これらは、一定期間内に疾病が発生したかどうかだけの情報で罹患状況を観察した指標と解釈こともできます。「平均的な率」にあたるものであり、絶対的な率 absolute rate と呼ばれることもあります。

数学的には、観察集団における期間内の疾病の新発生数 $a$ を観察開始時点の固定集団人口 $N$ で割ったものであり、以下の式で表されます。 \begin{align} \mathrm{CIR}=\frac{a}{N} \left[\mathrm{N.D.}\right]\in \left[0,1\right] \end{align} したがって、その値は必ず0から1の間をとり、次元はありません。累積発生率は、その期間内における疾病罹患確率であり、その期間を通じた平均リスクの指標と考えられます。したがって、期間の特定が前提であり、ある集団の「5年間の累積発生率」のように表現します。

有病率

有病割合 prevalence proportion、あるいは有病率 prevalence は、ある時点における集団内の特定の健康状態(たとえば、特定の疾患)をもつ者の割合です。後述の期間有病率と区別するために、時点有病率と表現することもあります。これも、「率」という言葉を使っていますが、実際には「割合」にあたる概念です。

数学的には、ある時点で疾病にかかっている人数 $a$ をその時点の全対象者数 $N$ で割ったものであり、0から1の間の値を取ります。 \begin{align} \mathrm{P}=\frac{a}{N} \left[\mathrm{N.D.}\right]\in \left[0,1\right] \end{align}

例えば、ある年の7月1日に実施された健康診断で、1000人中120人が高血圧だったとすると、高血圧の有病率は、 \begin{align} \mathrm{P}=\frac{120}{1000}=0.12 \end{align} つまり、12%となります。これは、「高血圧の有病率は12%」、あるいは、「高血圧者は人口1000人当たり、120人」と表現できます。この値は、その年の7月1日のみに適用が可能で、有病率に影響を与える因子が変化するのにともなって、時間と共に有病率も変化することがあり得ます。

ある集団を、時間を追って観察する場合に、観察開始時点の時点有病率に観察終了時点までの累積発生率を加えた数値期間有病率 period prevalence と呼びます$^\mathrm{(iv)}$。発生率の観察とは異なり、観察開始時点にすでに罹患しているものを排除していないのが特徴です。

致命率(致死率)

致命率 fatality rate には、2種類の致命率が存在します。1つは、ある集団における死亡率と発生率の比として定義されます(したがって、「率」ではなく「比」)。 \begin{align} \mathrm{FR}=\frac{\mathrm{MR}}{\mathrm{IR}} \end{align}

例えば、ある年のがんの発生率が人口10[万人・年]あたり900[人]、同年の死亡率が人口10[万人・年]あたり300[人]であったとすると、その年のがんの致命率は、 \begin{align} \mathrm{FR}=\frac{300}{900}=0.333 \end{align}

もう1つの致命率は、特に急性疾患における、罹患集団における一定期間内の死亡者の割合を指します(したがって、「率」ではなく「割合」)。英語ではもう1つの致命率と区別する意味で case-fatality rate と呼ぶこともあります。例えば、急性心筋梗塞を発症した100人のうち、1週間以内に35人が死亡した場合、致命率は35%となります。

発生率と発生割合の関係

医療統計の分野では、発生割合のことをリスク risk と表現することがあります。例えば、日常的にも「喫煙は肺がんのリスクを高める」というふうに「リスク」という言葉が使われます。これはつまり、「喫煙は肺がんの発症確率を高める」ということであり、「リスク」という言葉は「ある人にアウトカムが発生する確率」のことを指しています。

ニュアンスの違いとしては、「リスク」は「個人」に対して用いられるものであり、「発生割合」は「集団全体」に対して用いられます。それぞれの個人にとって、ほとんどの疾病は、単純に「発症する」か「発症しない」かのどちらかですが、集団としてみれば、発症者の割合(発症確率)を求めることができます。この「ある期間内における疾病の平均的な発生確率」を個人のリスクを推定するのに用いていると言えるでしょう。発生率の定義を考えると、以下の関係が成り立ちます。 \begin{align} \mathrm{Risk}=\mathrm{IR}\times T_i \end{align} 例えば、発生率が $0.00244 \left[/year\right]$ の疾患なら、ある人が1年間にその疾患を発症する確率は、 \begin{align} \mathrm{Risk}=0.00244 \left[\mathrm{/year}\right]\times1 \left[\mathrm{year}\right]=0.244\% \end{align} となります。

発生率と有病率の関係

集団における疾病の発生状態が安定している、すなわち、発生率と平均有病期間が変わらない(観察する疾病が増加傾向や減少傾向にはない)場合には、発生率 $\mathrm{IR}$ と有病率 $\mathrm{P}$ と平均有病期間 $D$ の間には \begin{align} \frac{\mathrm{P}}{1-\mathrm{P}}=\mathrm{IR}\times D \end{align} すなわち、「有病オッズは、発生率と平均有病期間の積に等しい」という関係が成り立ちます。
特に、有病率が非常に小さい $\mathrm{P}\rightarrow0$ ときは$^\mathrm{(v)}$、 \begin{align} \mathrm{P}\cong\mathrm{IR}\times D \end{align} すなわち、「有病率は、発生率と平均有病期間の積に等しい」となります。平均有病期間とは、「その疾病にかかっている状態にある時間」です。例えば、風邪をひいた場合、だいたい1~2週間くらいで治りますが、完治するまでに何年もかかる病気もあります。一般的に、発生率が高くても有病期間が短ければ有病率はそれほど高くなりませんが、逆に発生率が低くても有病期間が長ければ有病率はそれなりの値になります。

また、有病率は有病期間の影響を受けるので、特に疾病の1次予防を議論する場合には有病率よりも発生率のほうがよい指標となります。

参考文献

  • ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学. 篠原出版新社, 2013, p.61-85
  • 丹後 俊郎, 小西 貞則 編集. 医学統計学の事典 新装版. 朝倉書店, 2018, p.90-91
  • 中村 好一 著. 基礎から学ぶ楽しい疫学. 医学書院, 2020, p.9-26

引用文献

  1. Elandt-Johnson, R.C.. Definition of rates: some remarks on their use and misuse. American journal of epidemiology. 1975;102(4):267-271, doi: https://doi.org/10.1093/oxfordjournals.aje.a112160

脚注

  1. 特に、分母・分子が共に整数であるような、比較的大きな全体に対する部分は proportion、分母・分子に小数が含まれるような、比較的小さな全体に対する部分は fraction という区別があるようですが、日本語には対応する用語がないので、どちらも「割合」と呼ばれています。
  2. 英語の表現は、どちらも単に Incidence rate です。
  3. 「観察期間」とは、「対象者が疾病に罹患する可能性のある時間、すなわち疾病のリスクにさらされている時間」を指します。この「疾病のリスクにさらされている」ことを「at risk の状態にある」といいます。
  4. これは(時点)有病率、累積発生率がともに「割合」なので、足し算が可能となっています。観察開始時点の時点有病率と発生率の和を求めても、解釈不能(無意味)な値が得られます。
  5. それぞれが取り得る値の範囲を考えると、 \begin{gather} \mathrm{P}\in \left[0,1\right]\\ \mathrm{IR}\in \left[0,\infty\right]\\ D\in \left[0,\infty\right] \end{gather} したがって、 \begin{gather} \mathrm{IR}\times D\in \left[0,\infty\right] \end{gather} このため、「有病率」と「発生率と平均有病期間の積」は、一般的には、取り得る値の範囲の観点から等しくなりません。
    これに対し、有病率のオッズは、 \begin{align} \frac{\mathrm{P}}{1-\mathrm{P}}\in \left[0,\infty\right] \end{align} このため、「有病率のオッズ」と「発生率と平均有病期間の積」の方が、一般的に成り立つ関係と言えます。

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ