選択バイアスと情報バイアス

公開日: 更新日:

【2022年10月4週】 【A000】生物統計学 【A040】標本調査論 【A041】バイアス・交絡

この記事をシェアする
  • B!
サムネイル画像

バイアスとは、「系統的な、一定の方向性をもった誤差」のことであり、バイアスの影響によって、研究結果が真実から大きく歪められてしまうことがあるため、研究を行う際には、バイアスへの配慮が不可欠となります。本稿では、代表的なバイアスのうち、選択バイアスと情報バイアスについて解説しています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

選択バイアス

選択バイアス selection bias とは、ターゲット集団から観察対象集団を抽出する過程で発生するバイアスのことで、曝露と疾病の関係が、研究に参加した人としなかった人とで異なる場合に発生します。研究に参加しなかった人については、曝露と疾病の関係は通常わからないので、選択バイアスがあるかどうかの判断は通常、観察ではなく、推測にもとづかければなりません。

選択バイアスには、①母集団から標本を抽出する際に偏った抽出方法で行ってしまった結果生じるバイアスと②抽出した標本と最終的に分析対象とする集団の違いから生じるバイアスに分けられます。

標本を抽出する際に生じるバイアス

標本を抽出する際に生じるバイアスとは、標本を抽出する際、調査目的に当てはまらない集団を標本として抽出してしまうことによって生じるバイアスのことで、サンプリング・バイアス sampling bias ということもあります。このバイアスは、本質的に、標本の対象をターゲット集団から無作為抽出(ランダム・サンプリング)しないことが原因となります(そのため、無作為性が担保されている場合、このバイアスは生じません)。特に、ケース・コントロール研究のケース群・コントロール群を選出する際、このバイアスの問題が生じやすいとされています。サンプリング・バイアスには、自己選択バイアスや健康労働者効果などが含まれます。

自己選択バイアス

実際の研究では、研究協力者をボランティアとして募集することがありますが、このときに、対象者自身の意志や関心などによってバイアスが生じてしまうことがあります。これを自己選択バイアス self-selection bias といいます。

コホート研究の場合、例えば、喘息の発作を抑える新しい吸入薬が開発され、この新薬の効果をみるために、喘息持ちの子どもの中からボランティアを募って、試験的に新薬の吸入を開始し、その後、「吸入をしている患児」と「吸入をしていない患児」の喘息発作の発症率を比較したとします。このとき、もともとのリスクが「低い人ばかり集まる可能性」と「高い人ばかり集まる可能性」の両方が考えられます。

ボランティアとして吸入を開始した患者の家族は喘息の予防について関心があり、家の清掃を毎日行うなど喘息の発作が起こらないような環境整備に気を配っているかもしれません。すると、吸入をしている患児は新薬の効果に関係なく、喘息発作の発症率が低いことが予想されます。

逆に、既存の抗アレルギー薬では喘息発作を何度も繰り返してしまう重症の患者が、「藁をも掴む思い」で新薬の吸入を試し、その後の評価において新薬の吸入をしている患児の方が喘息発作の発症率が高くなる可能性もあります。このような効果がお互いに相殺される場合もありますが、どの程度相殺しあうのかの評価は難しいといえます。

コホート研究での自己選択バイアスのイメージ図
図1 自己選択バイアス(コホート研究)

ケース・コントロール研究の場合、例えば、がんとさまざまな危険因子との関係を調べたいと思い、「学術研究の目的で、無料で検査を行います」と謳い、コントロール群をボランティアで募集したとします。このとき、集まってくる人たちは、社会経済的に恵まれ、もともと健康や社会貢献への意識が高い人たちばかりになってしまう可能性があります。こうした人々は、諸々の危険因子を避けた生活を送っている可能性が高く、そうした場合には、曝露の影響が過大評価されてしまうおそれがあります。

横断研究の場合、例えば、がんの有病率を調べる際、同様に無料での検査を謳うと「自分はがんに罹っているかもしれない…」と不安に思った人が多く集まる可能性があり、結果として、有病率を高く見積もってしまう可能性があります。

横断研究やケース・コントロール研究での自己選択バイアスのイメージ図
図2 自己選択バイアス(横断研究・ケース・コントロール研究)

健康労働者効果

自己選択バイアスは、対象者の選択を対象者側に委ねているときに発生するバイアスですが、研究者がより直接的に、選択に関与している場合にも選択バイアスが引き起こされることがあります。例えば、労働者の健康に関する研究の多くで、特定の職種の労働者の死亡率と一般集団の死亡率が比較されています。こうした比較には、一般集団の中に「病気のため働けない人」が多くいることから、バイアスがあります。その結果、労働者の死亡率は全体として一般集団における死亡率よりも低いことが多く、これら2群を直接比較するのはバイアスの影響を受けてしまっています。この選択バイアスはよく健康労働者効果 healthy worker effect とよばれます。

健康労働者効果のイメージ図
図3 健康労働者効果

このバイアスを避ける1つの方法として、特定の職種の労働者と、職業性曝露や危険が異なる他の職種の労働者を比較する方法があります。もし比較のために含まれる対象者がすべて労働者であれば、健康労働者効果によるバイアスを回避することができます。

抽出した標本と解析対象とする集団の違いから生じるバイアス

このバイアスは、統計解析の対象となるはずの集団(観察対象集団)から研究対象者が減る(参加拒否者が存在する、すなわち参加率が100%でない)場合に生じるバイアスです。このバイアスの代表的なものとして、脱落バイアス、未回答者バイアス・同意バイアスなどがあります。

脱落バイアス

コホート研究や実験研究のような迫跡研究において、調査期間が長くなると研究対象者の死亡、転出、転院などで追跡が不可能になる場合があります。このときに、脱落が研究目的としている事象と関連していることによって引き起こされるときに、脱落バイアス withdrawal bias, dropout bias が生じます。

例えば、薬物の臨床試験の際に、効果を実感できない人や副作用を経験した人の多くが途中で参加を中止してしまうと、結果として効果が出た人が最終的に多く残ってしまいます。また、手術後の5年生存を調べる研究では、担当医が知らないうちに死亡した症例、悪化して他院に入通院した症例、経過が良好で医療が不要になって通院しなくなった症例など、重症例や軽症例が選択的に脱落して打ち切り例として扱われることがあり、これによる歪みもバイアスとなります。

脱落バイアスのイメージ図
図4 脱落バイアス

脱落者の割合についてのはっきりとしたボーダーラインはありませんが、目安としては、当初の追跡対象とした研究対象者のうち2割以上が脱落した場合、脱落バイアスの影響は大きくなるといわれることがあります$^\mathrm{(1)}$。これらのバイアスを統計学的解析で解消することはできないため、研究計画策定の段階でバイアスを最小限にするように努力しなければならなりません。それでも防げない場合、脱落者と非脱落者の基本属性の比較などを行い、両者群に違いがないことを確認することが必要となります。

未回答者バイアス・同意バイアス

未回答者バイアス non-respondent bias 、あるいは、同意バイアス consent bias は、アンケート調査などで起こりやすいバイアスです。

例えば、喫煙者の割合が約3割のある企業で、従業員の中から完全にランダムで抽出した人たちに「禁煙推進について」と題したアンケートを実施したとします。質問内容は、「タバコは身体に悪いという医学的事実をもっと啓発すべきだと思いますか?」、「タバコを吸う人は吸わない人に比べ、モラルが低いと思いますか?」といった内容であり、アンケートの回収率は約6割でした。その結果、9割以上の人が禁煙に賛成しているという結果が得られました。さて、この横断研究の結果は、社員の民意を正確に反映しているでしょうか?

こうした極端な例であればすぐに分かりますが、当然、未回答者のほとんどが喫煙者で占められていることが予想され、喫煙者の意見は反映されていません。いっぽう、職場の完全禁煙を実現してほしい非喫煙者は、積極的にこのアンケートに回答するでしょう。これは、分かりやすいバイアスになります。

また、ある学校で先生が作成した「スペシャル問題集」の効果を確かめるために、ケース・コントロール研究の要領で調査をしたとしましょう。曝露を「スペシャル問題集をやった」、アウトカムを「試験合格」、ケース群を「試験合格者」、コントロール群を「試験不合格者」と設定し、それぞれの群から無作為抽出して無記名式のアンケートを実施しました。その結果、「スペシャル問題集」をやったかどうかは試験合格にあまり関係ないことが分かりました。この例では、コントロール群の「問題集をやっていない生徒たち」が後ろめたさを感じて、アンケートに回答していないことが予想され、曝露の効果が過小評価されている可能性が考えられます。

未回答者バイアスのイメージ図
図5 未回答者バイアス

このように、回答するか否か(あるいは研究に参加するか否か)が曝露とアウトカムの両方から影響を受けている場合、未回答者バイアスが発生してしまいます。回答率についても明確なボーダーラインはありませんが、こちらも、できる限り8割以上の回収率、有効回答率とするための努力が必要といわれています$^\mathrm{(2)}$。

選択バイアスの制御方法

選択バイアスは情報バイアスと同様、交絡因子とは異なり、データを収集してしまった後から制御することができません。選択バイアスの影響を減らすためには、観察対象集団を標的集団から無作為に抽出することと観察対象集団に働きかけてできるだけ高い参加率を目指すことが重要です。

疫学研究は動物実験とは異なり、生身の人間が対象であるため、参加率100%はなかなか難しい課題です。しかし、参加者の負担をできるだけ少なくし、できたら報酬も含めて、調査集団の構成員になる(調査に協力する)ことのメリットも出すなどの工夫ができます。ケース・コントロール研究では、各群の抽出において曝露情報が参考にならないようにすることが求められます。この場合にできるだけ客観的な要件でケース・コントロールを決定する方法も1つの手段となります。

情報バイアス

情報バイアス information bias は、曝露、あるいは疾病発生について、研究で得られた情報が事実と異なる場合に発生するバイアスのことで、測定バイアス measurement bias観察バイアス observation bias誤分類バイアス misclassification bias などともいいます。

自己申告バイアス・報告バイアス

自己申告バイアス reporting bias とは、研究対象者が曝露や転帰を申告するときに生じるバイアスで、報告バイアス ともいいます。年齢や体重などを聞かれた際、サバを読んで、少なめに答えるというのが分かりやすい例です。一般的に、社会的に望ましいとされる方向や回答者の理想像に沿う方向に回答がズレてしまいます。

自己申告バイアスのイメージ図
図6 自己申告バイアス

このようなバイアスを防ぐためには、できるだけ客観的な測定方法を用いることが重要です。例えば、喫煙状況を調べるために問診票の回答ではなく尿中コチニンを測定したりするなどがあります。

想起バイアス

想起バイアス recall bias は、疾病に対する回答者の知識や関心に差がある場合に生じるバイアスで、特に、ケース・コントロール研究において、曝露情報を得るため対象者に面接調査したときなどに起こります。

例えば、先天性異常をもって生まれた新生児についてケース・コントロール研究を行うとき、出生後に母親から面接で情報を得ることがあります。深刻な先天異常をもった新生児の母親は、市販の薬を飲んだこととか、熱を出したこととか、妊娠初期の経験を正確に思い出すことができる可能性が高くなります。なぜなら、人は自分に悪いことが起こったとき、その原因について深く考えることが多いからです。

ところが正常新生児の母親たちは、自分の記憶をたどらせるような刺激がないため、市販薬のことや発熱のことを思い出せない可能性が高くなります。このような例は、想起バイアスの中でも、特に、母性想起バイアス maternal recall bias と呼ばれます。

また、自分がその病気を発症したことがあるか否かによって遺伝的な要因に対する関心に違いがあることがあります。例えば、現在健康で若い人に「糖尿病になった親戚はいますか?」と尋ねても、「分からない」と答えることは珍しくないでしょう。それに対して、現在、糖尿病に罹患している人は、家族や親戚から話を聞いたりしていて、家系的なものがあることを把握している可能性は高くなります。このように、回答者の状態により、回答の精度が異なったものになる可能性が生じることを家族歴のバイアス family information bias といいます。

想起バイアスのイメージ図
図7 想起バイアス

なお、コホート研究の場合、曝露に関する判定がアウトカムの発生前に確定しているので、想起バイアスが問題になることはありません。

質問者バイアス

質問者バイアス interviewer bias、あるいは、観察者バイアス observer bias とは、観察者や評価者の先入観によって生じるバイアスで、特に、主観的判断に依存する評価を行うときに起こりやすいバイアスです。

例えば、ケース・コントロール研究で、曝露状況を調べているときに、その人がケース群だと分かっているときには、根掘り葉掘り質問して、曝露情報を引き出そうとするのに対し、コントロール群に対しては、「曝露してない可能性が高い」と思い、通り一遍の質問だけで済ましてしまうとバイアスが生じてしまいます。

また、新薬の効果について、医師の所感による評価するとき、新薬に期待している担当医は新薬の効果を過大評価しやすく、批判的な担当医は過小評価しやすくなります。これは、治療を受ける患者にしても同様で、その「知識」が自覚症状の判断に影響をおよぼすことはめずらしくありません。

質問者バイアスのイメージ図
図8 質問者バイアス

こうしたバイアスを予防するためには、構造化面接 structured interview を行う、対象者ひとりひとりに質問者をランダムに割り振る、評価者にケースとコントロール群のどちらであるかを前もって教えないなどの方法があります。

差異誤分類と非差異誤分類

これまで説明してきた情報バイアスは、比較する群どうし(ケース・コントロール研究なら、ケース群とコントロール群の曝露情報、コホート研究や介入研究なら、曝露(介入)群と非曝露(非介入)群の発症情報)で誤分類が発生する確率が同じ場合と、異なる場合では、その影響の大きさが違ってきます。この点、誤分類の発生確率が同じ場合を非差異誤分類 non-differentiat misclassification、異なる場合を差異誤分類 differential misclassification といいます。

差異誤分類

例えば、ケース・コントロール研究の場合、ケース群の方が曝露についてより詳しく思い出そうとしたり、調査者がより曝露情報を引き出そうとしたりするいっぽう、コントロール群は、詳しく思い出せなかったり、調査者が曝露を見過ごしてしまう可能性が高くなるという例を挙げました。この場合、コントロール群の方が非曝露に誤分類される確率が高いと考えられるので、差異誤分類となります。

コホート研究の場合、例えば、喫煙と肺気腫の関係を調べるとしましょう。肺気腫の診断は見過ごされることがしばしばあり、非喫煙者よりも喫煙者で診断される傾向があります。このとき、喫煙者自身もその担当医たちも、喫煙の影響を心配しているため、より徹底的に呼吸器疾患がないか調べようとするいっぽう、非喫煙者にはそこまで徹底的な検査が行われませんでした。その結果として、非喫煙者で肺気腫の診断が見過ごされやすく、疾病の差異誤分類につながります。すると、喫煙が肺気腫につながらなかったとしても、非喫煙者で診断されにくいために肺気腫の発生率は喫煙者で高いようにみえます。この場合、非曝露群が曝露群よりも、「発症なし」に誤分類される確率が高く、差異誤分類となります。

差異誤分類は、非差異誤分類とは異なり、曝露の真の効果を過大評価(実際よりも大きく見せる)する方向にも、過小評価(実際よりも小さく見せる)方向にも働く可能性があることが特徴です。通常、バイアスがどちらの方向に働いているのかは分からないため、結果の妥当性の評価を難しくするという意味で、差異誤分類は、質の悪い誤分類といえます。

非差異誤分類

これに対し、非差異誤分類については、例えば、赤ワインの摂取と肺気腫の発生の関係について調べているとしましょう。このとき、喫煙のときとは違って、ワイン摂取が多いか少ないかと肺気腫がある場合の診断のされ方とは関係がないと考えられます。その結果、肺気腫が見過ごされる人もいるでしょうが、赤ワインを摂取した人としない人とで、見過ごされる確率は同じであると考えられます。過小診断は肺気腫の誤分類ではありますが、曝露群と非曝露群で過小診断が同じ傾向でなされていることから、疾病の誤分類は曝露に関して非差異的なものとなっています。同じように、疾病状態によらない曝露の誤分類も非差異的なものとなります。

非差異誤分類は、差異誤分類とは異なり、必ず曝露の真の効果を過小評価(差がない方向に薄まる)する方向に働くことが特徴で、もともと効果がなければ曝露の非差異誤分類は効果の推定にバイアスを与えません。そのため、バイアスの方向が予測できるという意味で、非差異誤分類は、質の良い誤分類といえます。例えば、あるケース・コントロール研究で、曝露オッズ比が5.2という結果が得られ、バイアスは、非差異誤分類しかないとき、「真のオッズ比は5.2、またはそれ以上であり、曝露は疾病発生のリスクを上昇させています」と胸を張って主張できます。

非差異誤分類の効果の例

例えば、高脂肪食の摂取と心筋梗塞の関連をケース・コントロール研究で調べるとします。研究対象者は、食事脂肪摂取量によりどこかの基準値を境に、高脂肪食摂取群かそうでない群かに分類されます。例えば、過去1週間の食事内容で判断されるとすると、なんらかの測定誤差は避けられず、この分類は完全に正確なものとはならないでしょう。たまたまそのとき脂っこい食事ばかりだったために誤って「曝露群」とされる人もいれば、その逆もあります。

正確な測定ができたと仮定して曝露群と非曝露群の判定を行ったときの結果が以下のようになったとします$^\mathrm{(3)}$。

表1 発症・暴露状況(真の値)
曝露あり
$ \left(E\right)$
曝露なし
$(\bar{E})$
合計
ケース群
$ \left(D\right)$
$250$ $450$ $700$
コントロール群
$(\bar{D})$
$100$ $900$ $1000$

このときの曝露オッズ比は、 \begin{align} \mathrm{\widehat{OR}}=\frac{250\times900}{100\times450}=5.0 \end{align}

ここから、非差異誤分類が発生するとどうなるかを見てみます。例えば、各群の「曝露なし」の20%が「曝露あり」に誤分類されると

表2 発症・暴露状況(非差異誤分類パターン①)
曝露あり
$ \left(E\right)$
曝露なし
$(\bar{E})$
合計
ケース群
$ \left(D\right)$
$340$ $360$ $700$
コントロール群
$(\bar{D})$
$280$ $720$ $1000$

このときの曝露オッズ比は、 \begin{align} \mathrm{\widehat{OR}}=\frac{340\times720}{280\times360}\cong2.4 \end{align}

各群の「曝露なし」の20%を「曝露あり」に、「曝露あり」の20%を「曝露なし」に誤分類すると

表3 発症・暴露状況(非差異誤分類パターン②)
曝露あり
$ \left(E\right)$
曝露なし
$(\bar{E})$
合計
ケース群
$ \left(D\right)$
$290$ $410$ $700$
コントロール群
$(\bar{D})$
$260$ $740$ $1000$

このときの曝露オッズ比は、 \begin{align} \mathrm{\widehat{OR}}=\frac{290\times740}{260\times410}\cong2.0 \end{align}

この例のように、非差異誤分類は、確かに、「曝露効果なし(オッズ比1.0)」の方向にバイアスをかけていることが分かります。

情報バイアスの制御方法

選択バイアスと同様に、情報バイアスの制御も研究計画段階でクリアしておかなければならない課題です。そして、①情報バイアスをできるだけ小さくする、②それでもすべてなくすことができない場合には、差異誤分類ではなく非差異誤分類とする努力をする、という2段階に検討事項が分かれます。

客観的で統一された方法で測定・判定する

情報バイアスをできるだけ小さくするには、①主観的な情報ではなく客観的な情報を収集する、②曝露や疾病発生について定義(判断基準)をあらかじめ定めておく、などの方法があります。例えば、小児の悪性新生物と胎内放射線被曝の関係をケース・コントロール研究で調べる際、母親の記憶(主観的情報)よりも診療録(客観的情報)のほうが、バイアスは少なくなると考えられます。

盲検化する

また、質問者バイアスへの対策として、曝露(コホート研究)や発症(ケース・コントロール研究)に関する情報を隠して、研究者以外の第三者に判定してもらうという方法があります。これを盲検化 blinding、あるいはマスキング masking といいます。

ケース・コントロール研究の場合、ケースとコントロールの区別を隠すか、目的とする危険因子を隠すかの2通りの盲検化があり、さらにそれを調査実施者に対して行うか、調査対象者に対して行うかの2通りの場合があるため、理論的には合計4種類の盲検化が存在することになります。

理想は、研究者にも研究参加者にも、誰がケースかコントロールかを盲検化することですが、実際にはこれは困難です。なぜなら、対象者にとっては、自分が病気かそうでないかは、通常、自明だからです。対象者にケースかコントロールかの区別を盲検化することができるのは、コントロール群自体も何らかの病気にかかっていて、しかも、目的とするリスク・ファクターと病気との関連に関する認識がケース群とコントロール群で差がない場合に限られます。また、研究者を盲検化することも困難です。病気かどうかが外見上明らかな場合(例:黄疸、喉頭摘出)は当然ですが、質問に対する患者の回答から分かってしまうこともあるからです。

ケースかコントロールかの区別を盲検化するよりは、研究の目的としているリスク・ファクターを盲検化する方が簡単です。ケース・コントロール研究では、疾患の原因探究の第1歩として、通常、多くのリスク・ファクターが同時に研究対象とされます。そのため、対象疾患に一見関係がありそうで実は関連のないリスク・ファクターに関する質間(ダミーの質問)を自然な形で加えることによって、実施者と対象者の両方に研究仮説を盲検化することができます。

例えば、蜂蜜の摂取と乳児のボツリヌス中毒との関連を調べる場合には、ゼリーやヨーグルトやバナナについても、同じように詳しく質問するというやり方をします。このような盲検化を行っても、実際のところ測定バイアスを完全に防げるわけではありませんが、測定バイアスが生じているかどうかの判断材料にはなります。

たとえば、ケース群で蜂蜜摂取が多く、他の食物にはそのような傾向がない場合、蜂蜜摂種と乳児ボツリヌス中毒との関連が測定バイアスによるものとは考えにくいと言えます。しかし、その関連が社会で広く知られていたり、あるいはダミーとして加えたつもりのリスク・ファクターが、実は真のリスク・ファクターであるような場合などはこの方法も役に立ちません。

血液検査やX線検査のような臨床検査の場合は、検査担当者に、そのサンプルがケースのものかコントロールのものかを盲検化して判定してもらうことができます。このような場合、サンプルに番号を付けるのを測定者でない人が行えばいいだけなので、盲検化は簡単です。

参考文献

  • ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学. 篠原出版新社, 2013, p.179-193
  • スティーブン・ハリー, スティーブン・カミングス ほか 著, 木原 雅子, 木原 正博 訳. 医学的研究のデザイン. メディカル・サイエンス・インターナショナル, 2014, p.116-121, p.135-140
  • 丹後 俊郎, 小西 貞則 編集. 医学統計学の事典 新装版. 朝倉書店, 2018, p.88-89
  • 中村 好一 著. 基礎から学ぶ楽しい疫学. 医学書院, 2020, p.87-103
  • 酒井 理恵. 誤差(error)と偏り(bias)、基本的な統計量、データの種類と記述. 小児科診療. 診断と治療社. 2009, 72(4), p.672-678

引用文献

  1. ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学. 篠原出版新社, 2013, p.125-126
  2. ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学. 篠原出版新社, 2013, p.151-153
  3. ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学. 篠原出版新社, 2013, p.192

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ