統計的仮説検定

公開日: 更新日:

【2022年11月4週】 【A000】生物統計学 【A070】統計的推論 【A073】統計的仮説検定

この記事をシェアする
  • B!
サムネイル画像

統計的推論のうち、「ある命題の正しさ」について、”Yes” or “No” で答えを出すことを目指すのが統計学的仮説検定です。本稿では、統計学的仮説検定について、その意味や考え方、有意水準、第1種の過誤、第2種の過誤、検出力などの概念、および、検定の手順などを解説しています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

仮説検定とは?

医学・疫学研究では、何らかの母集団に関するある命題(リサーチ・クエスチョン)について、標本調査の結果から母集団全体について推測し、何らかの結論を出すことを目的としています。例えば、「ある2種類の薬Aと薬Bの効果」について考えるとします。このとき、薬Aと薬Bを100人ずつに投与し、「薬Aは薬Bよりも有効性が高いと思われる」というように、「ある命題の正しさ」について検討する考え方があります。

このように、ある命題に対し、標本調査の結果にもとづき、”Yes” or “No” の答えを与えるのが統計的検定 statistical test です。本稿では、以下、統計的検定の手順について解説したいと思います。

仮想の例

今回は、ある感染症に対するワクチンについて考えてみます。この度、ある国の政府から、猛威を振るっているある感染症に関して「100万回分のワクチンを確保する」という声明が発表され、購入するワクチンの候補として、A社のワクチンとB社のワクチンが最終的に残りました。価格や供給体制(納期)には差がなく、純粋に効果の良し悪しのみが判断基準です。このとき、「両者の効果に差がある場合」は、効果を重視し、「効果が大きいと思われる方を100万回分すべて購入」し、「両者の効果に差がない場合」には、普及のスピードを重視し「それぞれを50万回分ずつ購入」するという方針だそうです。あなたはA社の営業担当者で、「自社(A社)のワクチンの方が優れている」ことを示したいと考えています。

仮説を設定する

仮説検定の第1歩は、リサーチ・クエスチョンを、サンプル、予測因子、アウトカムなど、研究の主な要素を含む、研究仮説 hypothesis の形で表現することです。今回の場合、例えば、「A社製のワクチン接種者の感染症発症割合は、B社製のワクチン接種者の感染症発症割合と異なる」となります。このとき、「まだ感染症に罹っていない人」がサンプル、「A社製のワクチンを接種する」が予測因子、「感染症の発症」がアウトカムに当たります。

仮説は、記述的研究には必要ありません。記述的研究とは、現象の分布を調べることを目的とする研究で、たとえば、退職者における認知症患者の存在率を調べるといった研究がそれに相当します。仮説が必要となるのは、群間を比較してその差を統計学的に検定する必要がある場合で、「クロスワードパズルを定期的に行う高齢者は、そうでない高齢者よりも、認知症になりにくいかどうか」といった場合がそれに相当します。しかし、実際には実験的研究ではすべての場合に、また観察的研究でもほとんどの場合に比較 comparison を伴うため、少なくとも1つの仮説を立てる必要があります。

標本によって、「差がある」ことを論理的に直接示すことは不可能

では、ここでこのままデータを集めて検証を進めていったらどうなるか少しシミュレーションしてみましょう。両社のワクチンを100人ずつに摂取してもらい1ヶ月過ごしてもらったところ、発症者数について次のようなデータが得られたとします。

表1 ワクチン接種1ヶ月後における感染症の発症状況①
発症あり
$ \left(D\right)$
発症なし
$(\bar{D})$
合計
曝露群
$ \left(E\right)$
$5$ $95$ $100$
非曝露群
$(\bar{E})$
$13$ $87$ $100$
合計 $18$ $182$ $200$

\begin{gather} {\hat{\pi}}_A=\frac{5}{100}=0.05 \quad {\hat{\pi}}_B=\frac{13}{100}=0.13 \end{gather}

これを見ると、A社のワクチンの方が、発症割合が低いことが分かります。それでは、これにて「100万回分すべてをA社製のワクチンとする」と結論づけることができるでしょうか?

おそらくB社は「いえいえ、これはたまたまA社のワクチンの方が効果があるような結果が得られただけでしょう。もっと検証していただければ、偶然に惑わされぬ真実が見えてくると思います」と反論してくるのではないかと予想されます。

これは一見、屁理屈のようにも思えますが、意外と再反論が難しい言い分です。実際、もう何回か同じ調査をしてみたら、逆にB社のワクチンの方が効果があることを示す結果になるかもしれませんし、両者に差はないと言えるようなデータが得られるかもしれません(少なくとも可能性を否定することはできません)。

よく「すべてのカラスは黒い」ことを証明するのは難しいと言われます。この命題を否定するには、例えば「白いカラス」を1羽、連れてくればすぐに否定できますが、黒いカラスの実例を何羽用意しようとも、結局それを直接的に証明するためには、「すべてのカラス」を調べなければなりません。

カラスの例とワクチンの例は、少々状況が異なりますが、「示したい命題を直接的に示すのは難しい」という点では似ています。こうした「全体に関する命題」は、論理的に、(きちんと)直接的に証明しようとする場合、一部を調べるだけではダメで、本質的に全数調査が不可欠なのです。

標本調査で、いかに「差がある」ことを示すか?

その全数調査が無理だから標本調査によって全体について推論しようとしているわけですが、サンプリングには常に偶然の誤差がつきまとうため、母集団全体を対象にできれば観察できたはずの現象が、サンプルでは常に観察できるとは限りません。標本調査から得られたデータでは、個人によって異なる「ワクチンの効きやすさ」によって生まれた偶然によるものなのか、それとも「偶然を超えて、条件の違いによって生じた差」なのかがよく分からないのです。

ただ、例えばもし次のような極端な結果になったとしたらどうでしょうか?

表2 ワクチン接種1ヶ月後における感染症の発症状況②
発症あり
$ \left(D\right)$
発症なし
$(\bar{D})$
合計
曝露群
$ \left(E\right)$
$5$ $95$ $100$
非曝露群
$(\bar{E})$
$55$ $45$ $100$
合計 $60$ $140$ $200$

\begin{gather} {\hat{\pi}}_A=\frac{5}{100}=0.05 \quad {\hat{\pi}}_B=\frac{55}{100}=0.55 \end{gather}

両者の差は50%もあります。ここまでくると直感的に、「さすがに『偶然による差』とは考えにくい」となり、「両者の効果には差がある」と判断できるでしょう。これを直感的ではなく数学的に示すことが、検定の基本です。

背理法による証明:帰無仮説と対立仮説

では、この直感はどこからもたらされたのでしょうか?それはおそらく「本当に『両者の効果に差がない』のだとしたら、ここまで極端な結果になるのは奇跡と言うほかない」と思われるからです。実は、この考え方こそ、統計的仮説検定の本質なのです。

今の直感的推論は、本当は「差がある」ことを直接的に示したいところ、それが原理的に無理なので、アプローチを変えて、「『差がない』と仮定したときに、現に得られたデータがどれくらいの確率で得られるだろうか」ということを問題とすることで、「本当に差がないのであれば、奇跡といえることが起こった」と認識し、「『本当に奇跡が起こった』と考えるよりは、『仮定の方が間違っていた』と考える方が妥当性が高い」と結論づけたわけです。

このように、本来示したい命題とは逆の仮説(多くの場合では「差がない」という仮説)を「無に帰してほしい」という願望を込めて、帰無仮説 null hypothesis差なし仮説ゼロ仮説などと呼びます。今回の場合は以下のようになります。
A社製のワクチンにおける発症割合とB社製のワクチンの発症割合に差はない \begin{gather} H_0:\pi_A=\pi_B \end{gather}

これに対して、本来示したい(「差がある」という)仮説を対立仮説 alternative hypothesis差あり仮説と呼びます。今回の場合は以下のようになります。
A社製のワクチンにおける発症割合とB社製のワクチンの発症割合には差がある \begin{gather} H_1:\pi_A \neq \pi_B \end{gather}

統計的仮説検定はこのように、①帰無仮説と対立仮説を設定し、②帰無仮説が正しいという仮定の下で、実際に得られたデータ、もしくはそれ以上に極端なデータが得られる確率を計算し、③それがある基準よりも珍しい場合、帰無仮説を棄却し、(背理として)対立仮説が正しいことにするという方法であると言えます。

片側仮説と両側仮説

なお、ここでは単に「差がある」としましたが、より詳しく考えると、「A社の方が大きい」方向に差がある場合($\pi_A \gt \pi_B$)と「A社の方が小さい」方向に差がある場合($\pi_A \lt \pi_B$)の2通りがあります。このように、どちらかの方向に差があるとする仮説を片側仮説 one-sided hypothesis といい、方向を限定せず、両者を含めて単に「差がある」とする仮説を両側仮説 two-sided hypothesis と呼びます。

有意水準:「稀な事象」の基準

統計的仮説検定は、「帰無仮説の下で、あるデータが得られる確率」をもとに、母集団に関する命題の真偽について判断するという発想でしたが、客観的で公正な比較や判断を行うためには、客観的な判定基準やルールが必要となります。

今回の例でいえば、例えば、「両者の効果に『差がない』という前提の下で、同様に『100人ずつにワクチンを投与して発症者数をカウントする』という調査を何回も繰り返すとしたとき、そのうち100回に1回も(=1%以下の確率でしか)観察できないような結果を『稀』と定義し、そのような結果が得られたらよう『差がない』という前提が間違っていたと判断しよう」というようなルールです。

仮説検定では、観察された差は、偶然ではなく、集団の条件の違いによるものであると考えること統計的に有意 statistically significant と表現し、先ほどのルールのように、観察された差が有意であるか否かを判定するための確率の基準値(上限値)のことを有意水準 significance level と呼びます。

第1種の過誤、第2種の過誤、検出力

ところが、このようなルールは、同時にある点に妥協しているともいえます。それはすなわち、「常に正しい判断をできるわけではない」ということです。たしかに「帰無仮説が正しいとの仮定の下で、1%以下の確率でしかお目にかかれないようなことが起きたら」という厳しい条件ではあるにせよ、何度も何度も観測を繰り返せば、そのような「稀なこと」は確実に起こることでもあり、帰無仮説を棄却し続ければ、その判断の1%は確実に間違った判断になります。

このように、標本調査の場合、研究者の判断の結果が正しいか、誤っているかは「神のみぞ知る世界」で、そこには「間違い=過誤」がつきものです。しかし、可能性としてどのようなことが起こり得るかを検討することは人間でも可能です。

完全な情報が得られず推論にもとづいて判断を下す場合、論理的には、判断と真実の関係として、「真実・判断」=①「差なし・差なし」、②「差あり・差あり」、③「差なし・差あり」、④「差あり・差なし」の4種類が考えられます。このうち、前者の2つは「正しい判断」、後者の2つは「間違った判断」ということになります。

2種類の誤った判断のうち、③「本当は帰無仮説が正しい(差がない)ときに、間違って帰無仮説を棄却してしまう(差があると判断してしまう)こと」を第1種の過誤 type I error、あるいは$\alpha$エラー $\alpha$ errorといい、第1種の過誤が起こる確率を通常、$\alpha\in \left[0,1\right]$ で表します。診断医学の言葉でいえば「偽陽性」の結果で、先述の有意水準の意味を考えると、有意水準は、この第1種の過誤が起こる確率と同じであることが分かります。

これに対し、④「本当は帰無仮説が正しくない(差がある)ときに、間違って帰無仮説を棄却しない(差があると判断しない)こと」を第2種の過誤 type II error、あるいは$\beta$エラー $\beta$ errorといい、第2種の過誤が起こる確率を通常、$\beta\in \left[0,1\right]$ で表します。診断医学の言葉でいえば「偽陰性」の結果です。

また、正しい判断のうち、②「帰無仮説が正しくない(差がある)ときに、正しく帰無仮説を棄却する(差があると判断する)」確率のことを、検出力 power といい、論理的に「第2種の過誤の余事象」であることから、その確率は $1-\beta$ となります。

第1種の過誤と第2種の過誤はトレード・オフの関係にある

常に正しい判断を下すことができないとすれば、次善の策として「少しでも間違いを減らしたい」と考えます。このとき、第1種の過誤の確率と第2種の過誤の確率を同時に小さくすることができれば良いのですが、この2種類の過誤は、トレード・オフの関係にあり、片方を小さくしようとするともう片方が大きくなり、同時に両方は小さくできません。例えば、「結婚相手の選択」を例にしてみましょう。

結婚願望がある人にとって、結婚は人生の重大イベントです。検定の考え方によれば、判断とその結果の組み合わせは、①「結婚すべき相手と結婚する」、②「結婚すべきでない相手と結婚しない」、③「結婚すべきでない相手と結婚する」、④「結婚すべき相手と結婚しない」」の4種類です。

このうち、③「結婚すべきでない相手と結婚する」はたいていの場合、お互いが不幸になるので、かなり嫌なことです。検定の考え方においては、$\alpha$エラーに当たります。それでは$\alpha$エラーを防ぐためには、どうすればよいでしょうか?このためには、相手を選ぶときの条件を厳しくすればよいだけです。例えば、女性が男性を選ぶ場合では「高収入で、趣味が合って、性格も良くて、誰もが羨むようなイケメンで…」というように「『私の理想』に適う人でなければ結婚しない!」とすれば、間違いを犯す可能性は低くなり、極端な話、どんな相手でも断ってしまえば$\alpha$エラーを犯す可能性は0になります。

しかし、理想が高過ぎるとその人にとっての婚期を逸して、④「結婚すべき相手を見逃してしまう」$\beta$エラーが増大することになります。これに対し、$\beta$エラーを防ぐためには、相手の条件を緩めればよいわけです。極論で誰でもいいから結婚する覚悟を決めてお見合いの席に行けば、見逃す可能性は小さくなりますが、そうすると、とんでもない相手を選んでしまう$\alpha$エラーの確率が高くなってしまいます。

2つの過誤のうち、どちらがより深刻か?

それではどう意思決定したらよいでしょうか?二兎を追えない以上、現実的には、どこかで妥協するよりほかありません。この点、2つの誤りのうち、どちらがより深刻かを考えてみましょう。

まず、$\beta$エラーについては、たとえお見合いをして、1度目のチャンスを見逃したとしても、もう1度お見合いをすれば同じくらい良い人、あるいは運が良ければ、もっと理想に近い人に出会える可能性があります。

これに対し、一度、誤った相手と結婚してしまう$\alpha$エラーを犯した場合、過ちを解消するためには、離婚するしかありませんが、財産分与や慰謝料の問題、子供がいる場合には親権や養育費の負担など、離婚する際の負担は、かなり大きいものです。そう考えると、$\alpha$エラーのほうが、やり直しがききにくい分、より深刻な誤りです。

有意水準と検出力の目標を決める

多くの科学研究の場合でも基本的には同様で、$\alpha$エラーの制御が第1に考えられており、まずもって$\alpha$エラーが有意水準以下になるような判定方式であるなかで、可能な限り$\beta$エラーが小さいもの(=検出力が大きいもの)を探すのが原則とされています。

科学研究全般の標準として、有意水準は0.05、検出力は0.8前後を目標とすることが大半です。これらの数値は現在の習慣であり、数値の大きさに理論的な根拠や自然科学的な意味があるわけではありません。そのため、これらは絶対的なものではなく、異なる値が用いられることもあります。

一般論としては、研究にとって$\alpha$エラー(偽陽性)を避けることが特に重要な場合(例:危険性の高い薬物の効能を試験する場合$^\mathrm{(i)}$)には、小さい$\alpha$値を用い、$\beta$エラー(偽陰性)を避けることが特に重要な場合(例:毒性廃棄物処理場の近くに住んでも安全であることを住民に納得してもらう場合$^\mathrm{(ii)}$)には、小さい$\beta$値を用いることになります。

なお、こうした有意水準と検出力の目標値は、結果が出た後で恣意的に判断基準を決められないよう、必ず、研究を始める前に決めておく必要があります。

有意確率を計算する

有意水準などを決めたら、あとは実際に得られた標本が得られる確率を計算するだけです。この確率の求め方には、$\mathrm{Z}$検定や$\mathrm{t}$検定などさまざまな方法がありますが、どの方法でも検定統計量 test statistic(検定に用いるための統計量)の値を求め、その値が検定統計量が従うと考えられる確率分布でどのような点なのかを確認することによって、有意確率($\mathrm{p}$値)が求められます。

有意確率、または$\mathrm{p}$値 p-value とは、これまで繰り返し述べてきたように、帰無仮説が正しいとの仮定の下で、観測したデータ(あるいはそれよりもっと極端なデータ)が得られる確率を指し、$\mathrm{p}$値が事前に設定した有意水準よりも小さければ、「帰無仮説が正しいとすれば滅多に得られないはずのデータが得られた」として、「帰無仮説は正しくなかった」と判断します。

主な$\mathrm{p}$値の求め方(検定のやり方)には、母平均の差に関する検定や発症リスク差に関する検定など、さまざまなものがあります。詳しくは、関連記事のリンク先をご参照ください。

表1の状況の場合、有意水準を5%として、「リスク差に関する検定」にもとづいて検定統計量と$\mathrm{p}$値を求めると以下のようになります。 \begin{gather} Z_0=\frac{0.05-0.13}{\sqrt{0.09 \left(1-0.09\right) \left(\frac{1}{100}+\frac{1}{100}\right)}}\cong-1.996\\ \mathrm{p}\cong0.048 \end{gather}

これは、$\mathrm{p}$値が有意水準よりも小さい値であるため、帰無仮説を棄却し、「両者の効果に差がある」と判断されます。

片側検定か両側検定か?

片側検定と両側検定の関係

前に述べたように、対立仮説には、片側と両側の2つの場合があります。片側仮説を検定することを片側検定 one-tailed test 、両側仮説を検定することを両側検定 two-tailed test と呼びます。

両側検定を行う場合、帰無仮説のもとで、滅多に起こらない稀な事象は、通常、「Aが大きい方向」と「Aが小さい方向」のどちらも同じ確率で起こり得ると考えられます。両側検定で算出される$\mathrm{p}$値は、この点を織り込んで算出されます。いっぽう、片側検定を行う場合、どちらかの方向に関してのみ検証を行います。

そのため、通常(検定統計量の分布が対称な場合)、「両側検定の$\mathrm{p}$値は片側検定の場合の2倍になる」という関係が成り立ちます。したがって、片側検定の$\mathrm{p}$値から両側検定の$\mathrm{p}$値(あるいはその逆)への変換は容易で、たとえば、片側検定の$\mathrm{p}$値0.05は、通常、両側検定の$\mathrm{p}$値0.10に相当します。また、これは、有意水準が同じであれば、「両側検定の方が片側検定よりも$\mathrm{p}$値が大きいため、有意になりにくくなる」ということも意味しています。

両側検定が基本

科学研究では、片側検定が適切なことは稀とされていて、多くの場合、両側検定が求められます。例えば、新しい薬や治療法を開発する際、開発者は、事前に強い期待をもって検証に臨み「新治療は旧治療よりも治癒率が高い」という片側仮説にしか興味がないということも多いでしょう。

しかし、科学的な検証は、そうした期待から離れ、冷静かつ客観的に行われる必要があります。たしかに、最終的に「新治療は旧治療よりも治癒率が高い」ということが示されることは大変価値がありますが、検証を始める段階では、もちろん、「新治療は旧治療よりも治癒率が高い」という方向に差があるのかさえ、定かではありません。

実際、「ベータカロチン投与は肺がんのリスクを低下させる」、あるいは、「心室性期外収縮を抑える薬物は、心室性不整脈患者における突然死のリスクを低下させる」など、それまで当然と思われた多くの片側仮説が無作為化比較試験によって否定されてきました$^\mathrm{(1) \sim (3)}$。

こうした点を鑑みると、「第1種の過誤を可能な限り起こさない」という意味では、両側検定の方がより安全ということになり、最終的に片側仮説を示したい場合でも、検証のためのデータが少ない段階では、両側検定によって、まず「差がある」ことを確かめ、証拠を積み重ねた後で、その差が「新治療の方が良い方向」であることを示すのが、冷静・慎重な検証プロセスであるといえます。

片側検定が妥当な場合

とはいえ、場合によっては片側検定が妥当なことも、もちろんあります。1つ目は、「それまでの研究から、関連が一方向である可能性が非常に高い場合」です。たとえば、「喫煙は脳腫瘍のリスクを高める」という仮説がそれにあたります。それまでのエビデンスから、喫煙が脳腫瘍のリスクを下げるとは考えにくいことや、喫煙が多くのがん発生と関連があることから、片側の差あり仮説(例:喫煙は脳腫瘍のリスクを高める)がふさわしいと考えることには一定の説得力があります。

2つ目は、「一方向の関連だけが臨床的に重要で生物学的に意味があるような場合」です。たとえば、「ある新しい降圧薬による皮疹発生の頻度はプラセボよりも高い」という仮説は片側仮説で、「その薬物の副作用である皮疹発生の頻度がプラセボより小さい」という可能性までわざわざ検定する意味は、普通ありません(その降圧薬が抗炎症作用を持っていれば別ですが)。

また、例えば、「新しい抗生物質が、既存の抗生物質よりも効果が劣らない」という仮説も「一方向の関連だけが意味があるような場合」に当たり、こうした仮説を検証する「非劣性試験」では、片側検定に妥当性が認められます。

両側・片側は事前に決める

このように、多くの場合、両側検定を行うことが基本ですが、場合によっては、片側検定が認められることがあります(通常、何も断らずに検定といえば、両側検定を意味します)。両側検定・片側検定のどちらを行うかは、その研究により異なりますが「どちらの検定を行うかは、事前に決めておく」ことが原則です。

「両側検定では有意にならないけど、片側検定では有意になる」というような微妙なケースでは、事後的に両側検定を片側検定に変えたい誘惑にかられますが、このような「後出しじゃんけん」は科学界におけるルール違反であり、認められていません。

参考文献

  • ダグラス・アルトマン 著, 木船 義久, 佐久間 昭 訳. 医学研究における実用統計学. サイエンティスト社, 1999, p.142-147
  • 浅井 隆 著. いまさら誰にも聞けない医学統計の基礎のキソ 1. アトムス, 2010, p.11-34
  • 佐藤 俊哉 著. 宇宙怪人しまりす医療統計を学ぶ 検定の巻. 岩波書店, 2012, p.1-18
  • 浜田 知久馬 著. 学会・論文発表のための統計学:統計パッケージを誤用しないために 新版. 真興交易医書出版部, 2012, p.77-91
  • スティーブン・ハリー, スティーブン・カミングス ほか 著, 木原 雅子, 木原 正博 訳. 医学的研究のデザイン:研究の質を高める疫学的アプローチ 第4版. メディカル・サイエンス・インターナショナル, 2014, p.50-63
  • 新谷 歩 著. 今日から使える医療統計. 医学書院, 2015, p.11-14

引用文献

  1. Alpha-Tocopherol, Beta Carotene Cancer Prevention Study Group. The effect of vitamin E and beta carotene on the incidence of lung cancer and other cancers in male smokers. The New England journal of medicine. 1994;330(15):1029-1035, doi: 10.1056/NEJM199404143301501
  2. Echt, D.S., Liebson, P.R., Mitchell, L.B. et al.. Mortality and morbidity in patients receiving encainide, flecainide, or placebo. The Cardiac Arrhythmia Suppression Trial. The New England journal of medicine. 1991;324(12):781-788, doi: 10.1056/NEJM199103213241201
  3. Cardiac Arrhythmia Suppression Trial II Investigators. Effect of the antiarrhythmic agent moricizine on survival after myocardial infarction. The New England journal of medicine. 1992;327(4):227-233, doi: 10.1056/NEJM199207233270403

脚注

  1. この場合、$\alpha$エラーは「本当は『効果がない』のに『効果がある』と判断されて世に出回ってしまう」ということになります。薬は毒にもなり得るものですが、効果がない薬は単に毒性(副反応など)のみを与えることになるため、単に有害なものが出回ることになってしまいます。
  2. この場合、関心があるのは検出力で、「『安全(毒物の影響がない)』という結果が正しい確率が高い」ことを示し、住民が安心して住めるようにすることが目標となります。

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ