仮説検定とP値を巡る近年の科学界:何が問題か?

公開日: 更新日:

【2022年11月5週】 【A000】生物統計学 【A070】統計的推論 【A073】統計的仮説検定

この記事をシェアする
  • B!
サムネイル画像

仮説検定やP値は、現在の科学研究のパラダイムの中核的な役割を担っています。しかし近年、世界中の800人以上の科学者が「統計的有意性からの脱却」を訴える声明を発表するなど、その使用を巡り科学界では大きな議論が巻き起こっています。本稿では、そんな仮説検定やP値の問題点やその成立過程について解説しています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。

仮説検定やP値を巡る学術界での議論

統計的仮説検定は、標本調査の文脈において、例えば、「降圧剤Aを投与したグループの平均血圧は、偽薬を投与したグループの平均よりも低いと言えるか」のように、ある命題に対して ”Yes” か “No” かという二者択一の答えを出すために用いられる統計的手法であり、特に科学論文においては分野を問わず、事実上、必須とも言えるくらいに仮説検定の結果が掲載されています。$\mathrm{p}$値は現在の仮説検定の枠組みにおいて中核的な役割を果たしている尺度、ないし基準であり、統計分析のさまざまな現場で今も広く用いられています。

そんな仮説検定や$\mathrm{p}$値は、その枠組みが提案されてから100年近くが経とうとしていますが、近年、これらの使用について分野を問わず、広く科学界で大きな議論が沸き起こっています。

例えば、その後、社会心理学分野の論文誌である『基礎・応用社会心理学 Basic and Applied Social Psychology』における Trafimow and Marks(2015)$^\mathrm{(1)}$の編集指針では、論文誌内での帰無仮説有意性検定方式と$\mathrm{p}$値の提示を禁止しました。その理由として「帰無仮説有意性検定方式の愚かな考えから執筆者を解放し、創造的な発想に対する障害を取り除き、結果として品質向上につながることを望んでいる」としています。

また、アメリカ統計学会は2016年に「統計的有意性と$\mathrm{p}$値に関するASA声明」$^\mathrm{(2)}$と題する声明を発表し、$\mathrm{p}$値は有用な統計指標ではあるが、誤用と誤解がまかり通っているとの警鐘を発し、その正しい使用方法についての原則を発表しました。ASAがあえて発表したこの声明の警鐘は、研究分野の壁を越えて、またたく間に科学者コミュニティーに反響していきました。

さらに、2019年には、世界的な科学雑誌 Nature の誌上で “Scientists rise up against statistical significance”(科学者は統計的有意性に対し、立ち上がる)$^\mathrm{(3)}$と題した声明が掲載され、Retire statistical significance 統計的有意性から脱却しようという呼びかけに対し、世界中の科学者800人が賛同し、この声明に同意する署名が集まったことが伝えられています。

本稿では、そうした統計的仮説検定や$\mathrm{p}$値について、その問題点や現在のようなかたちで使用されるに至った経緯について概観していきたいと思います。

現在の仮説検定の枠組み

現在の標準的な仮説検定の枠組みは次のような手順で行われます。

  1. 帰無仮説と対立仮説を立てる
  2. 検定統計量と帰無仮説における検定統計量の分布を決める
  3. 有意水準を決める(通常は $5\%$ や $1\%$)
  4. データを集め、検定統計量の実現値と $\mathrm{p}$値を算出する
  5. 有意水準と $\mathrm{p}$値を比較し、$\mathrm{p}$値が有意水準よりも小さければ帰無仮説を棄却し、対立仮説を採択する。逆に、$\mathrm{p}$値が有意水準以上であれば帰無仮説を採択する

例えば、「ある薬の治癒率は偽薬の治癒率よりも高い」という命題について検証することを目的として研究を行う場合、以下のような手順になります。

Step.01 帰無仮説と対立仮説を立てる
ある薬の治癒率を $\pi_1$、偽薬の治癒率を $\pi_0$ とするとき、帰無仮説と対立仮説をそれぞれ、 \begin{gather} H_0:\pi_1=\pi_0 \quad H_1:\pi_1 \gt \pi_0 \end{gather} とする。 すなわち、帰無仮説はある薬の治癒率は偽薬の治癒率と等しい=薬の効果はない 対立仮説は、ある薬の治癒率は偽薬の治癒率よりも高い=薬の効果はある となる。

Step.02 検定統計量と帰無仮説における検定統計量の分布を決める
この文脈における適切な検定統計量として、標本リスク差 \begin{gather} \hat{\delta}=p_1-p_0 \end{gather} が考えられる。 ただし、投薬群と偽薬群の人数と各群における治癒人数をそれぞれ \begin{gather} n_1,n_0\\ X_1,X_0 \end{gather} として、 \begin{gather} p_1=\frac{X_1}{n_1} \quad p_0=\frac{X_0}{n_0} \end{gather}

二項分布の正規近似が成り立つとの仮定の下、帰無仮説における標本リスク差の分布は、 \begin{align} \hat{\delta}\xrightarrow[]{d}\mathrm{N} \left[0,\pi \left(1-\pi\right) \left(\frac{1}{n_1}+\frac{1}{n_0}\right)\right] \end{align} 帰無仮説における共通の母比率を \begin{align} \hat{\pi}=\frac{X_1+X_0}{n_1+n_0} \end{align} とすると、 漸近分散の一致推定量は、 \begin{align} {\hat{\sigma}}_0^2=\hat{\pi} \left(1-\hat{\pi}\right) \left(\frac{1}{n_1}+\frac{1}{n_0}\right) \end{align} 帰無仮説の下で標本発症リスク差を標準化すると、 \begin{gather} Z_0=\frac{p_1-p_0}{{\hat{\sigma}}_0} \sim \mathrm{N} \left(0,1\right) \end{gather} となるので、これを最終的に使用する検定統計量とする。 このとき、帰無仮説と対立仮説はそれぞれ、 \begin{gather} H_0:\delta=0 \quad H_1:\delta \gt 0 \end{gather} となる。

Step.03 有意水準を決める
有意水準を \begin{gather} \alpha=0.05 \end{gather} に設定する。

Step.04 データを集め、検定統計量の実現値を算出する
実際にデータを集めたところ、以下のような表が得られた。

表1 投薬・治癒状況
治癒あり 治癒なし 合計
投薬群 $5$ $95$ $100$
偽薬群 $13$ $87$ $100$
合計 $18$ $182$ $200$
このとき、検定統計量の実現値は、 \begin{align} Z_0&\cong\frac{0.13-0.05}{0.004}\\ &\cong1.977 \end{align} このとき、片側 $\mathrm{p}$値は、 \begin{align} \mathrm{p}=0.024 \end{align}

Step.05 結果についての判定を行う
\begin{align} \mathrm{p} \lt 0.05 \end{align} であることから、 帰無仮説を棄却し、対立仮説を採択する。すなわち、ある薬の治癒率は偽薬の治癒率よりも有意に高く、薬の効果はあったと結論づける。

P値とは何か?

$\mathrm{p}$値とは、標準的には

The P value is defined as the probability, under the assumption of no effect or no difference (the null hypothesis), of obtaining a result equal to or more extreme than what was actually observed.
効果がない、あるいは差がないという仮定(帰無仮説)の下、実際に観測されたものと等しい、あるいはより極端な結果を得る確率$^\mathrm{(4)}$

として定義されています。 この点、

Every method of statistical inference depends on a complex web of assumptions about how data were collected and analyzed, [...]. The full set of assumptions is embodied in a statistical model that underpins the method.
The focus of traditional definitions of P values and statistical significance has been on null hypotheses, treating all other assumptions used to compute the P value as if they were known to be correct. Recognizing that these other assumptions are often questionable if not unwarranted, we will adopt a more general view of the P value as a statistical summary of the compatibility between the observed data and [...] the entire statistical model (all the assumptions used to compute the P value) [...].
統計的推論のあらゆる方法は、データがどのように収集され、解析されるか、〔…〕についての複雑に入り組んだ仮定に依存している。そうした仮定の総体は、解析手法を下支えする統計モデルとして統合される。
伝統的な$\mathrm{p}$値、ならびに統計的有意性の定義は、あたかも、$\mathrm{p}$値を計算するために用いられる仮定がすべて正しいことが分かっているかのような認識の下で、帰無仮説に焦点をあててきた。しかし、そうした仮定の妥当性はしばしば疑わしいものであるとすれば、観察されたデータと〔…〕統計モデル全体($\mathrm{p}$値を算出するために必要なすべての仮定)との適合性という、もっと一般的な$\mathrm{p}$値に関する見解を取り入れるべきだろう。$^\mathrm{(5)}$

という見解もあり、 帰無仮説自身に加えて、得られたデータの無作為性や独立性、漸近的性質(漸近正規性や一致性など)なども含めた特定の統計モデルと現実に得られたデータとの矛盾の程度を示す指標として用いられています。

先に現在の仮説検定の枠組みを紹介した際にも見たように、帰無仮説を棄却するために事前に設定される基準(標準的には5%)を有意水準 significance level と呼び、$\mathrm{p}$値が有意水準以下であれば、何らかの必然性をもつ結果として捉え、これを有意 significant と呼びます。逆に、$\mathrm{p}$値が有意水準以上の場合は偶然誤差の範疇であると考え、帰無仮説を採択します。これを有意でない not significant と表現します。

しかし、

The irony is that when UK statistician Ronald Fisher introduced the P value in the 1920s, he did not mean it to be a definitive test. He intended it simply as an informal way to judge whether evidence was significant in the old-fashioned sense: worthy of a second look.
皮肉なのは、イギリスの統計学者ロナルド・フィッシャーが1920年代に$\mathrm{p}$値を導入した時点では、それを最終的な判断のためのものとして意図していなかったことだ。彼は、それを単に、手元にある証拠が「再考するに値するか」という旧来の意味において有意であるか否かを判断する非公式な方法として使うことを意図していたのである。$^\mathrm{(6)}$
Fisher proposed it as an informal index to be used as a measure of discrepancy between the data and the null hypothesis. It was not part of a formal inferential method. Fisher suggested that it be used as part of the fluid, non-quantifiable process of drawing conclusions from observations [...].
フィッシャーはこれを、データと帰無仮説との食い違いの程度を表す非公式な指標として提案した。これは、正式な推論方法の一部ではなかった。フィッシャーは、$\mathrm{p}$値は観察結果から結論を導くための、柔軟で、定量化できないプロセスの一部として使われるべきであると、述べた。$^\mathrm{(4)}$

などとあるように、 フィッシャーは、現在のようなかたちで$\mathrm{p}$値が使用されることを意図していなかったとされています。

これは、仮説検定の枠組みが現在のかたちで行われていることと関係があります。現在、大学などで標準的に教えられている統計的仮説検定の理論は、首尾一貫したひとつの理論であるように思われますが、実は一枚岩の理論ではありません。

Methods based on this “frequentist” view of probability included an index to measure the strength of evidence called the P value, proposed by R.A. Fisher in the 1920s, and a method for choosing between hypotheses, called a hypothesis test, developed in the early 1930s by the mathematical statisticians Jerzy Neyman and Egon Pearson. These two methods were incompatible but have become so intertwined that they are mistakenly regarded as part of a single, coherent approach to statistical inference.
1930年代の始めに数理統計学者イエジ・ネイマンとエゴン・ピアソンによって開発された仮説検定と呼ばれる、頻度論的確率観に立脚した方法が、ロナルド・フィッシャーによって1920年代に提案されたエビデンスの強さの指標である$\mathrm{p}$値を取り込んだ。この2つの手法は、本来、相容れないものであったが、とてもよく組み合わされたため、あたかもひとつの、首尾一貫した統計的推論手法であるかのように誤解されている。$^\mathrm{(4)}$
Fisher intended it to be just one part of a fluid, non-numerical process that blended data and background knowledge to lead to scientific conclusions. But it soon got swept into a movement to make evidence-based decisionmaking as rigorous and objective as possible. This movement was spearheaded in the late 1920s by Fisher’s bitter rivals, Polish mathematician Jerzy Neyman and UK statistician Egon Pearson, who introduced an alternative framework for data analysis that included statistical power, false positives, false negatives and many other concepts now familiar from introductory statistics classes. They pointedly left out the P value.
フィッシャーは$\mathrm{p}$値を、データと背景知識から科学的な結論を得るための、流動的な、非数理的プロセスの一部として意図した。しかしそれは、できる限り、厳密、かつ客観的な根拠にもとづいた意思決定を行う動きに、飲み込まれてしまった。この動きは、1920年代の終わりに、フィッシャーの論敵であるポーランドの数学者イエジ・ネイマンとイギリスの統計学者エゴン・ピアソンによって主導され、現在の統計学の入門的な授業でおなじみの検出力、偽陽性、偽陰性、その他多くの概念とともに、データ分析の新たな枠組みを提供した。ただ、ネイマンとピアソンは、その中に$\mathrm{p}$値だけは取り入れていなかった。$^\mathrm{(5)}$

などとあるように、 実は、ロナルド・フィッシャーが提唱した有意性検定 significance testとネイマン・ピアソンが提唱した仮説検定 hypothesis test のいわば折衷案というのが実情なのです。

事実、フィッシャーはネイマン・ピアソンが仮説検定の枠組みを提案した当初から激しい批判を繰り広げ、彼が亡くなるまでの約30年間にわたり、両者の間で激しい論争が交わされていました。この論争は、根本的な思想の違いに起因するところが大きく、実は、現在においても決着がついているわけではありません。

では、フィッシャーはもともと$\mathrm{p}$値や有意性検定をどのように考え、ネイマン・ピアソンは仮説検定をどのように考えていたのでしょうか。こうした点について、有意性検定と仮説検定、ふたつの理論の成立過程を概観する中で探ってみましょう。

フィッシャー流の有意性検定

フィッシャー流の有意性検定論の特徴を理解するうえでは、フィッシャーが自身の理論をどのような場面で用いることを想定していたのかを把握することが役立ちます。そこでまず、フィッシャーが有意性検定論を提唱するまでの経緯について見てみましょう。

フィッシャーとロザムステッド農業試験場

フィッシャーは1890年02月17日、ロンドン北部郊外のEast Finchicyに7人兄弟の末子として生まれました。幼年期に数学者の家庭教師から教育を受けており、この頃からすでに数学者としての才覚を現していたといいます。その後、スタンモア・パーク校、ハロー校を卒業後、1909年にケンブリッジ大学のゴンビル・キースカレッジに入学し、数学および理論物理学を専攻しました。1912年に卒業した後、1913年には同校においてジェームス・ジーンズのもとで統計力学を、フレドリック・ストラットンのもとで誤差論を学びました。卒業後、適職に恵まれなかったフィッシャーはまず1913年から1915年にかけてMercantile and General Investment Companyに勤務し、1915年から1919年にかけて、数校のパプリックスクールの教師として、物理学や数学を教えました。この間、フィッシャーは統計学の研究を進め、1915年には、相関係数の標本分布を厳密に導出した論文をBiometrika誌上で発表し、数理統計学者として頭角を現すことになります。1919年に、カール・ピアソンからロンドン大学ユニバーシティカレッジのゴールトン研究所への招聘の誘いを断り、ロザムステッド農事試験場に統計技師として着任しました。

当時、ロザムステッド農業試験場では、小麦、ライ麦、大麦、ジャガイモなどを栽培した際の肥料の組み合わせや正確な毎日の降水最と気温、週ごとの施肥状況や土壌の測定記録、そして年ごとの収穫量などのデータが90年にわたって蓄積されていましたが、これらの膨大なデータは、有効に分析されることなく眠っている状態でした。

1912年、そんなロザムステッド農事試験場の所長に就任したジョン・ラッセル卿は、当時、イギリスの統計官庁が人口調査のために、非常に大量のデータから情報を引き出すための方法を有していることを聞き及んでいました。そこで彼は、同様の方法に精通した若い数学者を採用することによって、ロザムステッド農事試験場に大量に蓄積されたデータを吟味し、そこから更なる情報を引き出すことを目指すことになりました。このとき白羽の矢が立ったのが、ほかならぬフィッシャーその人でした。

フィッシャーと農業研究における課題

このように、フィッシャーは主に、農業研究の文脈の中で彼の統計手法を構築していきました。彼が取り組んだ問題は、典型的には次のようなものでした。

例えば、ある肥料の効果を検証する場合、土地①にはその肥料を施し、土地②には肥料を施さず、それ以外は全く同じ処置を施して実験を始めました。その結果、土地①の収穫量は土地②の収穫量よりも10%多かったとします。

このとき、実験開始時は肥料の有無以外に違いはないかもしれませんが、農業試験の性質上、陽当たりや降水量、土地の肥沃度、水はけ、害虫の発生状況などは完全にコントロールすることができず、もしかしたら土地①が有利な条件になっているかもしれません。そして、それを完璧に評価することはしばしば困難です。そうした状況の中でいかにして、「収穫量の増量は純粋に肥料の効果によってもたらされた」ということを立証したらよいでしょうか。

このとき、例えば、その土地で何年も実験に携わってきた人が「ふたつの土地の収穫量を年々測定してきたが、10%も差が生じることは決してなかった」という情報をもっていれば、増量は肥料の効果と判定できるかもしれません。実験を長く続けていれば、どちらかの土地が極めて有利な状態にあり、土地の効果だけで大きな差が生じる機会もあったはずですが、それでも10%という水準に達したことがないのであれば、「増量は肥料の効果」という説明の尤もらしさも高まります。

ただ、そうした洞察が可能になるのは、あくまでも長年の経験やデータに関する情報を有している場合のみです。フィッシャーは、農事試験の目的を、(旧来利用してきた肥料や種子を変更するなど)ある農業的実践の変革に従った農業従事者が利益を得る見込みがあるか否かを見出すこととし、資本化された農業における農事試験の論理を自覚していました。ただ、実験家は以前の実験から得られた経験にもとづいてある1回の実験を判定するため、その実験はもはやそれ自身で完結的でなくて、その解釈は以前に集められた経験に依存する、という重大な欠点をもつことになる。この補足的な経験をもたない他の者に対して、説得力をもつことはもはや期待できないであろうと従来の方法の欠点を指摘しました。

要点を整理すれば、①比較のための条件の統制が難しく、理想的に公平な比較がなかなかできない、②実験結果が得られるまでに長い時間(農業の場合は年単位)がかかるなどの理由から、③同じ条件の下で得られたと言えるデータは繰り返し得られない、④少量のデータしか得られない、といった制約条件を抱える中で、⑤いかにして客観的に何らかの処置(肥料の有無など)の効果について評価すればよいかという課題をフィッシャーは課せられていたのです。

有意性検定の提案

こうした課題に対しフィッシャーは、1918年の時点で既に自身が構築していた分散分析の手法を適用し、同時に質の高いデータを得るための方法論として、いわゆるフィッシャーの3原則(①局所管理、②無作為化、③反復)を盛り込んだ「実験計画法」を構築しました。そのうえで、既にカール・ピアソンが考案した適合度検定の中で用いられていた$\mathrm{p}$値やウィリアム・ゴセットによる少数標本に関する発見(今日の$\mathrm{t}$分布)などを取り入れ、「帰無仮説」や「有意水準」などの新たな概念を導入して、1925年、『研究者のための統計的方法』$^\mathrm{(7)}$の中で有意性検定を紹介しました。

この本は、数学的な素養がない生物学者や農学者あるいは研究所の技術者を対象にしたもので、実践的な統計解析の指南書といった性質がありました。たとえば、この本は数値からグラフを作成する方法からはじまります。そして、どのようにグラフを解釈するかについても解説されました。分析方法についても公式を提示するだけでなく、さまざまな実例が紹介されました。そして、この本の大部分は有意性検定の手順や種々の事態における$\mathrm{p}$値の算出方法についての解説に占められています。

フィッシャーはこの本の中で、次のような手順で有意性検定を進めていくことを提案しました。

  1. 帰無仮説を立てる
  2. 検定統計量と帰無仮説における検定統計量の分布を決める
  3. データを集め、検定統計量の実現値から$\mathrm{p}$値を算出する
  4. 得られた$\mathrm{p}$値や背景知識などから標本値の有意性について考察し、有意であると判定されれば、その帰無仮説は棄却される。逆に有意でない場合、帰無仮説の真偽についての判断は留保される。

このような実験計画法、分散分析、有意性検定という三位一体の業績は、実験データの獲得から分析までを一貫した方法論で体系化した点が優れているとされ、帰無仮説や有意水準といった新たな概念を導入し、従来明示的でなかった統計的検定の手続きを形式化したフィッシャーの業績は、高度な専門的知識を持たず、農事試験の現場から得られた洞察力を理解する経験を持たない農業従事者と、これらを持つ専門家間での実験結果の解釈をめぐるコミュニケーションの規則としての機能を、有意性検定に付与したと評価されています。

有意水準の萌芽

フィッシャーは、先に紹介した「ふたつの土地の収穫量を年々測定してきたが、10%も差が生じることは決してなかった」という経験者の証言について、次のように述べます。

その証言が説得力をもつためには、収穫量の記録が何年分程なければならないかということが、有意性検定の意味を説明する。もし実験家が20年の経験の中で、肥料を施した土地の収穫量が、同様な処理の下では10%も他方より多かったことが決してなかったとすれば、証拠は有意性を持ち得る境界内に達していると言えるかもしれない。(ふたつの土地の収穫量に10%以上の差が生じた際、)その処理に何らかの効果があるか、もしくは20回に1回以上は起こらないような偶然が生じたかのどちらかと言える水準で境界を引くことが、恣意的だが便利 convenient な基準である。そうすることで証拠は有意性を持ち得るところにまで達していると言える。$^\mathrm{(8)}$

この考えは、1926年の論文 “The Arrangement of Field Experiments” において打ち出された水準で、このときはじめて、有意性の水準として “5%” が明示的に示されました。ただ、フィッシャーは次のようにも述べます。

この20年に1度の水準では十分に稀と思われない時、50回に1回(2%)または100回に1回(1%)の水準を定めてもよいかもしれない。個人的には有意性の水準を5%に低く定めて、これに達しないような全ての結果は全く無視するのを選択する prefer。適切に計画された実験の結果が、この有意水準に達しないことが稀である場合にのみ、1つの科学的事実は実験的に立証された established と見做すべきである。

今日においては、有意水準は5%や1%に設定されることが慣例となっていますが、当初、そうした有意水準の設定の根拠は、”convenient”や”prefer”といった主観的な表現を用いて説明されていました。つまり、フィッシャーは、絶対的な有意水準について何か考えがあるわけではなかったのです。

農業試験に有意性検定を適用することの限界

また、フィッシャーは、実験計画法と分散分析法で推定される誤差にもとづく有意性検定の判定は、「試験のやり方を改めたり、供試圃場を別の処へ移したり、試験区の大きさや品種(処理)数を変えたり、あるいはブロック数を増減したりするのでなければ、毎年、誤差の大きさはほぼ同じであろう」という仮定のもとに推定されているため、その試験が実施された「時」と「場所」に限定されており、あらゆる一般の農地において通用されるわけではないということも自覚していました。

フィッシャー自身も

経験ないしは計画された一連の実験から学ぶときには、結論はつねに暫定的なものであって、それまでに得られた証拠を解釈してそれを一体化した経過報告という性格のものである

と述べ、 有意性検定によって導かれた結論をあくまでも暫定的な結論とし、有意性検定に対して限定された意義しか認めていません。本来は、農事試験で立証された結論は、圃場を越えて一般の農地に適用可能なまでに一般化されるのが望ましいのですが、先の述べた農業試験の性質上、「条件の完全な統制が難しい以上、何回も同様の実験を繰り返し、そのたびに同様の傾向がみられるまでは、確定的なことは言えない」というのがフィッシャーの考えと推察されます。こうしたことから、1回の実験で最終的な結論を導くことをフィッシャーは想定していなかったと考えられています。

ネイマン・ピアソン流の仮説検定

フィッシャーの有意性検定に関する決定的な著作『研究者のための統計的方法』が発表されてから、そう間もない1928年$^\mathrm{(9)}$、検定の理論に、早くも新しい考え方が導入されることになりました。それが、ネイマン・ピアソンによる仮説検定の理論にほかなりません。

フィッシャーが農業研究への応用という文脈で自身の有意性検定に関する理論を構築したのと同様、ネイマン・ピアソンの理論もまた、現実の問題への解決策として用いられていきました。彼らの理論は特に、産業界における品質管理(特に抜き取り検査)の問題に対し高い親和性を発揮しました。まず、当時の産業界における課題について概観してみましょう。

抜き取り検査における課題

20世紀初頭以降、アメリカでは大量生産方式が導入されるようになりました。芝村(2004)$^\mathrm{(10)}$によれば、

一般的に大量生産方式の下では、製品の品質に対する責任が消費者から生産者へとシフトし、生産者が消費者に対して製品の品質を保証する必要性が生じた。なぜならば、①大量生産は、一般的に受注生産ではなく見込み生産であって、生産者は消費者の要求に合致する品質をもつ製品を生産しなければならず、②大量生産は、当然ながら販路の拡大を要請するが、それは生産者と消費者との距離の拡大をもたらすため、消費者は、熟知した生産者からのみ製品を購入するとは限らず、そして③大量生産方式の下では、規格化され互換性がある多様な部品を複雑に組み合わせて製品が形成されるため、消費者が品質を確認することが困難となるからである。また生産者としても、製品の品質を理論的に把握・確認する方式が必要となる。大量生産方式の下では、いわゆるテイラー主義の下、工程計画をもとに生産に必要な課業を設定・配分することによって生産性の向上を図るようになったため、製品の品質を正確に把握することが困難となったからである。事実、生産工程における労働が単純作業に分解された結果、品質を正確に把握できる熟練労働者が生産の現場から去ってしまい、生産性の向上に反して品質が低下する問題が顕在化した。

こうした状況下で生まれたのが、抜き取り検査 sampling inspection による品質管理です。抜き取り検査の研究は、1924年からベル電話研究所のH.F.ドッジとH.G.ローミックによって始められました。抜き取り検査では、ロットから無作為に抽出されたサンプルをもとにロット全体の品質の合格・不合格を判定します。その際、ロットの部分についての品質からロット全体の品質を推測するために、合格のロットを誤って不合格と判定する可能性と不合格のロットを誤って合格と判定する可能性が生じ得ます。前者は生産者に対して不利益をもたらし、後者は消費者に対して不利益をもたらします。そこで1925年頃にドッジとローミックは、これらをそれぞれ、生産者危険 producer's risk消費者危険 consumer's risk として概念化しました。

抜き取り検査は、ロットの大きさを $N$、標本の大きさを $n$、ロットが合格するために許容される不良品の最大の個数を $c$ として、例えば、$N=10,n=4,c=1$ の抜き取り検査方式の場合、$10$ 個の製品からなるロット全体からランダムに $4$ 個の標本を抜き取り、この $4$ 個の製品中に不良品が $2$ 個以上発見された場合、ロット全体を不合格とし、不良品が $1$ 個以下の場合、ロット全体を合格とすることになります。

このような方式では、合格と不合格の閾値をいくつにするかが問題となります。つまり、基準を厳しくする(閾値が小さい)と不良品が合格となる危険が減らせるいっぽう、良品が不合格になる危険は増えてしまい、逆もまた然りというように、消費者危険と生産者危険はトレード・オフの関係になるため、閾値をどこに設定するのが最善なのかを考える必要があるということです。

このような文脈においてポイントとなるのが、①抜き取り検査は煎じ詰めれば、「そのロットを合格とすべきか不合格とすべきか」という二者択一の意思決定の問題である、②全数調査ではないため、一定の割合で誤った判断をすることが避けられない、③数多くの検査を繰り返し行った場合、両方の危険を完全になくすことは現実的に不可能であり、どこかで折り合いをつける必要があるという点です。

この点、ドッジ・ローミックは抜き取り検査の手順が「何回も繰り返し行われる時、希望する目的の結果を生ずる」ように構成される必要性を説いています。これは、「同様の判定を繰り返した場合に、2種類の過誤によって生じる損失を許容範囲内に抑えること」を目標にしていたといいかえることができます。

ネイマン・ピアソンの仮説検定理論

こうした問題に対し、第1種の過誤、第2種の過誤、対立仮説、検出力などの概念を導入し、模範的とも言えるような解決策を提示したのがネイマン・ピアソンでした。彼らは次のような手順での検定方式を提案しました。

  1. 帰無仮説と対立仮説を立てる
  2. 有意水準と検出力を決定し、必要なサンプルサイズを求める
  3. 検定統計量、帰無仮説における検定統計量の分布、棄却域を決める
  4. データを集め、検定統計量の実現値を算出する
  5. 検定統計量が棄却域にあれば帰無仮説を棄却し、対立仮説を採択、そうでなければ帰無仮説を採択する

彼らは、「ネイマン・ビアソンの基本定理」によって、帰無仮説と対立仮説の尤度比にもとづく検定方式が、有意水準を所定の水準に保ったうえでの最強力検定であることを示し、そのことによって、消費者危険と生産者危険という2種類のリスクを制御して、適切な品質保証を消費者に与え、かつ検査費用を最小化するための理論的根拠が与えられました。

ネイマン・ピアソン理論の立場

ネイマン・ピアソンは、自身の統計的検定論研究の目的について、

Without hoping to know whether each separate hypothesis is true or false, we may search for rules to govern our behaviour with regard to them, in following which we insure that, in the long run of experience, we shall not often be wrong.
二分された仮説の真偽を知ろうとするのではなく、長い目で見ればそう頻繁に間違うことはないと保証された方法にもとづいた、真偽判定の基準を考究する可能性があるだろう。$^\mathrm{(11)}$

と述べており、 彼らはこれを行動の規則 rule of behavior と呼び、統計的推測に関するフィッシャーの観点を帰納的推論 inductive inference とし、自らの観点を帰納的行動 inductive behavior として区別しました。

「二分された仮説の真偽を知ろうとするのではなく」とあるように、この立場は個々の抜き取り検査において正しい判断をすることは問題とせず、「個々の真偽は不明ながらも全体としてみたときに目的を果たしていればいい」というある種の割り切った、合理性を重視した立場です。この考え方は、抜き取り検査の文脈と非常に高い親和性がありますが、ネイマンは自身の著書の中で

ドッジ・ローミックは抜き取り検査に関して著した幾つかの論文のなかで、統計的仮説検定における2種類の過誤の概念を考察し、実際にこれらの過誤確率を計算した。これらの概念は、最初は実際的な工学研究において生み出されたのであり、その後に、これを現代の統計理論における基礎概念にまで高めた理論家が再発見したのである。$^\mathrm{(12)}$

と述懐しており、 彼は2種類の過誤の起源がドッジ・ローミックの抜き取り検査の研究にあることを示唆しています。

ネイマン・ピアソンが仮説検定の理論を発表した当初、彼らは、あくまでも統計学内部の理論の進展のために研究を行っており、最初から産業界における意思決定に活かすことを想定したわけではないようですが、結果として、ネイマン・ピアソンの研究は品質管理の理論と実践に大きな影響を与えることになりました。

有意性検定と仮説検定の共通点:検定理論が普及した背景

上藤(2004)$^\mathrm{(13)}$は、

近年、科学史・科学社会学の分野で明らかになりつつあることではあるが、大学や専門学校を出た科学の専門家が産業資本に登用され、その知識が生産の場で実用されるシステムが形成されたのは19世紀も後半に入ってからである。その先鋒となったのはドイツの化学工業であるが、以降ドイツではこのシステムが様々な産業に普及し急速な経済発展を遂げていく。〔…〕当時イギリスはこの点で完全に出遅れていた。19世紀末頃から徐々に科学の専門職を再生産させる教育システムが確立され、学位を有する職業専門家が産業資本に進出するようになっていく。W.S.GossetやR.A.Fisherという統計学者が、言わばそのような科学者集団の制度化の渦中にあって、大学アカデミー以外の産業資本と結び付いた研究の場でキャリアを積んでいった事実は看過することができない。

と述べ、 近代的な統計理論が、科学と産業の連携が深まっていく中で深化していったことの重要性を指摘しています。

フィッシャーの有意性検定論、ネイマン・ピアソンの統計的仮説検定理論はともに、実際の利用に際して、いわば人々を説得する術として機能した点では共通しています。

フィッシャーの有意性検定が農事試験の領域で普及した背景には、「種子・肥料の購入者である農業従事者に対して農事試験の判定結果を理解させるには、専門家の知識や経験にもとづく判定よりも、形式化された有意性検定による判定のほうが適していた」という事情がありました。

品質管理においてもこれは同様で、生産が大規模化・複雑化した大量生産方式の下では生産者・消費者ともに品質を捉えることがもはや難しくなりました。そこで、検査部門と他の企業部門、または生産者と消費者との間にみられる、品質を評価するための経験や知識、情報、洞察力の差を埋めることができるように、検査の手続きやその判断基準を数理統計学によって標準化する必要が生じたのです。実際には、ネイマン・ピアソン理論を理論的根拠として、生産者は消費者に品質保証を与えることができ、また検査費用を最小化できるような抜き取り検査方式を選択することが可能となりました。

フィッシャーは統計手法が産業界において応用されることについて、

近代世界において、受入れ検査と呼ばれているものはいろいろな点で重要である。イギリス海軍のような大きな経営体が、製造業者から資材を受け取る場合には、誤ったあるいは欠陥のある委託製品を受け入れる頻度を減らすために、資材は十分注意深い検査や試験を受けるだろうと思う。その試験を行う係官に与えられる指示は、また試験の費用を安く、かつ満足すべき仕切りを棄却する頻度を低くするようなものでなければならないと思う。受け入れ手続きを真に効果的で経済的なものとするためには、多くの創意と巧妙さを必要とする。〔…〕私は決して、商業と技術の上で価値あることが証明されているこの工夫を軽視しようとするものではない。〔…〕間違った決定に対する代価の関数を導入することは、受入れ検査においては合理的であり、しばしば必要でもあるが、科学的研究者はそれを導入しないということは重要である。$^\mathrm{(8)}$

と述べ、 抜き取り検査という文脈で仮説検定の手法が使われることには異議を唱えているわけではありませんでした。

有意性検定と仮説検定の相違点

そうした背景における共通点はあったものの、両者の方法はさまざまな面で相容れないものでした。その違いを生んだ原因は、「統計的推測の方法を用いる目的の違い」、つまり、「農事試験と抜き取り検査という各々の適用対象の差異」にあるとされています。

対立仮説の有無

有意性検定においても仮説検定においても、帰無仮説が設定されることは共通していますが、仮説検定では対立仮説が設定されるのに対し、有意性検定が提案された当時、対立仮説という概念は存在しませんでした。

フィッシャーは有意性検定を農業研究、より一般的に言えば、「科学研究における共通言語」として考案しました。彼にとって科学の研究は、科学的証拠を積み上げて真実に迫るために、無数にある仮説をひとつひとつ検証しながら推論を深め、科学的証拠を押さえていくというプロセスであって、有意性検定はその中の一部でしかありませんでした。彼にとって、1回の限られたデータから最終的な結論を出すのは拙速に過ぎ、「帰無仮説が棄却されたことをもって対立仮説が成立するとみなし、次に進む」という態度は、科学の検証プロセスとしては相応しくありませんでした。

いっぽう、抜き取り検査の文脈では、取り得る行動は、「そのロットを合格にするか不合格にするか」という二者択一の問題だったため、「合格とすべきでないなら不合格、不合格とすべき証拠に欠けるのであれば合格」としても不都合はありませんでした。

有意水準についての認識

有意性検定では、検定統計量の値から$\mathrm{p}$値を算出し、ネイマン・ピアソン流の仮説検定では検定統計量の値によって直接的に仮説の棄却や採択を判断するという違いがあります。現在の仮説検定では、検定統計量の値から$\mathrm{p}$値を算出して判断するというかたちで$\mathrm{p}$値が組み込まれていますが、検定統計量の値と$\mathrm{p}$値は1対1の対応があるため、検定統計量と$\mathrm{p}$値のどちらで判断しても本質的な違いはありません。

両者の違いは、仮説検定ではデータを集める前に有意水準を決め、検定統計量の値(あるいは$\mathrm{p}$値)の大きさにかかわらず、棄却域に入っているかいないかだけで有意性を判定するのに対し、有意性検定では、事前に有意水準は決めずに、$\mathrm{p}$値を参考としつつ、事後的に有意性を判定する点にあります。

例えば、仮説検定では有意水準を $5\%$ に定めるとき、$p=0.0001$ であろうが $p=0.049$ であろうが、その違いは無視して一律に「有意水準5%で有意な差あり」とします。

これに対し、フィッシャーにとって、$\mathrm{p}$値は、帰無仮説にどの程度の信頼がおけるかを示すものであり、あらかじめ $0.05$ や $0.01$ という基準を設定し、それによって有意か否かの判断を機械的に行うというようなものではありませんでした。有意性検定では、$p=0.0001$ と $p=0.049$ の違いは考慮され、$\mathrm{p}$値が小さいほど、「エビデンス力」(帰無仮説を棄却する証拠としての信憑性)が高いと判断されます。

ただ、フィッシャーの有意性検定では、設定される有意水準の根拠が不明確であり、また帰無仮説が棄却できなかった場合は判断を留保することになるが、その後にとる対応については判然としません。

これに対し、ネイマン・ピアソン流では、「第1種の過誤(誤って不良品を世に出す)がこの程度であれば許容範囲と思われる水準」として決まり、その水準で制御されることが数学的に保証され、帰無仮説が棄却できなかった場合は、自動的に対立仮説を採択するため、ある意味で明解な方法でした。

試行の意味

フィッシャーは自身が考案した実験計画法の中で、彼の三原則のひとつとして、「反復(繰り返し)」を掲げました。いっぽう、ネイマン・ピアソンの仮説検定の基本的な仮定に「同様の試行を無限回繰り返したとするとき」という仮定があり、有意水準や検出力は、そうした仮定の下での「平均的な失敗・成功の割合」として定義されます。

このように「繰り返し」をキーワードにすると、どちらも「1回の実験や試行で、間違いのない結論に至ることはできない」という点は共通している捉えることもできます。ただ、フィッシャーの場合は、実験計画法の他の原則によって、なるべく誤差を小さくし、何度か実験を繰り返すことでより科学的な真実(仮説の真偽)に近づこうとしたのに対し、ネイマン・ピアソンの場合は、個々の試行の真偽は問題とせず、二者択一ができる場面での(ふたつの過誤による)損失を最小化することを目的としていました。

ネイマン・ピアソン流の普及

このような根本的な部分での矛盾を抱え、(主にフィッシャーが激しく批判するかたちで)フィッシャーとネイマン・ピアソンは長らく論争を繰り広げたわけですが、その後の数理統計学の発展においてはネイマン・ピアソンの考え方が支配的となっていきました。

それは、①フィッシャー流の検定は、数学的に不完全であるいっぽう、ネイマン・ピアソンの理論は数学的により精緻であり、その数式上の理論の展開もより容易だった、②有意性検定では、例えば、帰無仮説を棄却できなかった場合の対応が不明確だったが、仮説検定では機械的に明確な判断できるので、統計理論に詳しくない人々にとって使いやすかったなどの理由があるとされています。

1950年代からは、測度論にもとづく理論が支配的となり、数学的に厳密なかたちでの深化が続いていきます。そしてこの間、アブラハム・ワルドやエリック・レーマンなどの統計学者がネイマン・ピアソン流のパラダイムに依拠して研究を進めるとともに、Lehmann(1959)$^\mathrm{(14)}$など検定理論の決定版とも評されるテキストによって仮説検定が普及していきました。

こうした普及までの経緯については、

But while the rivals feuded [...] other researchers lost patience and began to write statistics manuals for working scientists. And because many of the authors were non-statisticians without a thorough understanding of either approach, they created a hybrid system that crammed Fisher’s easy-to-calculate P value into Neyman and Pearson’s reassuringly rigorous rule-based system. This is when a P value of 0.05 became enshrined as ‘statistically significant’, for example.
しかし、彼らが論争を繰り広げている間、他の研究者たちは痺れを切らし、実務的な科学者に向けた統計マニュアルを作り始めた。そして、作成者の多くが双方の方法についての深い理解を欠いた、統計の非専門家であったため、計算しやすいフィッシャーの$\mathrm{p}$値を厳密なルールにもとづくネイマン・ピアソンのシステムに組み込んだ折衷型のシステムを作り上げた。このときが、例えば、$0.05$ という$\mathrm{p}$値が「統計的有意差」として輝き始めた瞬間である。$^\mathrm{(6)}$
The originators of these approaches—Fisher, Neyman, and Pearson—were acutely aware of the implications of their methods for science, and while they each fought for their own approaches in a debate characterized by rhetorical vehemence and sometimes personal attacks, neither side condoned the combined method. However, the two approaches somehow were blended into a received method whose internal inconsistencies and conceptual limitations continue to be widely ignored.
これらの手法の提唱者たち―フィッシャー、ネイマン、そしてピアソン―は、科学における彼らの方法の意味を敏感に感じ取っており、彼らが時として個人に対する攻撃に及ぶほどの激烈な論争を繰り広げていた間も、両者は互いの方法を統合することは認めていなかった。しかし、どういうわけか、これらふたつのアプローチは、内的矛盾や考え方の限界を広く無視したかたちで統合されていったのである。$^\mathrm{(4)}$

などと評されています。

現在の仮説検定の問題点

先に見たように、有意性検定と仮説検定の理論は根本の思想の違いがあったにもかかわらず、ひとつの理論として統合され、現在のようなかたちで定着していきました。ただ、これらの手法はフィッシャーやネイマン・ピアソンが想定したような場面で、彼らが想定したかたちで使用するのであれば問題はありません。仮説検定や$\mathrm{p}$値が問題となるのは、それらが適切に使用されていない点にあります。

現在の仮説検定の問題点には、例えば、①サンプルサイズの影響が考慮されていない、②過度に二分法的判断を受け入れているといったものがあると思われます。

サンプルサイズの影響

結論を先取りすれば、サンプルサイズの影響を考慮しないと、①$\mathrm{p}$値のみで判断すると、効果量の影響かサンプルサイズの影響かが区別できない、②検出力が確保されず、実験の再現性が保証されないなどの問題が生じてしまいます。これらの点を理解するために、まず検定統計量の構造を詳しく見てみましょう。

検定統計量の構造

例えば、ある降圧剤の効果について調べているとしましょう。比較するのは新しく開発された降圧剤 $A$ と標準的に使用されている降圧剤 $B$ の血圧の低下量で、話を簡単にするため、それぞれ母分散が既知の正規分布 \begin{gather} \mathrm{N} \left(\mu_A,\sigma^2\right) \quad \mathrm{N} \left(\mu_B,\sigma^2\right) \end{gather} に従っているとします。 無作為に抽出した $2n$ 人を半分ずつに分け、いっぽうの $n$ 人には降圧剤 $A$ を、もういっぽうの $n$ 人には降圧剤 $B$ を使ってもらい、母平均の差について統計的検定を行うとするとき、検定統計量は、 \begin{gather} Z_0=\frac{\bar{X}-\bar{Y}}{\sigma} \cdot \frac{\sqrt n}{\sqrt2} \end{gather} で与えられ、 この絶対値 $ \left|Z_0\right|$ が $Z_{0.5\alpha}$ よりも大きいか否かで帰無仮説を棄却するかを判断します。つまり、検定統計量が大きな値となれば帰無仮説が棄却されやすくなり、逆に検定統計量が小さいと帰無仮説を棄却できないことになります。

効果量

ここで、この式における $\bar{X}-\bar{Y}$ の意味について考えてみると、これは「降圧剤 $A$ と降圧剤 $B$ の平均値の差(の推定量)」を表し、 \begin{gather} \frac{\bar{X}-\bar{Y}}{\sigma} \end{gather} はそれを標準化した値と解釈することができます。

このように、群間での平均値の差の程度、変数間の関連の強さなど、研究関心の程度を表す値を、データの単位に左右されないよう標準化したもの効果量 effect size と呼びます。この場合は、標本による推定値ですが、母集団における効果量は、 \begin{gather} \frac{\mu_A-\mu_B}{\sigma} \end{gather} ということになります。

なお、この例でいう $\bar{X}-\bar{Y}$ を「効果量」、それを標準化した値 $\frac{\bar{X}-\bar{Y}}{\sigma}$ を「標準化効果量」と呼ぶ場合もあります。

検定統計量・効果量・サンプルサイズの関係

ここで検定統計量の構造に戻ると、一般に検定統計量は以下のように、「サンプルサイズの関数」と「効果量の関数」の積の形で表すことができるという構造をしています。 \begin{gather} T=\ f \left(N\right)\times g \left(\mathrm{E.S.}\right) \end{gather}

統計的仮説検定では一般に、検定統計量が大きくなればなるほど、$\mathrm{P}$値は小さくなり、帰無仮説が棄却されやすくなります。このこととさきほどのことから、次の2つのことが言えます。
(1)標本サイズが同じならば、効果量が大きくなればなるほど検定統計量の値は大きくなり、したがってp値は小さくなる。
(2)効果量が同じならば、標本サイズが大きくなればなるほど検定統計量の値は大きくなり、したがってp値は小さくなる。

このような検定統計量の性質が、先に挙げたような問題を生じさせます。

効果量の影響かサンプルサイズの影響かが区別できない

例えば、ある薬 $X$ の効果についてのデータを取ったところ、次のような結果が得られたとします$^\mathrm{(15)}$。

表2A 投薬・治癒状況
有効 無効 合計
処置群 $10$ $10$ $20$
対照群 $6$ $14$ $20$
合計 $16$ $24$ $40$
表2B 投薬・治癒状況
有効 無効 合計
処置群 $100$ $100$ $200$
対照群 $60$ $140$ $200$
合計 $160$ $240$ $400$

これらの結果は、効果量としてはどちらも、 \begin{gather} \delta_A=\frac{10}{20}-\frac{6}{20}=0.2\\ \delta_B=\frac{100}{200}-\frac{60}{200}=0.2 \end{gather} となりますが、 フィッシャーの直接法で片側$\mathrm{p}$値を算出すると、 \begin{gather} {\mathrm{P}}_A=0.36 \quad {\mathrm{P}}_B=0.014 \end{gather} となります。

この結果に有意水準5%で統計的検定を適用すると、上の表からは「処置の効果はあるとはいえない」、下の表からは「処置の効果あり」とあります。有効率は、処置群、対照群ともに2つの表で同じであるにもかかわらず、矛盾した判定結果となります。これは、P値がサンプルサイズに依存することを無視して機械的に判定することによって生じます。

いっぽう、表2Bと同じ病気に対する新たな薬 $Y$ の臨床試験の結果が以下のように得られたとします。

表2C 投薬・治癒状況
有効 無効 合計
処置群 $320$ $480$ $800$
対照群 $240$ $560$ $800$
合計 $560$ $1140$ $1600$

ここから効果量と$\mathrm{p}$値を算出すると、 \begin{gather} \delta_C=\frac{320}{800}-\frac{240}{800}=0.1\\ {\mathrm{P}}_C=0.00003 \end{gather} となります。

この結果を見ると、効果量の大きさは薬 $X$ の方が大きいのですが、$\mathrm{p}$値は薬 $Y$ の結果の方が小さくなっています。こうした詳細に立ち入らず、単に$\mathrm{p}$値の大きさだけで「$Y$ の方が良い」と判断してしまうと、合理的でない判断をしてしまうことがあります。

こうした問題点については、次の『サンプルサイズの設計』の記事においても、別の例を用いて解説したいと思います。

研究結果の再現性

科学、特に心理学や物理学などの実験科学では、研究結果の再現性が重視されます。この再現性について、Nuzzo(2014)は次のような話を紹介しています。

For a brief moment in 2010, Matt Motyl was on the brink of scientific glory: he had discovered that extremists quite literally see the world in black and white. [...] Data from a study of nearly 2,000 people [...]. “The hypothesis was sexy,” he says, “and the data provided clear support.” The P value, [...], was 0.01 [...]. Publication in a high-impact journal seemed within Motyl’s grasp. But then reality intervened. Sensitive to controversies over reproducibility, Motyl and his adviser, Brian Nosek, decided to replicate the study. With extra data, the P value came out as 0.59 [...]. The effect had disappeared, and with it, Motyl’s dreams of youthful fame. [...] the P value, which is neither as reliable nor as objective as most scientists assume.
2010年、Matt Motyl はほんの少しの間だけ、科学的な栄光に浸っていた。〔…〕2000人近くの被験者から得られたデータは、〔…〕「刺激的な仮説を明らかに支持していた」と彼は述べた。$\mathrm{p}$値は、〔…〕$0.01$ だった。影響力の大きい雑誌への掲載は、Motylの掌中にあるかに思われた。しかし、現実はその夢を打ち砕いた。再現性を巡る長きにわたる論争が気になったため、Motyl と彼のアドバイザーである Brian Nosek はもう一度研究を繰り返すことにした。再試験の結果、$\mathrm{p}$値は、$0.59$ となり、若くして名声を得るという彼の夢は潰えたのであった。〔…〕$\mathrm{p}$値というものは、ほとんどの科学者が信じているほど、真実を反映しているわけでも、信頼のおけるものでもないのだ。$^\mathrm{(6)}$

現在の仮説検定の枠組みにおいても、「検定統計量の分布を仮定する」という手順が組み込まれていますが、これは、「検定統計量の値は常に一定となるわけではなく、ばらつきがあるものだ」という暗黙の前提によるものです。しかし、検定統計量がばらつくのであれば、それと1対1の対応がある$\mathrm{p}$値もまたばらつきがあるということになります。

「再現性」を仮説検定の言葉でいいかえれば、「ある研究で帰無仮説が棄却されたとき、別の独立した研究においても同じ帰無仮説が棄却される」ということになります。こうした点について、柳川(2018)$^\mathrm{(15)}$では以下のようなシミュレーションを行っています。

  1. 正規分布 $\mathrm{N} \left(0.176,1\right)$ にしたがう乱数を $n$ 個発生させて大きさ $n$ のデータとする。このデータから正規分布の平均が正であるという対立仮説に平均が $0$ という帰無仮説を対比する検定の$\mathrm{p}$値を算出する。
  2. 上の手順を100回くり返す。
  3. 得られた100個の$\mathrm{p}$値の分布を箱ひげ図、およびヒストグラムにまとめる。
  4. 上の操作を $N=50,100,200,300$ のそれぞれについて行う。

つまり、対立仮説が正しいことが分かっている状況下において、実際に検定を繰り返し行ったときに、どれくらいの割合で正しく帰無仮説が棄却されるかを調べたということです。その結果、

$n=200$のとき、$\mathrm{p}$値の分布の中央値は $0.005$ で $5%$ 以下である。さらに$\mathrm{p}$値が $5%$ 以下である$\mathrm{p}$値の割合は $81%$ で設定どおりの結果が得られている。この割合は、$n=300$ のときは $92%$ に増加する。他方、サンプルサイズが $n=50$ のとき、$\mathrm{p}$値の分布の中央値は $0.095$ で $5%$ より大きい。さらに、$5%$ 以下となる$\mathrm{p}$値は100回中27回しかない、サンプルサイズが不足していれば、本来なら有意に平均値は0より大きいと判定されるものが約3回に1回見逃されることになる。$n=100$のとき、$\mathrm{p}$値の分布の中央値は $0.045$ で $5%$ 以下である。しかし、見逃しの割合はまだ2回に1回であり、無視できないほど大きい。

これはつまり、「サンプルサイズが十分でない場合、検出力が保証されない」ということを意味していて、十分な検出力がないまま繰り返し検定を行えば、個々の結果が食い違うことも珍しいことではなくなるということを意味しています。

ネイマン・ピアソンはこのようなサンプルサイズの影響を理解していたと推察され、それゆえに、「所定の検出力を得るために必要なサンプルサイズを計算する」という手順がきちんと盛り込まれていました。しかし、彼らの理論がフィッシャー流と統合され、普及する過程において、なぜかこの手順が抜け落ちてしまい、現在のかたちで広まり、そして定着してしまいました。この点は、地味ながらも本質的な問題であるように思われます。もし、普及の初期段階からサンプルサイズの影響についての理解が深まっていれば、今日ほど大きな問題とはなっていなかったのかもしれません。

科学的考察についての再考

フィッシャー$^\mathrm{(8)}$は先に見たように、抜き取り検査の文脈で仮説検定が用いられることについては否定していませんでしたが、同時に、

受入れ検査のような過程の論理的基礎は、科学者が観測値から現実をよりよく理解しようとしているときのそれとはまったく異種のものである。〔…〕かつての自由な知的環境に育ったものにとっては、厳密にいえば、合理的な思考を経験的データに適用して現実世界についての正しい推論を行うことなどはできない、という教義によって代表される思想的運動には肌寒いものを感じる。われわれ西欧人にとって当然と思われてきた知的自由が、地球上の大きな部分で見事に否定されてしまった。
ネイマンやワルドのような著者たちは、これらの検定を自然科学におけるその目的をほとんど考慮することなしに取扱った。〔…〕この派がとったかなり生硬な態度は、ただ彼らが非現実的な形式主義に陥ったことから生じたように思われる。
科学的な研究者は、自分を定められた規則に従って動いている巨大な協同企業の内部の一構成部分とみなせる、という考え方がある。これは正しい科学的な結論をくだし、それをまとめ、科学者の仲間に伝えるという科学者の義務から注意をそらし、自動的な「決定」を機械的に続けてくだして行くという想像上の義務を強調することによって強められた。その考え方は「決定関数の理論」の非常に不完全な数学から表面的な権威を得ている。たとえこれまでの発展においてこの理論が「自然科学」における有意性検定の分野と、「ゲームの理論」における政策あるいは戦略の問題と、「品質管理」における棄却の問題、およびたぶんその他の等しい関連のうすい分野との混同をさけて通ったとしても、なお自然科学は、責任ある独立の思想家がその頭と想像力を、確かめられうる観察の詳しい解釈のために用いることによってのみ、うまく進められるということは真実であろう。この責任が決定関数のプログラムをつけた巨大な計算機に委ねられるということは、科学的な研究からはかけ離れた人々の幻想にすぎない。

などと述べ、 合理的意思決定のための理論を科学的探究の場面にまで適用することを激しく批判しました。

このようなフィッシャーの批判に対し、例えば、

We must abandon our ability to measure evidence, or judge truth, in an individual experiment. In practice, this meant reporting only whether or not the results were statistically significant and acting in accordance with that verdict. Many might regard this as profoundly nonscientific, yet this procedure is often held up as a paradigm of the scientific method.
(ネイマン・ピアソン流のパラダイムにおいて)私たちは、個別の実験において、エビデンスを評価する力や真実についての判断する能力を放棄しなければならない。これは実践において、結果が統計的に有意であるか否かにもとづいて報告し、その判断と整合的な仕方でしか振る舞うことしかできないということを意味している。多くの人は、こうしたことは全くもって科学的ではないと評価するだろうが、このような手順は、しばしば科学的方法の規範として支持されてきたのである。$^\mathrm{(4)}$

というように 賛同する科学者は少なくありません。

$\mathrm{p}$値のみによって二分法的に結論を出してしまうと、先ほど見たように、帰無仮説が棄却、あるいは採択されたのは、サンプルサイズの影響なのか、それとも効果量の影響なのかが見えなくなってしまうため、近年では、「効果があるかないか」よりも「どれくらいの効果があるのか」という点を重視し、検定よりも信頼区間によって効果量の大きさを示すよう推奨する雑誌が多くなっています。

二分法の弊害

また、二分法的な判断は、

The trouble is human and cognitive more than it is statistical: bucketing results into ‘statistically significant’ and ‘statistically non-significant’ makes people think that the items assigned in that way are categorically different. [...] Unfortunately, the false belief that crossing the threshold of statistical significance is enough to show that a result is ‘real’ has led scientists and journal editors to privilege such results, thereby distorting the literature. Statistically significant estimates are biased upwards in magnitude and potentially to a large degree, whereas statistically non-significant estimates are biased downwards in magnitude. Consequently, any discussion that focuses on estimates chosen for their significance will be biased.
問題は、統計学的なものというよりも、むしろ人々の認識の方にある。「統計的に有意」と「統計的に有意でない」という2種類にカテゴライズされた結果は全くの別ものなのだと、人々は思っている。〔…〕残念ながら、統計的に有意な閾値をまたぐことは、その結果が「現実」のものであるという誤った認識は、科学者や雑誌の編集委員に、有意な結果を特別視させ、文献を歪ませる。統計的に有意であるとの推定は、大きく過大評価された代物であり、逆に統計的に有意でないことは大きく過小評価されることになる。その結果、統計的有意差にもとづいた議論にもバイアスがかかる。$^\mathrm{(3)}$

というように、 統計的に有意な結果を過度に評価する傾向を生み出します。

そうした傾向が蔓延してくると、次第に成果が欲しい研究者は、検定の多重性を無視して多くの項目についてデータを取り、(おそらくは偶然に)有意差が出た項目を選別して結果を報告したり、有意差が出たことを確認した後で、尤もらしい仮説を考えるなどの「不正行為」が自然発生してきます。こうした行為は、p-hackingHypothesising After the Results are Known: HARKing と命名され、$\mathrm{p}$値の悪用例として、広く知られるようになっています。

帰納的推論への回帰

冒頭で紹介した科学者たちの声明では、

Whatever the statistics show, it is fine to suggest reasons for your results, but discuss a range of potential explanations, not just favoured ones. Inferences should be scientific, and that goes far beyond the merely statistical. Factors such as background evidence, study design, data quality and understanding of underlying mechanisms are often more important than statistical measures such as P values or intervals. [...] The misuse of statistical significance has done much harm to the scientific community and those who rely on scientific advice. P values, intervals and other statistical measures all have their place, but it’s time for statistical significance to go.
統計値が何を示していたとしても、それを自分の結論を示唆するものとして用いるのはかまわない。しかし、自分のお気に入りの仮説だけでなく、あり得る可能性について幅広く議論しなければならない。推論は科学的に行われるべきものであり、単なる統計的な議論に留まるべきではない。背景にある証拠、研究デザイン、データの質、背後にあるメカニズムについての理解などは、$\mathrm{p}$値や信頼区間といった統計指標よりもしばしば重要である。〔…〕統計的有意性を誤用することは、科学界と科学的なアドバイスに依存する人々にとって多大な悪影響を及ぼしてきた。$\mathrm{p}$値や信頼区間、そしてその他の指標はそれぞれに定着し、適切な使いどころがある。しかし、統計的有意性に関しては、脱却すべきときが来ている。$^\mathrm{(3)}$

との考えが示されており、 フィッシャーが批判したように、科学的探究は、それにふさわしい方法で行われることの重要性を訴えています。

状況に応じて、手法を正しく使い分ける

$\mathrm{p}$値や仮説検定という手法は、それ自体に致命的な問題があるわけではなく、その限界を認識したうえで正しく使うことができれば、いまだに有用なツールです。そうした適切な使い方について、以下に示す柳川(2018)$^\mathrm{(15)}$の提案を紹介して、本稿を締めくくりたいと思います。

探索的研究と検証的研究

科学的研究には、探索的研究と検証的研究があります。通常、長い時間をかけた探索的研究の最後に検証的研究が実施されます。例えば、医薬品の開発は、特定の疾患をターゲットとして行われますが、選択された候補化学物質に対して発がん性がないかどうか(発がん性試験)、あるいは遺伝子に突然変異を引き起こす可能性はないかどうか(変異原性試験)など様々な試験が細胞やラットなどの動物に対して行われます。候補物質の安全性が確認されると、次に健常なヒトを対象にして第I相試験が行われ、化学物質を薬剤化するための基本情報が集められます。次の段階で当該疾患の患者を対象とする第II相試験が行われ、薬剤の至適用量・用法が探索的に吟味され、有望ということになれば、有効性と安全性を検証するために当該疾患の患者を対象として第III相試験が行われます。

この一連の薬剤開発過程の中で、第III相試験が検証的研究であり、第III相試験に至るまでの研究が探索的研究です。探素的研究では頻繁に統計的検定が適用されますが、そこでは研究を次のステップに進めるに値する薬剤の有用性のエビデンスがあるかどうか推測することが検定の目的となります。これに対して第III相試験では、開発された薬剤が、対象疾患の患者に真に有効で、しかも安全であることを確認するための検証的研究です。

検証的研究に関する妥当な検定

検証的研究は、その名の通り、十分に証拠が積みあがったうえで、最終的にその仮説が正しいかどうかを確認するために行われることが多いでしょう。薬剤開発の第III相試験の文脈では、検証結果は「その薬を認可すべきか否か」の判断に活かされます。そのため、ネイマン・ピアソン流の仮説検定を適用することができる状況であると考えられます。具体的には以下のような手順が考えられます。

  1. これだけあれば「医学的に意味ある差あり」とみなせる主要評価項目の差を定める
  2. 有意水準と検出力を決め、必要なサンプルサイズを求める
  3. その症例数の患者をランダムに割り付けるための表を作成し、その表に従ってその症例数の患者を集め、ランダムに服用群と被服用群に分ける
  4. 服用群の患者には薬剤を、非服用群の患者にはプラセボと呼ばれる偽薬、あるいは対照役薬として選定された薬剤を一定期間服用してもらう
  5. 両群の成績から$\mathrm{p}$値を算出する
  6. $\mathrm{p}$値が有意水準以下のときに「効果あり」、そうでないときには「効果があるとはいえない」と判定する

この場合、手順①と②によって、意味のない差を検出するおそれや検出力が確保されない可能性に配慮できているので、妥当性をもった結論を出すことが可能になります。

探索的研究に関する妥当な検定

探索的研究の過程で適用される比較試験では、多くの場合、サンプルサイズが事前に統計的に設定されていません。探索的研究では、多くの場合、限られたデータにもとづいて、研究を次のステップに進めるに値するエビデンスがあるかどうか推測することが目的となります。それゆえに、ネイマン・ピアソン流ではなく、フィッシャー流の考え方にもとづいて研究を進めていくのがより適切です。ただし、サンプルサイズの設計を行っていないため、$\mathrm{p}$値自体がばらつくことを念頭に置き、リスク差やハザード比などの効果量の大きさや対象とする科学分野の知識等を考慮した上で、総合的に推測することが重要になります。

その他の場合

科学研究には、先述の薬品開発のように実験にもとづいてデータを集める実験科学の他に、疫学研究のように実験をともなわない「観察研究」と呼ばれるパターンの研究もあります。観察研究の場合、無作為抽出や無作為化などの操作が難しく、バイアスや交絡が問題となるため、まずはその制御に注力する必要があります。

観察研究はたいていの場合サンプルサイズの設計をともなっていないため、探索的研究に該当することが多いと考えられます。そのため、ネイマン・ピアソン流ではなく、フィッシャー流の考え方にもとづいて研究を進めていくのがより適切で、最終的な結論を出すというよりも、効果量の大きさや測定値の分布の把握などを目的とする方がより妥当な方法ということになります。

統計分析を用いて目指すゴールは、取り組んでいる個別の研究テーマによって異なるだけでなく、研究領域によっても必ずしもひとつではありません。仮説の真偽が実験によって白黒をつけることができる実験系の科学があるいっぽう、歴史学や進化学のように、直接的な観察や実験がまったくできない歴史叙述科学のような科学もあります。実験科学ではないタイプの科学については実験的な研究方法がもともと適用できないこともあり得ます。そうした非実験系の科学では結果の再現性よりもむしろちゃんと推定できているか、まっとうに説明できているかどうかの方により重きが置かれるでしょう。煎じ詰めれば、形式的な手順に囚われず、その時々の目的に応じて、適切と考えられる方法で研究を行うことが何よりも重要だと言えます。

参考文献

  • Neyman, J. & Pearson, E.S.. On the problem of the most efficient tests of statistical hypotheses. Philosophical Trasactions of Royal Society of London.Series A. 1933, 231, p.289-337, doi: 10.1098/rsta.1933.0009
  • 石田 正次. 統計推論に関するフィッシャーとネイマンの論争について. 科学基礎論研究. 1960, 5(1), p.17-31, doi: 10.4288/kisoron1954.5.17
  • ロナルド・フィッシャー 著, 渋谷 政昭, 竹内啓 訳. 統計的方法と科学的推論. 岩波書店, 1962, 227p.
  • ロナルド・フィッシャー 著, 遠藤 健児, 鍋谷 清治 共訳. 研究者のための統計的方法. 森北出版, 1970, 326p.
  • ロナルド・フィッシャー 著, 遠藤 健児, 鍋谷 清治 共訳. 実験計画法. 森北出版, 1971, 266p.
  • イエジ・ネイマン 著, 砂田 吉一 訳. ネイマン統計学. 白桃書房, 1978, 298p.
  • コンスタンス・リード 著, 安藤洋美 ほか 共訳. 数理統計学者イエルジイ・ネイマンの生涯. 現代数学社, 1985, 525p.
  • 安藤 洋美 著. 統計学けんか物語:カール・ピアソン一代記. 海鳴社, 1989, 142p.
  • 南風原 朝和. 教育心理学研究と統計的検定. 教育心理学年報. 1995, 34, p.122-131, doi: 10.5926/arepj1962.34.0_122
  • 河合 統介. 統計科学の足もと:p値と信頼区間. 天理医学紀要. 2003, 6(1), p.71-79.
  • 久保 拓弥. 樹木・森林生態学「よく出る」誤用統計学の基本わざ. 生物科学. 農山漁村文化協会. 2003, 54(3), p.188-192
  • 芝村 良 著. R.A.フィッシャーの統計理論:推測統計学の形成とその社会的背景. 九州大学出版会, 2004, 181p.
  • 松原 望. 「ベイズ統計学」へのチュートリアル:薬学と統計学の対話のために. ファルマシア. 2005, 41(5), p.405-409, doi: 10.14894/faruawpsj.41.5_405
  • 久保 拓弥 著. データ解析のための統計モデリング入門:一般化線形モデル・階層ベイズモデル・MCMC. 岩波書店, 2012, 267p.
  • 大久保 街亜, 岡田 謙介 著. 伝えるための心理統計 効果量・信頼区間・検定力. 勁草書房, 2012, 215p.
  • Nuzzo, R.. Scientific method:statistical errors. Nature. 2014, 506(7487), p.150-152, doi: 10.1038/506150a
  • 波田野 結花, 吉田 弘道, 岡田 謙介. 『教育心理学研究』におけるp値と効果量による解釈の違い. 教育心理学研究. 2015, 63(2), p.151-161, doi: 10.5926/jjep.63.151
  • 池田 敏広, 後藤 昌司. p値に関する最近の議論. 日本計算機統計学会シンポジウム論文集. 2016, 30, p.153-156, doi: 10.20551/jscssymo.30.0_153
  • 佐藤 俊哉 訳. 統計的有意性とP値に関するASA声明. 2017, https://www.biometrics.gr.jp/news/all/ASA.pdf
  • 佐藤 俊哉. ASA声明と疫学研究におけるP値. 計量生物学. 2018, 38(2), p.109-115, doi: 10.5691/jjb.38.109
  • 三中 信宏. 再現可能性ははたして必要なのか:p値問題から垣間見る科学研究の多様性. 計量生物学. 2018, 38(2), p.117-125, doi: 10.5691/jjb.38.117
  • 三輪 哲久. ASA声明2016に対する大雑把なコメント. 計量生物学. 2018, 38(2), p.163-170, doi: 10.5691/jjb.38.163
  • 柳川 堯 著. P値:その正しい理解と適用. 近代科学社, 2018, 116p.
  • 柳川 堯. p値は臨床研究データ解析結果報告に有用な優れたモノサシである. 計量生物学. 2018, 38(2), p.153-161, doi: 10.5691/jjb.38.153

引用文献

  1. Trafimow, D. & Marks, M.. Editorial. Basic and Applied Social Psychology. 2015, 37(1), p.1-2, doi: 10.1080/01973533.2015.1012991
  2. 佐藤 俊哉 訳. 統計的有意性とP値に関するASA声明. 2017, https://www.biometrics.gr.jp/news/all/ASA.pdf
  3. Amrhein, V., Greenland, S. & McShane, B.. Scientists rise up against statistical significance. Nature. 2019, 567(7748), p.305-307, doi: 10.1038/d41586-019-00857-9
  4. Goodman, S.N.. Toward evidence-based medical statistics. 1: The P value fallacy. Annals of internal medicine. 1999, 130(12), p.995-1004, doi: 10.7326/0003-4819-130-12-199906150-00008
  5. Greenland, S., Senn, S.J., Rothman, K.J. et al.. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European journal of epidemiology. 2016, 31(4), p.337-350, doi: 10.1007/s10654-016-0149-3
  6. Nuzzo, R.. Scientific method:statistical errors. Nature. 2014, 506(7487), p.150-152, doi: 10.1038/506150a
  7. ロナルド・フィッシャー 著, 遠藤 健児, 鍋谷 清治 共訳. 研究者のための統計的方法. 森北出版, 1970, 326p.
  8. ロナルド・フィッシャー 著, 渋谷 政昭, 竹内啓 訳. 統計的方法と科学的推論. 岩波書店, 1962, 227p.
  9. Neyman, J. & Pearson, E.S.. On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference: Part I. Biometrika. 1928, 20A(1/2), p.175-240, doi: 10.2307/2331945
  10. 芝村 良 著. R.A.フィッシャーの統計理論:推測統計学の形成とその社会的背景. 九州大学出版会, 2004, 181p.
  11. Neyman, J. & Pearson, E.S.. On the problem of the most efficient tests of statistical hypotheses. Philosophical Trasactions of Royal Society of London.Series A. 1933, 231, p.289-337, doi: 10.1098/rsta.1933.0009
  12. イエジ・ネイマン 著, 砂田 吉一 訳. ネイマン統計学. 白桃書房, 1978, 298p.
  13. 上藤 一郎. 書評: 『R.A.フィッシャーの統計理論:推測統計学の形成とその社会的背景』. 統計学. 2004, (87), p.58-62.
  14. Lehmann, E.L.. Testing Statistical Hypotheses. John Wiley & Sons, 1959, 388p.
  15. 柳川 堯 著. P値:その正しい理解と適用. 近代科学社, 2018, 116p.

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ