近年、P値をめぐる議論の一環として学術界ではサンプルサイズの設計に対する関心が高まっています。本稿では、サンプルサイズが適切でない場合の問題点について解説し、検出力による方法と信頼区間にもとづく方法の2種類のサンプルサイズ設計法などについて解説しています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。
目次[非表示]
サンプルサイズをめぐる近年の状況
近年、医学や疫学の分野では、CONSORT声明やSTROBE声明に代表されるように、様々な臨床研究や疫学研究の質保証のためのガイドラインが提示されてきています。こうしたガイドラインにおいて共通して必ず挙げられている項目のひとつに「サンプルサイズの設計(決定方法)」があります。影響力の大きいガイドラインで要求されていることもあるため、「サンプルサイズの設計」を行うことは、実験を実施し、その成果を雑誌に投稿するうえで必ず踏まなければならない手順となっています。
標本調査におけるサンプルサイズとは、すなわち「採取するデータの個数」のことであり、医学・疫学や心理学など、人を対象とする研究においては「被験者数」といいかえることができます。「サンプルサイズの設計」とは文字通り、研究を行う前に、どれくらいの人数のデータを集めるか=サンプルサイズを計画しなければならないということであり、「そこをクリアしなければ論文が通らない」というのであればそれに従うほかありません。ただ、「なぜ、サンプルサイズの設計をしなければならないのか」という点を考えると「実験に伴う侵襲性は、可能な限り低くしなければならない」とか「実験参加にあたっては、必ず被験者の同意を取らなければならない」といったことと比べて、その理由がすぐには分からないように感じられます。
結論を先取りしてしまえば、「現在確立されている統計的仮説検定の枠組みでは、サンプルサイズが適切でないと問題が生じる場合がある」というのがその理由になるのですが、この点を理解するために、まず、統計的仮説検定の仕組みについておさらいしたいと思います。
統計的仮説検定の手順
現在、定着している統計的仮説検定は、おおまかに以下の手順で進められます。
①帰無仮説と対立仮説を設定する
②検定統計量の種類とその分布を決める
③有意水準と棄却域を決める
④得られたデータから検定統計量の値を算出する
⑤検定統計量が棄却域に入るか否かを確認することで、統計的有意性を判断する
例えば、2群の平均値の差を検定する場合、帰無仮説として「集団Aと集団Bの母平均
検定統計量・効果量・サンプルサイズの関係
『仮説検定とP値を巡る近年の科学界:何が問題か?』の記事でも紹介したように、一般に検定統計量は以下のように、「サンプルサイズの関数」と「効果量の関数」の積の形で表すことができるという構造をしています。
統計的仮説検定では一般に、検定統計量が大きくなればなるほど、
(1)標本サイズが同じならば、効果量が大きくなればなるほど検定統計量の値は大きくなり、したがってp値は小さくなる。
(2)効果量が同じならば、標本サイズが大きくなればなるほど検定統計量の値は大きくなり、したがってp値は小さくなる。
このような検定統計量の性質が、①サンプルサイズが大きすぎる場合と②サンプルサイズが小さすぎる場合に問題を生み出す原因となってくるのです。
大きすぎるサンプルサイズの問題点:無意味な差を「統計的有意差」として検出してしまう
「サンプルはどれくらい集めればいいのか」と問われたとき、「多ければ多いほど良い」、「集められる限り集める」と答えることは決して間違ってはいません。ただ、統計的仮説検定の仕組みを考えたとき、ひとつ注意しなければならない点があります。
それは、サンプルサイズが大きすぎると、実質的には無意味な差であっても、「統計的有意差」として検出してしまうという点です。例えば、ある地域で新型の感染症が広まっているとします。この感染症は命に別状はなく、風邪のような症状が続くだけで、しばらくすれば完治します。この感染症の罹患状況を調べた結果、以下のようになったとします。
発症あり | 発症なし | 合計 | |
---|---|---|---|
A市 | |||
B市 | |||
合計 |
リスク差
今、両側
たしかにA市とB市の感染状況には差があるようです。ただその差の程度は
これが「実質的には無意味な差であっても、『統計的有意差』として検出してしまう」ということの意味であり、サンプルサイズを増やし続ければ、いつかは「統計的有意差」を出すことができてしまうという点が問題になるわけです
小さすぎるサンプルサイズの問題点:有益な差を「統計的有意差」として検出できない
サンプルサイズが小さすぎる場合の問題点は、社会的に有益な差を、「統計的有意差」として検出できないことがあるという点にあります。例えば、ある新型の感染症が発生したとします。この感染症は、感染してから1ヶ月経つまで持ちこたえられればその後は助かりますが、そうでなければ1ヶ月以内に死んでしまう非常に恐ろしいものです。この感染症に対し、ある企業が開発した薬について評価したところ、以下のようになったとします。
生存 | 死亡 | 合計 | |
---|---|---|---|
投与群 | |||
非投与群 | |||
合計 |
リスク差
調査の結果、両側
ただ、この話についてもう少し冷静に考えてみましょう。もしこの標本調査の結果が真実の姿を完全に反映しているのだとすれば、リスク比が
第2種の過誤と検出力
ここで考えなければならないのは、帰無仮説を棄却せず「統計的有意差なし」とした判断が「第2種の過誤」である可能性です。第2種の誤りとは、「帰無仮説が正しくない場合に、帰無仮説を棄却しない事象」のことであり、第2種の過誤の余事象、すなわち、「帰無仮説が正しくない場合に、帰無仮説を棄却する事象」が発生する確率を検出力といいました。
統計的仮説検定の枠組みでは、通常、「帰無仮説を棄却するかしないか」に関心が集まり、「帰無仮説が正しい際に、誤って帰無仮説を棄却する事象」である第1種の過誤を許容範囲内に収めるべく、有意水準
しかし、ネイマン・ピアソンが統計的仮説検定の理論を構築した際の基本的なコンセプトは、「第1種の過誤を有意水準以内に収めたうえで、最も検出力の高い検定方法を構築する(最強力検定とする)」というものでした。この意味で、本来、検出力についても関心を抱かなければならないのですが、多くの場面で使える「一様最強力検定」が整備されているがゆえに、検出力についてあまり考えなくてもよい状況となり、それゆえにどうしても有意水準と
それではこの例の場合、仮に全数調査をした場合でも今回得られた標本と同じ結果になるとしたとき、それを「統計的有意差」として検出できる確率(検出力)はどれくらいだったのでしょうか。これについては、後に紹介するような方法で計算することができます。ここでは結果のみを見てみると、
今回の場合、
サンプルサイズを設計する理由:研究の科学性・経済性・倫理性を高める
これら2つの例から分かることをまとめると、①サンプルサイズが大きいことは良いことではあるが、「統計的有意差」が確認されたとしてもそれが「社会的に有益な差」であるとは限らない、②サンプルサイズが小さすぎると、せっかく「社会的に有益な差」があったとしても、それを見逃してしまう確率が高くなってしまう、ということになります。そしてこれらの点は、研究の科学性、経済性、倫理性を考えたとき、研究の「価値」を損ねる原因となってしまいます。
冒頭でも述べたように、人を対象とする研究分野では「サンプルサイズ=実験に協力する人の数」と言えます。特に医学研究においては、新しい治療法の有効性を検証する目的で、無作為化比較試験などの臨床試験が行われますが、試験に参加することには、「思わぬ副作用に苦しむリスク」や「そこまで効果的でない治療法に時間を費やしてしまうかもしれないリスク」などさまざまなリスクがあります。そうしたリスクがある中で、患者はいわば「ボランティア」として参加しています。そうした患者の「善意」がなければそもそも研究が成り立たないのです。
また、研究を実施するためには、研究実施者や関係者の時間、労力、そして金銭的なコストなど、さまざまな資源を必要とします。人も時間も予算も無限に使うことができればそれが理想ですが、現実にはどれも有限であるため、資源の有効活用が求められます。
こうした倫理性や経済性を鑑みたときに求められるのが、「費用対効果の最大化」や「研究を実施した意味」といったものです。
例えば、サンプルサイズが大きすぎた場合を考えてみましょう。この場合、基本的にどんな微々たる差でも「統計的有意差」として検出することができますが、それが「社会的には無意味な差」であれば、「それが分かっても、患者の利益(生存率など)につながらない」という意味で「失敗」となってしまい、投入した諸々の資源がすべて「無駄」ということになってしまいます。
また、それが「社会的には有益な差」だった場合、「実はその差を示すためにはそこまで多くのサンプルは必要なかった」というパターンがほとんどであり、「本来投入しなくてもいい資源まで消費した」という意味で、やはりある程度の「無駄」が生じてしまいます。
科学研究では、常に「統計的有意差」を発見できるわけでありませんが、「発見できなかった原因」を特定できれば、その先の意思決定に役立つことがあります。先に見たように、検定統計量が統計的有意差を検出できない原因には、おおまかに、①サンプルサイズは十分だったけど、効果量が小さかった、②効果量は十分大きかったけど、サンプルサイズが足りなかった、の2種類が考えられます。
この点、検定統計量や
例えば、効果量を確認してみた結果、「そこまで画期的と言えるほどのものではなかった」ということが分かれば、その治療法の開発を中止して別の方法の検討に切り替えることができますし、「どうやら意味のある差はあるようだけど、単にサンプルサイズが足りなかった」となれば、「治療法の開発を続行してもよさそうだ」という判断なり、意思決定をすることができます。
人のすることである以上、初めから「正解」にたどり着けることは皆無で、試行錯誤を繰り返す必要があります。その中で「あまり有望でない道」を進んでしまうことは必ずありますが、その道の有望性を検証し、早い段階で軌道修正することができれば、浪費される資源は最小限で済み、「やみくもに進んでいたらもっと酷くなっていた『無駄』を最小限にできた」というのであれば、その判断をするために費やした諸々のコストや資源は「無意味」ということにはなりません。
以上に述べてきたような理由から、現在、サンプルサイズの設計が必要とされています。
サンプルサイズの設計方法の種類
ここまでは「サンプルサイズの設計が必要な理由」について述べてきましたが、ここからはサンプルサイズの設計方法について述べたいと思います。
サンプルサイズの設計方法には、①検出力にもとづく方法と②信頼区間にもとづく方法の2種類があります。これらの違いは、前者が「仮説検定」を行う場合、後者が「推定」を行う場合に対応しているという点にあります。近年では、「検定よりも推定を重視すべき」という流れになりつつありますが、科学研究ではまだまだ「仮説検定」が主流であるため、①検出力にもとづく方法の方がよく用いられます。
検出力にもとづく方法
臨床的有意差の導入
サンプルサイズを設計せずに検定を行う場合、①無意味な差の検出、②有益な差の見逃し、という点に問題がありました。ここから、これらの問題点を解決することは、「無意味な差」と「有益な差」を区別し、「有益な差」がある場合にはそれを高い確率で検出できるようにすることといいかえることができます。
これらの点に共通しているのは、「社会的な有意差」と「統計的有意差」の間にズレが生じているということです。したがって、このズレを解消することが必要になるわけですが、このズレを解消するために用いられるのが、「臨床的有意差」、あるいは「生物学的有意差」と呼ばれる概念です。
臨床的有意差 clinical significance、あるいは、生物学的有意差 biological significance とは、平均値の差や疾病発生のリスク差・リスク比などの評価指標に関し、母数の差や比がこれ以上(または以下)であれば、臨床的に意味(意義)があると判断できる最小の差のことを指し、よく
臨床的有意差の決定主体
臨床的有意差は、統計学的に決まるものではなく、研究の当事者となる専門家の判断によって決まります。例えば、同じ5%の差であっても、先の例のように「影響が致命的ではない感染症の予防に関する予算配分」という文脈では、「5%の差は臨床的有意差ではない」と判断されるかもしれませんし、逆に「影響が致命的な感染症に対する新薬の効果」という文脈では、「5%でも生存割合を増やせるのであれば、意義がある」となるかもしれません。この点については、それぞれの研究の趣旨や目的によって、合理的な臨床的有意差のラインは異なり、一概には決められないため、当事者や利害関係者の議論の中で決めるのが望ましいとされています。
臨床的有意差の決め方
臨床的有意差の決め方には、①「これくらいの差があってほしい」という希望論にもとづく考え方と②「差があるとしたらこれくらいだろう」という現実論にもとづく考え方の2種類があります。これらをおおまかに言うと、例えばある病気に対する新薬の開発という文脈であれば、①は「価格は既存薬と同じくらいで、既存薬の治療成績は15%(が完治する)。もともとの治療の難しさを考えると、これが20%であれば市場を奪える」ということであり、②は、「とはいっても、現実的には17~18%くらいが関の山かな」ということです。
これら2つの考え方のうち、どちらの考え方にもとづいて臨床的有意差の閾値を決めるのかということについても、基本的には研究実施者の判断で選択することになります。
検証する仮説の定式化
それでは、臨床的有意差を統計的仮説検定の枠組みに組み込み、定式化してみましょう。ここでは、実験群(A)と対照群(B)を比較する実験(試験)を考えます。それぞれの効果を表す結果変数(連続値データや発症割合など)の母数を
(1)差
ここで、臨床的有意差を
これは、「効果量が
このように考えることによって、「統計的有意差」と「臨床的有意差」の間のズレが解消され、「帰無仮説が棄却されること」と「優越性が示されること」との整合性が確保されます。
漸近正規性にもとづくサンプルサイズ設計の基本公式
医学・疫学の分野における曝露効果の指標には、連続値データの平均の差やリスク差、リスク比、オッズ比などがあり、これらを検定統計量として各種の検定が行われます。そして、これらの検定統計量(リスク比とオッズ比は対数変換した値)は、漸近的に正規分布に従うことが想定できる場合がよくあります。このように、検定統計量が正規分布に従うと仮定できる場合、先ほどの仮説を片側検定で検出するためのサンプルサイズは、次の公式で求めることができます。
実験群
両側検定の場合は、
漸近正規性にもとづく検出力分析の基本公式
また、逆にサンプルサイズが固定されているとき、以下の公式によって、検出力分析を行うことができます。
例題
例えば、ある感染症の有病率が高いことが疑われる地域Aを有病率が低いと考えられる地域Bと比較するために、両方の地域について調査する研究を考えます
また、サンプルサイズが各群
信頼区間にもとづく方法
先ほど紹介した検出力にもとづく方法は、検定による統計的推論を行う場合、具体的には、薬剤の優越性を示すことを目的とする臨床試験など、主に「検証的研究」で用いられる方法です。
ただ、科学研究はいわゆる「実験(検証的研究)」だけで構成されているわけではなく、例えば「ある地域における疾病Aの有病率を把握すること」を目的とした記述的研究や検証すべき仮説を探すための「探索的研究」が実施されることもあります。この場合、有病率や治療効果がどれくらいの値かという推定を目的としています。この、信頼区間に基づくサンプルサイズ設計は、正確度分析 precision analysis, precision for planning と呼ばれることもあります。
任意の研究について、各群のサンプルサイズを
サンプルサイズの設計に関するその他の注意点
脱落
サンプルサイズを計算する場合、サンプリングされた人がすべて最終的な統計学的計算に含まれることが前提となっており、追跡不能や脱落が発生するとその分だけサンプルサイズが小さくなり、検出力が低下してしまいます。したがって、脱落が発生することが想定される場合、その影響を加味してサンプルサイズを設計しなければなりません。例えば、全被験者のうち20%が脱落するのであれば、サンプルサイズは
サンプルサイズが固定されている場合の対応策
研究を行う際、コホート研究や臨床試験のように前向きにデータを取るだけでなく、ケース・コントロール研究などのように既存のデータを活用することもあります。このような場合、サンプルサイズが既に固定されているため、サンプルサイズの設計を行うことができず、コホート研究などでの場合における「目標とする検出力」が得られるかどうかは分かりません。このような場合、検出力分析を行い、目標とする検出力で検出することのできる効果量の大きさを確認したり、逆に、あるのであれば検出したい効果量の大きさを検出できる確率はどれくらいかを計算したりすることができます。
不均等サンプル比の使用
検出力は、全体のサンプルサイズが同じであれば、各群の人数が同じ場合に最大となるため、サンプルサイズの設計公式はほとんどのケースで
サンプルサイズの設計手順のまとめ
最後に検出力にもとづくサンプルサイズの設計手順についてまとめると以下のようになります。
①測定する変数と観測結果から母集団における効果の大きさを測る指標を決める
②観測変数の統計的分布と統計的推測のための統計的モデルを定める
③統計的仮説を定め数式で表現する
④有意水準と検出力または信頼係数と信頼幅など、目的の達成を表す統計的基準を定める
⑤計算に用いる効果の大きさとその変動の大きさを定める
⑥サンプルサイズを計算する
参考文献
- 永田 靖 著. サンプルサイズの決め方. 朝倉書店, 2003, 228p.
- 山口 拓洋 著. サンプルサイズの設計 後悔先に立たず. 健康医療評価研究機構, 2010, 119p.
- 大久保 街亜, 岡田 謙介 著. 伝えるための心理統計:効果量・信頼区間・検定力. 勁草書房, 2012, 215p.
- スティーブン・ハリー, スティーブン・カミングス ほか 著, 木原 雅子, 木原 正博 訳. 医学的研究のデザイン:研究の質を高める疫学的アプローチ. 第4版, メディカル・サイエンス・インターナショナル, 2014, p.64-95
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.89-96
- 丹後 俊郎, 松井 茂之 編集. 医学統計学ハンドブック 新版. 朝倉書店, 2018, p.346-349, p371-372
- 浜田 知久馬 著. 学会・論文発表のための統計学:統計パッケージを誤用しないために. 真興交易医書出版部, 2012, p.88-89, p.94-106
- 新谷 歩 著. 今日から使える医療統計. 医学書院, 2015, p.63-78
- 上板 浩之. 臨床試験における被験者数設計の視点と方法. 計量生物学. 2003, 24(1), p.17-41, doi: 10.5691/jjb.24.17
- 植田 義幸. 教育経営研究における統計的手法の留意点(1)検定における効果量とサンプルサイズについて. 四天王寺大学紀要. 2012, 54, p.481-490.
- 村井 潤一郎, 橋本 貴充. 統計的仮説検定を用いる心理学研究におけるサンプルサイズ設計. 心理学評論. 2018, 61(1), p.116-136, doi: 10.24602/sjpr.61.1_116
引用文献
- Neyman, J. & Pearson, E.S.. On the problem of the most efficient tests of statistical hypotheses. Philosophical Trasactions of Royal Society of London.Series A. 1933, 231, p.289-337, doi: 10.1098/rsta.1933.0009
- Tyler, R.W.. What Is Statistical Significance?. Educational Research Bulletin. 1931, 10(5), p.115-118, https://www.jstor.org/stable/1471747
- 山口 拓洋 著. サンプルサイズの設計 後悔先に立たず. 健康医療評価研究機構, 2010, p.73-74
脚注
- こうした問題点については、ネイマン・ピアソン
が統計的仮説検定の原型を定式化する以前から既に指摘されており、例えばTyler は、1931年に最近の研究で散見される傾向として、結果の解釈において統計的に有意であること statistical significance を社会的に意義があることsocial significance と等価とすることがある。しかしながら、この2つは本質的に異なるもので、決して混同すべきではない。
と述べています。 - 近年、行政統計が公開されるようになってきており、都道府県や市町村といった単位では対象のすべてについてのデータが得られることもあります。このとき、全数調査の結果を形式的に検定することには無意味がありません。統計的検定や統計的推論は「標本調査によって全体について推論する」際に用いる手法なので、全数調査の場合、結果を直接比較するだけで問題ありません。
- この点、
という検定を考えれば、 より直接的に、効果量が 以上であることを示せますが、このような複合仮説の場合、特に「対立仮説が正しい場合」を考えにくくなるため、本編で紹介したように、単純仮説のもとで検出力を定義します。 - この例の場合、5%より小さい差、たとえば3%の差を統計学的有意差として検出できないということではありません。その場合は有意差を検出する確率は80%より小さくなるだけで、依然として一定の確率で統計的有意差として検出されます。
関連記事
- データの記述
- 標本分布
- 統計的推定
- 統計的仮説検定
- 仮説検定とP値
- 同等性・非劣性試験
- 有意水準・検出力・臨床的有意差の関係
- 母平均の差(対応なし)に関する優越性試験のサンプルサイズ設計の公式
- 母平均の差(対応あり)に関する優越性試験のサンプルサイズ設計の公式
- 発症リスク差に関する優越性試験のサンプルサイズ設計の公式
- マクネマー検定に関する優越性試験のサンプルサイズ設計の公式
- 発症リスク比に関する優越性試験のサンプルサイズ設計の公式
- 発症オッズ比に関する優越性試験のサンプルサイズ設計の公式
- 平均発生率の差に関する優越性試験のサンプルサイズ設計の公式
- 生存時間の差に関する優越性試験のサンプルサイズ設計の公式
- 信頼区間の幅に対するサンプルサイズ設計の公式
- 同等性・非劣性試験におけるサンプルサイズ設計
- 母平均の差に関する非劣性試験のサンプルサイズ設計の公式
- 発症リスク差に関する非劣性試験のサンプルサイズ設計の公式
0 件のコメント:
コメントを投稿