サンプルサイズの設計

公開日: 更新日:

【2022年11月5週】 【A000】生物統計学 【A070】統計的推論 【A074】サンプルサイズの設計

この記事をシェアする
  • B!
サムネイル画像

近年、P値をめぐる議論の一環として学術界ではサンプルサイズの設計に対する関心が高まっています。本稿では、サンプルサイズが適切でない場合の問題点について解説し、検出力による方法と信頼区間にもとづく方法の2種類のサンプルサイズ設計法などについて解説しています。

なお、閲覧にあたっては、以下の点にご注意ください。

  • スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
  • 漸近的な性質を用いる際は、①中心極限定理が成り立つ、②漸近分散を推定する際に、母数をその一致推定量で置き換えることができるということが成り立つと仮定しています。

サンプルサイズをめぐる近年の状況

近年、医学や疫学の分野では、CONSORT声明やSTROBE声明に代表されるように、様々な臨床研究や疫学研究の質保証のためのガイドラインが提示されてきています。こうしたガイドラインにおいて共通して必ず挙げられている項目のひとつに「サンプルサイズの設計(決定方法)」があります。影響力の大きいガイドラインで要求されていることもあるため、「サンプルサイズの設計」を行うことは、実験を実施し、その成果を雑誌に投稿するうえで必ず踏まなければならない手順となっています。

標本調査におけるサンプルサイズとは、すなわち「採取するデータの個数」のことであり、医学・疫学や心理学など、人を対象とする研究においては「被験者数」といいかえることができます。「サンプルサイズの設計」とは文字通り、研究を行う前に、どれくらいの人数のデータを集めるか=サンプルサイズを計画しなければならないということであり、「そこをクリアしなければ論文が通らない」というのであればそれに従うほかありません。ただ、「なぜ、サンプルサイズの設計をしなければならないのか」という点を考えると「実験に伴う侵襲性は、可能な限り低くしなければならない」とか「実験参加にあたっては、必ず被験者の同意を取らなければならない」といったことと比べて、その理由がすぐには分からないように感じられます。

結論を先取りしてしまえば、「現在確立されている統計的仮説検定の枠組みでは、サンプルサイズが適切でないと問題が生じる場合がある」というのがその理由になるのですが、この点を理解するために、まず、統計的仮説検定の仕組みについておさらいしたいと思います。

統計的仮説検定の手順

現在、定着している統計的仮説検定は、おおまかに以下の手順で進められます。
①帰無仮説と対立仮説を設定する
②検定統計量の種類とその分布を決める
③有意水準と棄却域を決める
④得られたデータから検定統計量の値を算出する
⑤検定統計量が棄却域に入るか否かを確認することで、統計的有意性を判断する

例えば、2群の平均値の差を検定する場合、帰無仮説として「集団Aと集団Bの母平均 $\theta_A,\theta_B$ の間には差がない」、対立仮説として、「集団Aと集団Bの母平均 $\theta_A,\theta_B$ の間には差がある」、すなわち、 \begin{gather} H_0:\theta_A=\theta_B \quad H_1:\theta_A \neq \theta_B \end{gather} を設定し、 検定統計量の値を算出し、その値が帰無仮説のもとで得られる確率 $\mathrm{P}$ を求め、有意水準と比較します。ここでポイントとなるのは、帰無仮説が棄却されるか否かは、検定統計量の大きさによって決まるという点で、この点にサンプルサイズの設計が必要となる理由の核心があります。

検定統計量・効果量・サンプルサイズの関係

『仮説検定とP値を巡る近年の科学界:何が問題か?』の記事でも紹介したように、一般に検定統計量は以下のように、「サンプルサイズの関数」と「効果量の関数」の積の形で表すことができるという構造をしています。 \begin{gather} T=\ f \left(N\right)\times g \left(\mathrm{E.S.}\right) \end{gather}

統計的仮説検定では一般に、検定統計量が大きくなればなるほど、$\mathrm{P}$値は小さくなり、帰無仮説が棄却されやすくなります。このこととさきほどのことから、次の2つのことが言えます。
(1)標本サイズが同じならば、効果量が大きくなればなるほど検定統計量の値は大きくなり、したがってp値は小さくなる。
(2)効果量が同じならば、標本サイズが大きくなればなるほど検定統計量の値は大きくなり、したがってp値は小さくなる。

このような検定統計量の性質が、①サンプルサイズが大きすぎる場合と②サンプルサイズが小さすぎる場合に問題を生み出す原因となってくるのです。

大きすぎるサンプルサイズの問題点:無意味な差を「統計的有意差」として検出してしまう

「サンプルはどれくらい集めればいいのか」と問われたとき、「多ければ多いほど良い」、「集められる限り集める」と答えることは決して間違ってはいません。ただ、統計的仮説検定の仕組みを考えたとき、ひとつ注意しなければならない点があります。

それは、サンプルサイズが大きすぎると、実質的には無意味な差であっても、「統計的有意差」として検出してしまうという点です。例えば、ある地域で新型の感染症が広まっているとします。この感染症は命に別状はなく、風邪のような症状が続くだけで、しばらくすれば完治します。この感染症の罹患状況を調べた結果、以下のようになったとします。

表1 ある地域における感染症の罹患状況
発症あり 発症なし 合計
A市 $30$ $99970$ $10000$
B市 $15$ $99985$ $10000$
合計 $45$ $19955$ $20000$

リスク差 \begin{gather} \mathrm{\widehat{RD}}=\frac{30}{10000}-\frac{15}{10000}=0.0015 \end{gather} 母比率の差の両側検定 \begin{gather} \mathrm{P}=0.025 \end{gather} リスク比 \begin{gather} \mathrm{\widehat{RR}}=\frac{30 \cdot 10000}{15 \cdot 10000}=2.0 \end{gather}

今、両側 $\mathrm{P}$値が $0.025$ と有意水準を下回っているため、帰無仮説は棄却され、「両者の罹患状況には差がある」ということになりそうです。ここで、A市の担当者がこの結果とリスク比 $\mathrm{\widehat{RR}}=2.0$ を持ち出して「A市の方が事態は2倍深刻であり、それはほぼ確実なようだから、対策のための費用をB市の2倍にしてほしい」と言ってきたらどうするでしょうか?おそらく、たいていの人は「いやーそれはちょっと…」ということになるのではないでしょうか。

たしかにA市とB市の感染状況には差があるようです。ただその差の程度は $0.0015$、つまり、$0.15\%$ しかありません。その感染症に罹患してしまった人たちにとっては大変なことではあり、今後の予防策を講じることはたしかに意義のあることではありますが、このレベルの差をもって、「対策費用を2倍にする」という優先措置を正当化するのは難しいでしょう。地域同士の公平な比較という観点においては、$0.15\%$ という差は「実質的には差があるとは言えない程度の差」ということになってしまうのです。

これが「実質的には無意味な差であっても、『統計的有意差』として検出してしまう」ということの意味であり、サンプルサイズを増やし続ければ、いつかは「統計的有意差」を出すことができてしまうという点が問題になるわけです$^\mathrm{(i,ii)}$。

小さすぎるサンプルサイズの問題点:有益な差を「統計的有意差」として検出できない

サンプルサイズが小さすぎる場合の問題点は、社会的に有益な差を、「統計的有意差」として検出できないことがあるという点にあります。例えば、ある新型の感染症が発生したとします。この感染症は、感染してから1ヶ月経つまで持ちこたえられればその後は助かりますが、そうでなければ1ヶ月以内に死んでしまう非常に恐ろしいものです。この感染症に対し、ある企業が開発した薬について評価したところ、以下のようになったとします。

表2 ある感染症罹患者の1ヶ月後の状況
生存 死亡 合計
投与群 $11$ $19$ $30$
非投与群 $5$ $25$ $30$
合計 $16$ $44$ $60$

リスク差 \begin{gather} \mathrm{\widehat{RD}}=\frac{11}{30}-\frac{5}{30}=0.200 \end{gather} 母比率の差の両側検定 \begin{gather} \mathrm{P}=0.072 \end{gather} リスク比 \begin{gather} \mathrm{\widehat{RR}}=\frac{11 \cdot 30}{5 \cdot 30}=2.2 \end{gather}

調査の結果、両側 $\mathrm{P}$値が $0.072$ と有意水準を上回っているため、帰無仮説は棄却されず、「両者の罹患状況には差があるとはいえない」ということになりそうです。この結果、この新薬は承認されず、人々はただ周りの人が感染症に蝕まれていくのを、指をくわえて見ながら、新たな救世主が来るのをひたすら待たなければならなくなってしまいました。

ただ、この話についてもう少し冷静に考えてみましょう。もしこの標本調査の結果が真実の姿を完全に反映しているのだとすれば、リスク比が $\mathrm{\widehat{RR}}=2.2$ であることから、薬を投与すれば助かる確率が2倍になることが分かります。また、リスク差も $\mathrm{\widehat{RD}}=0.200$ であり、仮にこの薬を全員に投与すれば、感染者全体のうちの生存者の割合を20%引き上げることができます。人々の生死がかかっている状況においては、この差は有意義だと言えるのではないでしょうか。

第2種の過誤と検出力

ここで考えなければならないのは、帰無仮説を棄却せず「統計的有意差なし」とした判断が「第2種の過誤」である可能性です。第2種の誤りとは、「帰無仮説が正しくない場合に、帰無仮説を棄却しない事象」のことであり、第2種の過誤の余事象、すなわち、「帰無仮説が正しくない場合に、帰無仮説を棄却する事象」が発生する確率を検出力といいました。

統計的仮説検定の枠組みでは、通常、「帰無仮説を棄却するかしないか」に関心が集まり、「帰無仮説が正しい際に、誤って帰無仮説を棄却する事象」である第1種の過誤を許容範囲内に収めるべく、有意水準 $\alpha$ が定められます。この文脈の中では、第2種の過誤や検出力という概念は登場することがなく、忘れ去られた存在になってしまっています。

しかし、ネイマン・ピアソンが統計的仮説検定の理論を構築した際の基本的なコンセプトは、「第1種の過誤を有意水準以内に収めたうえで、最も検出力の高い検定方法を構築する(最強力検定とする)」というものでした。この意味で、本来、検出力についても関心を抱かなければならないのですが、多くの場面で使える「一様最強力検定」が整備されているがゆえに、検出力についてあまり考えなくてもよい状況となり、それゆえにどうしても有意水準と $\mathrm{P}$値の方に関心が行きがちです。

それではこの例の場合、仮に全数調査をした場合でも今回得られた標本と同じ結果になるとしたとき、それを「統計的有意差」として検出できる確率(検出力)はどれくらいだったのでしょうか。これについては、後に紹介するような方法で計算することができます。ここでは結果のみを見てみると、 \begin{gather} 1-\beta=0.42=42\% \end{gather} となります。 つまり、同じ調査を100回行ったとき、42回は「統計的有意差あり」と判定して、薬が承認されますが、逆に58回は今回のように、「統計的有意差なし」と判定して、せっかくの有望な薬をみすみす見逃してしまうということになります。このように、一定の条件下で検出力について検証することを検出力分析 power analysis検定力分析 と呼びます。

今回の場合、$\mathrm{P}=0.072$ と有意にはならなかったものの、「惜しい」ところまで行っている点や先に見た検定統計量・効果量・サンプルサイズの関係から考えると、効果量の大きさは十分に大きかったけれど、サンプルサイズが小さかったゆえに、統計的有意差を認めるまで検定統計量の値が大きくなれなかったという可能性が考えられます。

サンプルサイズを設計する理由:研究の科学性・経済性・倫理性を高める

これら2つの例から分かることをまとめると、①サンプルサイズが大きいことは良いことではあるが、「統計的有意差」が確認されたとしてもそれが「社会的に有益な差」であるとは限らない、②サンプルサイズが小さすぎると、せっかく「社会的に有益な差」があったとしても、それを見逃してしまう確率が高くなってしまう、ということになります。そしてこれらの点は、研究の科学性、経済性、倫理性を考えたとき、研究の「価値」を損ねる原因となってしまいます。

冒頭でも述べたように、人を対象とする研究分野では「サンプルサイズ=実験に協力する人の数」と言えます。特に医学研究においては、新しい治療法の有効性を検証する目的で、無作為化比較試験などの臨床試験が行われますが、試験に参加することには、「思わぬ副作用に苦しむリスク」や「そこまで効果的でない治療法に時間を費やしてしまうかもしれないリスク」などさまざまなリスクがあります。そうしたリスクがある中で、患者はいわば「ボランティア」として参加しています。そうした患者の「善意」がなければそもそも研究が成り立たないのです。

また、研究を実施するためには、研究実施者や関係者の時間、労力、そして金銭的なコストなど、さまざまな資源を必要とします。人も時間も予算も無限に使うことができればそれが理想ですが、現実にはどれも有限であるため、資源の有効活用が求められます。

こうした倫理性や経済性を鑑みたときに求められるのが、「費用対効果の最大化」や「研究を実施した意味」といったものです。

例えば、サンプルサイズが大きすぎた場合を考えてみましょう。この場合、基本的にどんな微々たる差でも「統計的有意差」として検出することができますが、それが「社会的には無意味な差」であれば、「それが分かっても、患者の利益(生存率など)につながらない」という意味で「失敗」となってしまい、投入した諸々の資源がすべて「無駄」ということになってしまいます。

また、それが「社会的には有益な差」だった場合、「実はその差を示すためにはそこまで多くのサンプルは必要なかった」というパターンがほとんどであり、「本来投入しなくてもいい資源まで消費した」という意味で、やはりある程度の「無駄」が生じてしまいます。

科学研究では、常に「統計的有意差」を発見できるわけでありませんが、「発見できなかった原因」を特定できれば、その先の意思決定に役立つことがあります。先に見たように、検定統計量が統計的有意差を検出できない原因には、おおまかに、①サンプルサイズは十分だったけど、効果量が小さかった、②効果量は十分大きかったけど、サンプルサイズが足りなかった、の2種類が考えられます。

この点、検定統計量や$\mathrm{P}$値は、両者の影響を統合して1つの値を算出しているため、それらの値を見ても、どちらの影響なのかが判別できないという問題点があります。しかし、検定統計量を構成する要素のうち、効果量はサンプルサイズに影響されることがない値であるため、効果量を見てみると、原因がどちらであったのかを推測することができる場合があります。

例えば、効果量を確認してみた結果、「そこまで画期的と言えるほどのものではなかった」ということが分かれば、その治療法の開発を中止して別の方法の検討に切り替えることができますし、「どうやら意味のある差はあるようだけど、単にサンプルサイズが足りなかった」となれば、「治療法の開発を続行してもよさそうだ」という判断なり、意思決定をすることができます。

人のすることである以上、初めから「正解」にたどり着けることは皆無で、試行錯誤を繰り返す必要があります。その中で「あまり有望でない道」を進んでしまうことは必ずありますが、その道の有望性を検証し、早い段階で軌道修正することができれば、浪費される資源は最小限で済み、「やみくもに進んでいたらもっと酷くなっていた『無駄』を最小限にできた」というのであれば、その判断をするために費やした諸々のコストや資源は「無意味」ということにはなりません。

以上に述べてきたような理由から、現在、サンプルサイズの設計が必要とされています。

サンプルサイズの設計方法の種類

ここまでは「サンプルサイズの設計が必要な理由」について述べてきましたが、ここからはサンプルサイズの設計方法について述べたいと思います。

サンプルサイズの設計方法には、①検出力にもとづく方法と②信頼区間にもとづく方法の2種類があります。これらの違いは、前者が「仮説検定」を行う場合、後者が「推定」を行う場合に対応しているという点にあります。近年では、「検定よりも推定を重視すべき」という流れになりつつありますが、科学研究ではまだまだ「仮説検定」が主流であるため、①検出力にもとづく方法の方がよく用いられます。

検出力にもとづく方法

臨床的有意差の導入

サンプルサイズを設計せずに検定を行う場合、①無意味な差の検出、②有益な差の見逃し、という点に問題がありました。ここから、これらの問題点を解決することは、「無意味な差」と「有益な差」を区別し、「有益な差」がある場合にはそれを高い確率で検出できるようにすることといいかえることができます。

これらの点に共通しているのは、「社会的な有意差」と「統計的有意差」の間にズレが生じているということです。したがって、このズレを解消することが必要になるわけですが、このズレを解消するために用いられるのが、「臨床的有意差」、あるいは「生物学的有意差」と呼ばれる概念です。

臨床的有意差 clinical significance、あるいは、生物学的有意差 biological significance とは、平均値の差や疾病発生のリスク差・リスク比などの評価指標に関し、母数の差や比がこれ以上(または以下)であれば、臨床的に意味(意義)があると判断できる最小の差のことを指し、よく $\Delta$ で表されます。

臨床的有意差の決定主体

臨床的有意差は、統計学的に決まるものではなく、研究の当事者となる専門家の判断によって決まります。例えば、同じ5%の差であっても、先の例のように「影響が致命的ではない感染症の予防に関する予算配分」という文脈では、「5%の差は臨床的有意差ではない」と判断されるかもしれませんし、逆に「影響が致命的な感染症に対する新薬の効果」という文脈では、「5%でも生存割合を増やせるのであれば、意義がある」となるかもしれません。この点については、それぞれの研究の趣旨や目的によって、合理的な臨床的有意差のラインは異なり、一概には決められないため、当事者や利害関係者の議論の中で決めるのが望ましいとされています。

臨床的有意差の決め方

臨床的有意差の決め方には、①「これくらいの差があってほしい」という希望論にもとづく考え方と②「差があるとしたらこれくらいだろう」という現実論にもとづく考え方の2種類があります。これらをおおまかに言うと、例えばある病気に対する新薬の開発という文脈であれば、①は「価格は既存薬と同じくらいで、既存薬の治療成績は15%(が完治する)。もともとの治療の難しさを考えると、これが20%であれば市場を奪える」ということであり、②は、「とはいっても、現実的には17~18%くらいが関の山かな」ということです。

これら2つの考え方のうち、どちらの考え方にもとづいて臨床的有意差の閾値を決めるのかということについても、基本的には研究実施者の判断で選択することになります。

検証する仮説の定式化

それでは、臨床的有意差を統計的仮説検定の枠組みに組み込み、定式化してみましょう。ここでは、実験群(A)と対照群(B)を比較する実験(試験)を考えます。それぞれの効果を表す結果変数(連続値データや発症割合など)の母数を $\theta_A,\theta_B$ とすると、実験群の対照群に対する(標準化していない)効果量 $\delta$ の指標には、一般的に以下の3つが考えられます(ただし、オッズ比は $\theta$ が割合の場合にのみ定義されます)。
(1)差 \begin{gather} \delta_D=\theta_A-\theta_B \end{gather} (2)比 \begin{gather} \delta_R=\frac{\theta_A}{\theta_B} \end{gather} (3)オッズ比 \begin{gather} \delta_{OR}=\frac{\theta_A \left(1-\theta_B\right)}{\theta_B \left(1-\theta_A\right)} \end{gather}

ここで、臨床的有意差を $\Delta$(差の場合は $\Delta \gt 0$、比・オッズ比の場合は $\Delta \gt 1$)とするとき、サンプルサイズ設計の理論では、 \begin{gather} \delta=\Delta \end{gather} という関係式を考え、 \begin{gather} H_0:\delta=0 \quad H_1:\delta=\Delta \end{gather} という帰無仮説と対立仮説を考えます$^\mathrm{(iii)}$。

これは、「効果量が $0$ である」という帰無仮説が棄却されたときに、「効果量がちょうど $\Delta$ である」という対立仮説が示されたことにするということを意味します。これはつまり、実験群が $∆$ だけ優れているという仮説を考えることになります。このような考え方にもとづく仮説検定を優越性検定 superiority test、優越性検定を実施する実験(試験)を優越性試験 superiority trial と呼びます。

このように考えることによって、「統計的有意差」と「臨床的有意差」の間のズレが解消され、「帰無仮説が棄却されること」と「優越性が示されること」との整合性が確保されます。

漸近正規性にもとづくサンプルサイズ設計の基本公式

医学・疫学の分野における曝露効果の指標には、連続値データの平均の差やリスク差、リスク比、オッズ比などがあり、これらを検定統計量として各種の検定が行われます。そして、これらの検定統計量(リスク比とオッズ比は対数変換した値)は、漸近的に正規分布に従うことが想定できる場合がよくあります。このように、検定統計量が正規分布に従うと仮定できる場合、先ほどの仮説を片側検定で検出するためのサンプルサイズは、次の公式で求めることができます。 \begin{align} n= \left(\frac{Z_\alpha \cdot \phi_0-Z_{1-\beta} \cdot \phi_1}{\Delta}\right)^2 \end{align} なお、この公式において、
$\alpha$:有意水準
$1-\beta$:検出力
$\phi_0$:帰無仮説における母効果量の標準偏差
$\phi_1$:対立仮説における母効果量の標準偏差
$\Delta$:臨床的有意差
$Z_\alpha$:標準正規分布の上側 $100\alpha\\%$ 点
$n$:各群のサンプルサイズ
実験群 $n_1$ と対照群 $n_2$ のサンプルサイズは等しいこと $n_1=n_2=n$ を想定する。
両側検定の場合は、$\alpha\rightarrow\frac{\alpha}{2}=0.5\alpha$ と置き換える。

漸近正規性にもとづく検出力分析の基本公式

また、逆にサンプルサイズが固定されているとき、以下の公式によって、検出力分析を行うことができます。 \begin{align} Z_{1-\beta}=\frac{Z_\alpha \cdot \phi_0- \left|\Delta\right|\sqrt n}{\phi_1} \end{align}

例題

例えば、ある感染症の有病率が高いことが疑われる地域Aを有病率が低いと考えられる地域Bと比較するために、両方の地域について調査する研究を考えます$^\mathrm{(3)}$。地域Bの有病率を $\pi_2=0.1=10\\%$ と想定し、臨床的有意差として、地域Aの有病率を $\pi_1=0.15=15\\%$ と見積もりました$^\mathrm{(iv)}$。このとき、検出すべき差は、$\Delta=0.15-0.10=0.05$ であり、漸近的に、帰無仮説と対立仮説における、母比率の差の標準偏差は \begin{gather} \phi_0=\sqrt{2 \cdot 0.125 \left(1-0.125\right)}\cong0.468\\ \phi_1=\sqrt{0.1 \left(1-0.1\right)+0.15 \left(1-0.15\right)}\cong0.466 \end{gather} 有意水準を両側 $\alpha=0.05$、検出力を $1-\beta=0.80$ に設定すると、必要なサンプルサイズ(両側検定)は、 \begin{align} n= \left(\frac{1.960 \cdot 0.468+0.842 \cdot 0.466}{0.05}\right)^2\cong686 \end{align} となります。

また、サンプルサイズが各群 $n=300$ のとき、臨床的有意差がある場合の検出力は、 \begin{gather} Z_{1-\beta}=\frac{1.960 \cdot 0.468- \left|0.05\right|\sqrt{300}}{0.466}=0.11\\ \leftrightarrow1-\beta=0.46 \end{gather} となります。

信頼区間にもとづく方法

先ほど紹介した検出力にもとづく方法は、検定による統計的推論を行う場合、具体的には、薬剤の優越性を示すことを目的とする臨床試験など、主に「検証的研究」で用いられる方法です。

ただ、科学研究はいわゆる「実験(検証的研究)」だけで構成されているわけではなく、例えば「ある地域における疾病Aの有病率を把握すること」を目的とした記述的研究や検証すべき仮説を探すための「探索的研究」が実施されることもあります。この場合、有病率や治療効果がどれくらいの値かという推定を目的としています。この、信頼区間に基づくサンプルサイズ設計は、正確度分析 precision analysis, precision for planning と呼ばれることもあります。

任意の研究について、各群のサンプルサイズを \begin{gather} n_1=n_0=N \end{gather} とし、 効果量の指標の推定量が(漸近的な場合も含めて)正規分布 \begin{align} \hat{\delta} \sim \mathrm{N} \left(\mu,\frac{\phi^2}{N}\right) \end{align} に従うとき、 $100 \left(1-\alpha\right)\\%$ 信頼区間の幅が $E$ となるために必要なサンプルサイズは、 \begin{align} N= \left(\frac{2Z_{0.5\alpha} \cdot \phi}{E}\right)^2 \end{align} で求めることができます。

サンプルサイズの設計に関するその他の注意点

脱落

サンプルサイズを計算する場合、サンプリングされた人がすべて最終的な統計学的計算に含まれることが前提となっており、追跡不能や脱落が発生するとその分だけサンプルサイズが小さくなり、検出力が低下してしまいます。したがって、脱落が発生することが想定される場合、その影響を加味してサンプルサイズを設計しなければなりません。例えば、全被験者のうち20%が脱落するのであれば、サンプルサイズは $\frac{1}{1-0.2}=1.25$、つまり算出された値の1.25倍を集めるつもりでいなければなりません。

サンプルサイズが固定されている場合の対応策

研究を行う際、コホート研究や臨床試験のように前向きにデータを取るだけでなく、ケース・コントロール研究などのように既存のデータを活用することもあります。このような場合、サンプルサイズが既に固定されているため、サンプルサイズの設計を行うことができず、コホート研究などでの場合における「目標とする検出力」が得られるかどうかは分かりません。このような場合、検出力分析を行い、目標とする検出力で検出することのできる効果量の大きさを確認したり、逆に、あるのであれば検出したい効果量の大きさを検出できる確率はどれくらいかを計算したりすることができます。

不均等サンプル比の使用

検出力は、全体のサンプルサイズが同じであれば、各群の人数が同じ場合に最大となるため、サンプルサイズの設計公式はほとんどのケースで $n_1:n_2=1:1$ を想定して計算されます。しかし、各群の人数をいつも等しくできるかどうかは分からず、一方のグループの対象者の方が他方のグループの対象者よりも集めやすい場合、募集に要する経費が少なくて済む場合があります。たとえば、コホート研究でコホートの喫煙者:非喫煙者の割合が $3:7$ であるときに、それぞれの群に必要なサンプルサイズを見積もる場合や、ケース・コントロール研究で「患者(ケース)の数は少ないけど、コントロールはたくさん集められる」といった場合です。このような場合を不均等サンプル比と呼び、サンプルサイズの設計公式には、不均等サンプル比の場合に対応したものが整備されています。

サンプルサイズの設計手順のまとめ

最後に検出力にもとづくサンプルサイズの設計手順についてまとめると以下のようになります。
①測定する変数と観測結果から母集団における効果の大きさを測る指標を決める
②観測変数の統計的分布と統計的推測のための統計的モデルを定める
③統計的仮説を定め数式で表現する
④有意水準と検出力または信頼係数と信頼幅など、目的の達成を表す統計的基準を定める
⑤計算に用いる効果の大きさとその変動の大きさを定める
⑥サンプルサイズを計算する

参考文献

  • 永田 靖 著. サンプルサイズの決め方. 朝倉書店, 2003, 228p.
  • 山口 拓洋 著. サンプルサイズの設計 後悔先に立たず. 健康医療評価研究機構, 2010, 119p.
  • 大久保 街亜, 岡田 謙介 著. 伝えるための心理統計:効果量・信頼区間・検定力. 勁草書房, 2012, 215p.
  • スティーブン・ハリー, スティーブン・カミングス ほか 著, 木原 雅子, 木原 正博 訳. 医学的研究のデザイン:研究の質を高める疫学的アプローチ. 第4版, メディカル・サイエンス・インターナショナル, 2014, p.64-95
  • ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.89-96
  • 丹後 俊郎, 松井 茂之 編集. 医学統計学ハンドブック 新版. 朝倉書店, 2018, p.346-349, p371-372
  • 浜田 知久馬 著. 学会・論文発表のための統計学:統計パッケージを誤用しないために. 真興交易医書出版部, 2012, p.88-89, p.94-106
  • 新谷 歩 著. 今日から使える医療統計. 医学書院, 2015, p.63-78
  • 上板 浩之. 臨床試験における被験者数設計の視点と方法. 計量生物学. 2003, 24(1), p.17-41, doi: 10.5691/jjb.24.17
  • 植田 義幸. 教育経営研究における統計的手法の留意点(1)検定における効果量とサンプルサイズについて. 四天王寺大学紀要. 2012, 54, p.481-490.
  • 村井 潤一郎, 橋本 貴充. 統計的仮説検定を用いる心理学研究におけるサンプルサイズ設計. 心理学評論. 2018, 61(1), p.116-136, doi: 10.24602/sjpr.61.1_116

引用文献

  1. Neyman, J. & Pearson, E.S.. On the problem of the most efficient tests of statistical hypotheses. Philosophical Trasactions of Royal Society of London.Series A. 1933, 231, p.289-337, doi: 10.1098/rsta.1933.0009
  2. Tyler, R.W.. What Is Statistical Significance?. Educational Research Bulletin. 1931, 10(5), p.115-118, https://www.jstor.org/stable/1471747
  3. 山口 拓洋 著. サンプルサイズの設計 後悔先に立たず. 健康医療評価研究機構, 2010, p.73-74

脚注

  1. こうした問題点については、ネイマン・ピアソン$^\mathrm{(1)}$が統計的仮説検定の原型を定式化する以前から既に指摘されており、例えばTyler$^\mathrm{(2)}$ は、1931年に
    最近の研究で散見される傾向として、結果の解釈において統計的に有意であること statistical significance を社会的に意義があることsocial significance と等価とすることがある。しかしながら、この2つは本質的に異なるもので、決して混同すべきではない。
    と述べています。
  2. 近年、行政統計が公開されるようになってきており、都道府県や市町村といった単位では対象のすべてについてのデータが得られることもあります。このとき、全数調査の結果を形式的に検定することには無意味がありません。統計的検定や統計的推論は「標本調査によって全体について推論する」際に用いる手法なので、全数調査の場合、結果を直接比較するだけで問題ありません。
  3. この点、 \begin{gather} H_0:\delta \lt \Delta \quad H_1:\delta \geq \Delta \end{gather} という検定を考えれば、 より直接的に、効果量が $\Delta$ 以上であることを示せますが、このような複合仮説の場合、特に「対立仮説が正しい場合」を考えにくくなるため、本編で紹介したように、単純仮説のもとで検出力を定義します。
  4. この例の場合、5%より小さい差、たとえば3%の差を統計学的有意差として検出できないということではありません。その場合は有意差を検出する確率は80%より小さくなるだけで、依然として一定の確率で統計的有意差として検出されます。

関連記事

自己紹介

自分の写真

yama

大学時代に読書の面白さに気づいて以来、読書や勉強を通じて、興味をもったことや新しいことを学ぶことが生きる原動力。そんな人間が、その時々に学んだことを備忘録兼人生の軌跡として記録しているブログです。

このブログを検索

ブログ アーカイブ

QooQ