医学・疫学研究では、ある母集団のパラメータの値について推測することがあり、これを統計的推定といいます。本稿では、統計的推定に関連する、点推定や区間推定などの概念を紹介し、特に、信頼区間の意味や求め方について詳しく解説しています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
統計的推定
医学・疫学研究では、何らかの母集団に関するある命題(リサーチ・クエスチョン)について、標本調査の結果から母集団全体について推測し、何らかの結論を出すことを目的としています。例えば、ある国における「男性の平均身長と女性の平均身長」について考えるとします。このとき、男性と女性の身長をそれぞれ100人ずつ測り、その平均値を求めることで、「男性の平均身長は170.6 cm、女性の平均身長は157.8 cmだと思われる」というように、「母平均の値」について検討する考え方があります。
実際には、平均だけでなく、分散、相関係数、有病率・発生割合、発生率、リスク比、リスク差、オッズ比など母集団に関するさまざまなパラメータが関心の対象となり、標本調査の結果から、その値に関する推測がなされます。このとき、パラメータの値を推測するために、標本から求める予定の統計量を推定量 estimator、データをとった後に実際に得られた値を推定値 estimated value と呼び、標本から母集団のパラメータの値について推測することを一般に、統計的推定 statistical estimation、または単に、推定 estimation といいます。
この、統計的推定には、点推定と区間推定の2種類の方法があります。
点推定
点推定 point estimation とは、その名の通り、推定値を「点」、すなわち「1つの値」として示すことです。例えば、先ほどの例のように、標本平均の値から「男性の平均身長は170.6 cm、女性の平均身長は157.8 cm」を推定値とするのがこの点推定にあたります。
今の例では、単純に標本平均の値をそのまま母平均の推定値と考えました。この考え方は、最も直感的に分かりやすく、シンプルな方法ですが、多くの場合、理論的にも、最も妥当な考え方とされています。
区間推定
しかし私たちは、標本値には「偶然誤差によるばらつき」がつきものであることを経験的にも知っています。同様に、まだ身長を測っていない別の男女を100人ずつ測れば、先ほどとは違う標本平均が求まるでしょう。実際にあと2回、男女の平均身長を測ったところ、次のようになったとします$^\mathrm{(1)}$。
男性 | 女性 | 平均身長の差 | |
---|---|---|---|
第1グループ | $170.6$ | $157.8$ | $12.8$ |
第2グループ | $171.2$ | $158.0$ | $13.2$ |
第3グループ | $170.2$ | $158.5$ | $11.7$ |
このとき、例えば「平均身長の差」を取り上げると、点推定の候補となる値が3つ出てきてしまい、どれが正しいのかは誰にも分かりません。ただ、「グループ間の差は12.8 cm、13.2 cm、11.7 cmだったので、おそらくすべての対象者(この場合、ある国のすべての男女)から得たデータでの差、すなわち「真の差」はおおよそのところ12-13 cmだろう」と推測することができます。
このように、ある程度の幅をもった値、すなわち「区間」として推定値を示すこと区間推定 interval estimation といいます。
信頼区間:点推定の精度の評価
しかし現実では、このように同じ研究を3回も繰り返すことはなく、普通は1回しかデータ収集はしません。したがって、1回のみの研究から得られたグループ間の差から「真の差」が推測する必要があります。このとき、1回の研究から得られたグループ間の差から、点推定の値が1つだけ得られますが、それをもって「真の差」の値をバッチリ的中させるのはさすがに不可能ということでした。
しかし、一定の仮定の下で標本分布に関する理論を使うと、その点推定の精度(あるいは信憑性や信頼度)を評価することができます。
例えば、ある薬の効果(有効な人の割合)を知りたいと思って標本調査をしたとき、①「10人を調べた結果、6人に効果があったため、約60%の人に効果があると推定されます」という場合と②「1万人を調べた結果、6000人に効果があったため、約60%の人に効果があると推定されます」という場合、どちらの方が真の値をより良く推定していると思うでしょうか?おそらく「②の方が、精度が高く、より信憑性が高い結果だ」と思われる方が多いでしょう。
「何故そう思えるのですか?」と問われれば、おそらく多くの方は、「『10人を調べた結果、6人に効果があった』というのはたまたまそうなることもあるだろうけど、『1万人を調べた結果、6000人に効果があった』というのは、たまたまそうなるとは考えにくい、となんとなく(直感的に)思えるから」と答えるのではないでしょうか。この直感を理論的に表現してくれるのが、「信頼区間」と呼ばれる概念です。
信頼区間 confidence interval とは、推定値に関する統計学的精度の程度を意味するもので、点推定値周囲の範囲を指します。信頼区間は任意に設定された信頼水準 confidence level によって規定されます。信頼水準は0~100%のどの値にも設定できますが、95%や90%に設定されるのが一般的で、例えば「95%信頼区間」のように表現します。信頼区間は、一定の幅をもつ区間として表され、信頼区間の幅が広いほど精度が低いことを表し、幅が狭いほど精度が高いことを示します。
また、信頼区間の上下の端点のことを信頼限界 confidence limit といい、上側の端点のことを上側信頼限界 upper confidence limit、下側の端点のことを下側信頼限界 lower confidence limit と呼びます。
例えば、①「10人を調べた結果、6人に効果があった」場合、有効割合の点推定値と95%信頼区間は \begin{gather} \hat{\pi}=0.6\\ 95\%\ \mathrm{C.I.}:0.296\ \mathrm{to}\ 0.904 \end{gather} ②「1万人を調べた結果、6000人に効果があった」場合、有効割合の点推定値と95%信頼区間は \begin{gather} \hat{\pi}=0.6\\ 95\%\ \mathrm{C.I.}:0.590\ \mathrm{to}\ 0.610 \end{gather} となります。
これらの結果は、非常にざっくりといえば、同じ調査を何度も繰り返したとき、「①の場合、$29.6\\%$ から $90.4\\%$ の間の値が観測される可能性が高く、②の場合、$59.0\\%$ から $61.0\\%$ の間の値が観測される可能性が高い」ということを意味しています。これをいいかえれば、「②の場合は、いつでもだいたい同じような値が出てくるけど、①の場合はばらつきが大きく、たまたま観察された1回の結果に確信がもちにくい」ということになります。これが「信頼区間の幅が精度の高さを表す」の意味です。
信頼区間の意味
一般的に、信頼区間は「真の有効割合が区間 $ \left[0.590,0.610\right]$ の中に入っている確率が $95\\%$ である」ということを意味していると解釈されますが、厳密には、この解釈は正しくありません。それは、真の有効割合は私たちとっては未知であっても既に決まって存在している値なので、確率という概念にそぐわないからです。確率は、「結果が定まっていない状況において、ある事象が観測される頻度」という側面があるため、「未知であっても、結果が既に決まっている」場合、確率という概念に属しません。
では何が確率なのかといえば、それは私たちのデータの方です。仮に無数の研究者が同じような研究を行った場合、研究の数だけ信頼区間は存在します。例えば、真の有効割合が $\hat{\pi}=0.60$ と固定されていても、100人に対する $n$ 回目の調査では、推定値と信頼区間は $\hat{\pi}=0.55, \left[0.452,0.648\right]$ となり、$n+1$ 回目の調査では、$\hat{\pi}=0.62, \left[0.525,0.715\right]$ となることもあり、研究の数だけ信頼区間が出てきます。
そのような無数に存在し得る信頼区間のうち「真の値を含んでいるものが $95\\%$(100個のうち95個くらい)くらいはある」というのが信頼区間の厳密な意味なのです。
信頼限界の意味
信頼区間の上下の端点のことを「信頼限界」といいました。「限界」という言葉が使われていますが、これは、「真の値は、それ以上(または以下)の値を取ることはない」ということを意味しているわけではありません。そうではなく、あくまでも「今回と同様の観測を無限に繰り返したとき、観測された信頼区間が真の値を含んでいる確率が $95\%$ である」ということを意味しており、観測された信頼区間が真の値を含まず、真の値が信頼区間外の値であることも $5\%$ の確率で起こり得ます。
信頼区間の幅に影響を与える要素
信頼区間の幅は、その定義式から①標準誤差と②信頼水準に影響を受けます。このうち、②信頼水準は、研究者が任意に決める値であり、信頼水準を高くすると、信頼区間の幅は広がり、低くすると幅は狭まります。
①標準誤差は、(1)サンプルサイズと(2)母集団の分散に影響を受けます。すなわち、サンプルサイズが大きいほど標準誤差が小さくなり、信頼区間の幅は狭くなります。
また、母集団の分散が大きいほど、標準誤差は大きくなり、信頼区間の幅は広がます。
ただ、母集団の分散は研究者側で制御できるものではないため、できるだけサンプルサイズを大きくすることが推定精度の向上につながります。
信頼区間を導出する一般式
医学・疫学研究では、平均、分散、相関係数、有病率・発生割合、発生率、リスク比、リスク差、オッズ比など母集団に関するさまざまなパラメータが関心の対象となります。これらのパラメータ $\theta$ に対する $100 \left(1-\alpha\right)\%$ 信頼区間(上下の信頼限界)は、一般的に次の式によって求めることができます。 \begin{gather} 100 \left(1-\alpha\right)\%\ \mathrm{C.I.}= \left[\theta_L,\theta_U\right]\\ \theta_L=\bar{\theta}-\mathrm{S.E.} \left(\bar{\theta}\right) \cdot C \quad \theta_U=\bar{\theta}+\mathrm{S.E.} \left(\bar{\theta}\right) \cdot C \end{gather} $\bar{\theta}$:点推定の値、$\mathrm{S.E.} \left(\bar{\theta}\right)$:推定値の標準誤差、$C$:関心のあるパラメータに応じた定数、$\alpha$:信頼水準、$\theta_L$:下側信頼限界、$\theta_U$:上側信頼限界
この中で、定数 $C$ は、関心のあるパラメータによって異なります。より詳細には、その推定量が従う(と想定する)標本分布によって異なり、標準化された死亡率に関するポアソン分布、中央値に関する二項分布などがありますが、平均や有病率・発生割合、リスク比、リスク差、オッズ比など多くの場合、正規分布に従うとする統計モデルを考えます。
推定量が正規分布に従うとする場合、$C=Z_{0.5\alpha}$ となり、 \begin{gather} 100 \left(1-\alpha\right)\%\ \mathrm{C.I.}= \left[\theta_L,\theta_U\right]\\ \theta_L=\bar{\theta}-\mathrm{S.E.} \left(\bar{\theta}\right) \cdot Z_{0.5\alpha} \quad \theta_U=\bar{\theta}+\mathrm{S.E.} \left(\bar{\theta}\right) \cdot Z_{0.5\alpha} \end{gather} $Z_\alpha$:標準正規分布の上側 $100\alpha\%$ 点 となります。
なお、正規分布に従うとする一般公式は、一定の条件(母集団が正規分布に従い、母分散が既知の場合など)以外、中心極限定理や他の分布の正規近似などの漸近的性質にもとづいた近似式であり、厳密には、サンプルサイズが十分に大きいときにのみ妥当性が保たれます。サンプルサイズが小さいときに厳密に推定を行いたい場合、いわゆる「正確な方法 exact method」を用いて計算可能です。
また、リスク差に関しては、標本のリスク差をそのまま推定値として上の一般公式を使うことができますが、リスク比、発生率比、オッズ比などの「比」の場合は、対数変換を行った推定値に対し、公式を適用します。これはデータ数が少ないまたは中程度数の場合、比の測定値が大きい値に向かって非対称に歪んだ分布をとるからであり、歪みに対処するために、慣例的に信頼限界を対数尺度に置きます。
信頼区間の公式集
最後に、単純な医学・疫学研究データにおける信頼区間の公式を紹介します。なお、ここでいう「単純なデータ」とは、交絡のない研究の粗データを指し、層別解析を行わない調整なし周辺解析をする場合を言います。関連記事のリンク先で、それぞれの場合における信頼区間の公式を導出過程も含めてご覧いただくことができます。
参考文献
- ダグラス・アルトマン 著, 木船 義久, 佐久間 昭 訳. 医学研究における実用統計学. サイエンティスト社, 1999, p.131-151
- マーティン・ガードナー, ダグラス・アルトマン 著, 舟喜 光一, 折笠 秀樹 共訳. 信頼性の統計学:信頼区間および統計ガイドライン. サイエンティスト社, 2001, p.1-22
- 浅井 隆 著. いまさら誰にも聞けない医学統計の基礎のキソ 1. アトムス, 2010, p.3-8, p.41-58
- ケネス・ロスマン 著, 矢野 栄二, 橋本 英樹, 大脇 和浩 監訳. ロスマンの疫学:科学的思考への誘い 第2版. 篠原出版新社, 2013, p.209-228, p.229-243
- スティーブン・ハリー, スティーブン・カミングス ほか 著, 木原 雅子, 木原 正博 訳. 医学的研究のデザイン:研究の質を高める疫学的アプローチ 第4版. メディカル・サイエンス・インターナショナル, 2014, p.50-63
- 新谷 歩 著. 今日から使える医療統計. 医学書院, 2015, p.1-19
- 中村 好一 著. 基礎から学ぶ楽しい疫学 第4版. 医学書院, 2020, p.166-174
引用文献
- 浅井 隆 著. いまさら誰にも聞けない医学統計の基礎のキソ 1. アトムス, 2010, p.3-8, p.44-45
0 件のコメント:
コメントを投稿