生存時間データの分析は、生存関数の推定によって始まります。本稿では、生存関数のパラメトリックモデルを概観した後、ノンパラメトリックな推定方法、特に、カプラン・マイヤー法による推定方法の進め方やグリーンウッドの公式、ネルソン・アーレン推定量などについて解説しています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 特に断りがない限り、打ち切りは、「情報のない右側打ち切り」のことを指します。
目次[非表示]
生存時間データの記述法
他の医学・疫学研究と同様、生存時間データを取り終わり、解析段階に入ったときにまずするべきことは、いわゆる「データの記述」です。しかし、生存時間データには、「打ち切りデータがある場合、平均や分散を求めることができない」という特徴があるため、そうした指標の算出は飛ばして、代わりに、生存関数を推定することによって、時間の経過とともに、累積生存率がどのように推移していくのかを把握することが分析の第1歩となります。
生存関数の推定方法
生存関数の推定方法には、大きく分けて、パラメトリックな方法とノンパラメトリックな方法の2種類があります。
パラメトリックな方法とは、生存時間の分布が特定の分布に従うと仮定し、その特定の分布のパラメータを推定するという方法です。この方法は、過去の研究から生存時間に対して特定の分布を想定できる場合に用いられる方法で、①パラメータの値を推定できれば生存率曲線が完全に再現できる、②通常は、実際の観察期間内のことしか分からないが、分布のモデル式が明らかになっていれば、最長観察期間を越えた先のことまで予測できるなどの利点があります。具体的には、指数分布モデル、ワイブル分布モデル、加速死亡時間モデルなどのモデルがあります。
これに対し、ノンパラメトリックな方法とは、生存時間の分布が特定の分布に従うと仮定せず、各時点の累積生存率をデータから直接的に推定するという方法で、生存時間の分布について参照できる情報がない場合に用いられます。具体的には、カプラン・マイヤー法や生命表法などの手法があります。
これら2種類の方法のうち、パラメトリックな方法によって推定できるのが理想ではありますが、実際には、特定のモデルを想定できる場合は少なく、特に仮定を必要としないノンパラメトリックな方法を用いるのが一般的とされ、医学研究では、特にカプラン・マイヤー法が生存時間分析の標準的な解析方法として定着しています。そのため本稿では、次節でパラメトリックな方法の概要を見た後、カプラン・マイヤー法について詳しく解説していきます。
生存関数のパラメトリックモデル
指数分布モデル
指数分布モデル exponential distribution model は、生存時間が指数分布に従うと仮定するモデルです。パラメータは、スケール・パラメータ
指数分布モデルの特徴は、ハザード関数が時間に依らない定数
実際的な意味としては、経過時間にかかわらず、イベントが偶発的に起こるということを表していて、信頼性工学の言葉ではこの型の故障を偶発故障型と呼びます。
ハザード曲線は定数なので、経過時間の軸と平行な直線となります。経過時間によってイベントの起こりやすさが変わらないので、イベントの絶対数は最初のうちが最も多く、後ほど少なくなります。このため、死亡密度関数は、最初が最も高く、時間とともに尻下がりになります(単調減少な関数)。生存率曲線もこれを反映し、最初に最も急な勾配で下降します。
指数分布モデルはいつイベントが発生しても不思議がないような相当進行した患者や重症例には当てはまりますが、すぐにはイベントが起こらない早期癌や軽症例には当てはまりにくくなります。
ワイブル分布モデル
ワイブル分布モデル Weibull distribution model は、生存時間がワイブル分布に従うと仮定するモデルであり、応用上最もよく用いられる生存時間分布です。パラメータは、スケール・パラメータ
この分布はハザード関数が時間
ノンパラメトリックな生存関数の推定
ノンパラメトリックな生存関数の推定方法には、大きく分けて2 種類の方法があります。1つは、古典的な生命表法 life table method、または生命保険数理法 actuarial method と呼ばれる推定方法、もう1つは、カプラン・マイヤー法 Kaplan-Meier method です。
生命保険数理法は、手計算で生存関数が推定できる簡便な方法ですが、同時に推定の精度が低く、ざっくりとした方法である点に難があります。以前は、計算の煩雑さが問題となっていましたが、近年はコンピューターが普及し、計算の手間が問題とならなくなったため、より推定精度の高いカプラン・マイヤー法が標準的な解析方法として定着しています。
連続的な生存時間を考えることのできるパラメトリックな方法とは異なり、ノンパラメトリックな方法は、いずれも生存時間を離散型確率変数として扱い、特定の時点における生存関数をピンポイントに推定する方法です。
カプラン・マイヤー法
記号の定義
では、カプラン・マイヤー法
研究期間が終了したら、まずは、観察時間の算出と並び替えを行います。実験研究のように、開始時間がすべての観察対象で同じである場合は分かりやすいですが、臨床研究において、登録時期がバラバラである場合は、例えば、Excel上で「観察終了日」から「観察開始日」を引くことによって、観察開始時点を0として観察できた生存時間を算出します。
一般的には、例えば被験者番号を
すなわち、
また、カプラン・マイヤー法においては、各時点でのリスク集合の大きさを考える必要があります。リスク集合の大きさ population at risk とは、他の研究分野で用いられるのと同様、新たにイベントの発生が観察される可能性がある個体の数を意味します。この記法においては、
このときデータは、以下のように書けます。
時点
| イベント数
| 打ち切り数
| リスク集合
|
---|---|---|---|
カプラン・マイヤー法に必要な仮定
カプラン・マイヤー法を用いる際には、いくつかの仮定が必要となります。
1つ目の仮定は、先にスタートした人もあとにスタートした人も同じイベント発現パターンを示すことです。先述のように、実際の観察においては観察開始日が異なりますが、そうしたカレンダー上の時点ではなく、あくまでも観察開始からの経過時間に応じて、イベントが発生する必要があるということです。
2つ目の仮定は、打ち切りが情報のない打ち切りであることです。これはすなわち、「観察が打ち切られた対象者は、その後観察が続けられていれば、打ち切られずに観察された対象者と同じ確率でイベントが発生する」という仮定です。この仮定にもとづき、打ち切り例は打ち切りが発生した時点以降は解析から除外して、生存にも死亡(イベント発生)にもカウントしないという手続きとります。
カプラン・マイヤー推定量
結論を先に述べると、
ここで、カプラン・マイヤー推定量の意味を考えてみましょう。
条件付き確率としての累積生存率
カプラン・マイヤー推定量は条件付き確率の積として表されますが、このことは、次のようにイメージすることができると思います。例えば、人々の生死を意のままに操れる超越的な存在がいて、観測対象としている人々のイベント発生のタイミングは、実はその存在によって決められているとしましょう。その存在は、あらかじめ研究期間中のイベント発生の総数とタイミングを決めていて、予定していたタイミングが訪れる度に、各人の名前が記されたくじを非復元抽出で引き、そこに名前が書かれていた人にイベントを発生させます。
打ち切りがない場合
例えば、以下のように
時点
| イベント数
| 当選者番号
| 生存者数
|
---|---|---|---|
このとき、巻き込まれたあなたが1日目の危機を乗り越えられる確率と見事「当選」してしまう確率は、それぞれ
続いて、2日目の危機を乗り越えたいところですが、そのためには、まず1日目の試練を乗り越えることが最低条件となります。したがって、2日目の生存・死亡確率はそれぞれ、
打ち切りがある場合
打ち切りがある場合も、ほぼ同様に考えることができます。この場合、全部で
先ほどと同様に、
時点
| イベント数
| 当選者番号
| リスク集合
|
---|---|---|---|
このとき、あなたが2日目に生き残っている確率は、先ほどと同様に
続いて、3日目
このことから、4日目
以下、同様に考えていくと、生存関数と生存曲線は以下のようにまとめることができます。
時点
| リスク集合
| 死亡数
| 死亡率
| 生存率
| 累積生存率
| 打ち切り数
|
---|---|---|---|---|---|---|

このように、カプラン・マイヤー法によって推定された生存曲線をカプラン・マイヤー曲線 Kaplan-Meier curveと呼び、打ち切りが発生した時点にしるしをつけることがあります。カプラン・マイヤー曲線は、上に示したように、打ち切りが発生した時点では変化せず、イベントが発生する度に垂直に降下する階段型のグラフとなります。基本的なルールとして、次のイベントが発生するまでは累積生存率は一定という仮定があるため、打ち切りには影響を受けず、各時点の累積生存率を単純につなぐ折れ線型グラフとしては描きません。
カプラン・マイヤー曲線は経過時間に比例して、段差の大きさが大きくなっていきます。これは、観察が終了される度にリスク集合が小さくなり、実際に追跡を継続している対象者1人あたりの重みが増し、1人のイベント発生が大きく扱われるためです。
カプラン・マイヤー推定量は、打ち切り例が存在するため、狭義での累積生存率、すなわち「全体のうち、ある時点
離散型変数のハザード
本節はやや数学的な話になりますが、カプラン・マイヤー推定量の数学的な背景についての話をします。カプラン・マイヤー推定量は、時点
生存時間が連続型確率変数である場合、死亡率は、時点
この点、カプラン・マイヤーでは、「時点
カプラン・マイヤー法の長所
カプラン・マイヤー法は、パラメトリックな方法と違って、生存時間の分布に特定の分布を仮定しないので、いつでもある程度の妥当性をもって実施できるという長所があります。
また、①生命保険数理法よりも観察された生存時間が正確であるため、推定の精度が高い、②集団生存曲線と生存期間中央値のような本質的な統計量を素早く算出できる、③対象者数が多数例の場合のみならず少数例の場合においても生存率を求められる、④治療方法・介入方法の違いによる予後の差(観察期間全体にわたる差)が検討できる、⑤対象者の全経過情報が生かされるなどの点も、長所とされています。
カプラン・マイヤー推定量の分散と信頼区間
グリーンウッドの公式
カプラン・マイヤー推定量は、正確には点推定量ですが、ほかの推定量と同様、標準誤差を用いて、信頼区間を算出することができます。カプラン・マイヤー推定量の標準誤差はいろいろな方法で計算できますが、次のグリーンウッド Greenwood による式
特に、観察打切り例が全くない場合は、
計数過程やマルチンゲール理論により、カプラン・マイヤー推定量
一般的には、観察時間の経過にともない、リスク集合が小さくなっていくため、徐々に推定精度が下がっていき、信頼区間の幅が広くなっていきますが、打ち切りがない場合は、分母が観察開始時点のリスク集合で一定なため、推定精度は、経時的に常に悪化するというわけではありません。
補対数対数変換にもとづく分散
しかし、グリーンウッドの公式による方法は、①信頼区間の下限が0を下回る、もしくは、上限が1を上回る、ということが生じやすい、②サンプルサイズが小規模から中規模の場合には、この方法を使用する際の暗黙の前提である正規性が成り立たない、などの問題点があります。
これらの問題を解決するために、カプラン・マイヤー推定量の補対数対数変換 Complementary Log-Log transformation にもとづく方法
この方法で求めた信頼区間は、生存関数が大きいまたは小さい値のときに非対称となります。生存時間中央値
なお、補対数対数変換のほかに、二重対数変換
生存時間中央値・パーセント点
定義と求め方
カプラン・マイヤー曲線を描くと、その集団の生存関数の推移を視覚的に把握することができますが、2つの集団を比較する際などには、何らかの要約指標を用いる場合があります。生存時間分析でよく用いられる指標は、生存時間中央値です。生存時間中央値は、全体のうち、生存者と死亡者の割合がちょうど50%ずつになる時点のことですが、カプラン・マイヤー曲線から生存時間中央値を推定することができます。
カプラン・マイヤー法による生存時間中央値は、

これを拡張し、一般に累積生存率が
なお、カプラン・マイヤー曲線の終点が
分散と信頼区間
パーセント点の信頼区間は、パーセント点の推定量が漸近的に正規分布に従うことを利用して求めることができます。その推定量が不偏推定量であるとの仮定の下、分散の推定量
生命保険数理法
生命保険数理法は、観察期間を年あるいは月単位で区切って、区間内での死亡や打ち切りの数、区間当初の被験者数から曲線を描く(区間の幅は任意でよい)方法です。生存関数の推定法としては最も古く、古典的な方法とされており、調査・検査が一定の間隔で実施されるため、イベントの発生時点が正確には分からない(区間打ち切りがある)場合によく用いられます。例えば、何万から何十万という膨大な観察対象者を扱う行政や生命保険会社などでは、現在も生命表法が主要な方法として用いられています。
結論だけを述べると、ある区間
生命保険数理法は、原理的にはカプラン・マイヤー法と変わらず、リスク集合の大きさの計算において、打ち切りの半数を組み込まない点が異なるだけです。このとき、
生命保険数理法の生存曲線は、カプラン・マイヤー法と異なり、各時点の累積生存率を直接つないだ折れ線型曲線になります。例えば、以下のようになります。
区間番号 | 区間 | 当初 生存数 | 打ち切り数 | 有効サンプル サイズ | 死亡数 | 死亡率 | 生存率 | 累積 生存率 |
---|---|---|---|---|---|---|---|---|

ネルソン・アーレン推定量
ネルソン・アーレン推定量の定義
カプラン・マイヤー法は、最も頻繁に用いられる推定方法ですが、理論的に重要な他の方法にネルソン・アーレン法 Nelson-Aalen method という方法もあります。ネルソン・アーレン法
離散型ハザードは、確率なので、0から1の値を取り、
このとき、時点
累積ハザード関数
カプラン・マイヤー推定量とネルソン・アーレン推定量の関係
カプラン・マイヤー推定量とネルソン・アーレン推定量は、それぞれ
ここで、
参考文献
- 大橋 靖雄, 浜田 知久馬 著. 生存時間解析:SASによる生物統計. 東京大学出版会, 1995, p.1-21
- 前谷 俊三 著. 臨床生存分析:生存データと予後因子の解析. 南江堂, 1996, p.11-25
- ダグラス・アルトマン 著, 木船 義久, 佐久間 昭 訳. 医学研究における実用統計学. サイエンティスト社, 1999, p.297-300, p.304-306
- 中村 剛 著. Cox比例ハザードモデル. 朝倉書店, 2001, p.11-16
- 浜田 知久馬 著. 学会・論文発表のための統計学:統計パッケージを誤用しないために. 真興交易医書出版部, 2012, p.218-222
- デビッド・ホスマー, スタンリー・レメショウ, スーザン・メイ 著, 五所 正彦 監訳. 生存時間解析入門. 東京大学出版会, 2014, p.17-47
- 西川 正子 著. カプラン・マイヤー法:生存時間解析の基本手法. 共立出版, 2019, p.14-53
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.464-469
- Clark, T.G., Bradburn, M.J., Love, S.B. et al.. Survival analysis part I: basic concepts and first analyses. Br J Cancer. 2003, 89(2), p.232-238, doi: 10.1038/sj.bjc.6601118
- 藤田 烈. 疫学・統計解析シリーズ:生存時間解析結果を読み解くための基礎知識. 日本環境感染学会誌. 2014, 29(5), p.313-323, doi: 10.4058/jsei.29.313
引用文献
- Kaplan, E.L. & Meier, P.. Nonparametric estimation from incomplete observations. Journal of the American Statistical Association. 1958, 53(282), p.457-481, doi: 10.1080/01621459.1958.10501452
- Greenwood, M.. The errors of sampling of the survivorship tables. Reports on Public Health and Medical Subjects. 1926, 33(Appendix 1), p.1-26.
- Fleming, T.R. & Harrington, D.P.. Counting Processes and Survival Analysis. Wiley & Sons, Inc., 2005, 454p.
- Andersen, P.K., Borgan, Ørnulf, Gill, R.D. et al.. Statistical Models Based on Counting Processes. Springer Verlag, 1993, 784p.
- Kalbfleisch, J.D. & Prentice, R.L.. The Statistical Analysis of Failure Time Data. 2nd Edition, John Wiley & Sons, Inc., 2002, 462p.
- デービット・コレット 著, 宮岡 悦良 監訳. 医薬統計のための生存時間データ解析. 共立出版, 2013, 422p.
- Aalen, O.. Nonparametric Inference for a Family of Counting Processes. The Annals of Statistics. 1978, 6(4), p.701-726, doi: 10.1214/aos/1176344247
- Nelson, W.. Hazard Plotting for Incomplete Failure Data. Journal of Quality Technology. 1969, 1(1), p.27-52, doi: 10.1080/00224065.1969.11980344
- Nelson, W.. Theory and Applications of Hazard Plotting for Censored Failure Data. Technometrics. 1972, 14(4), p.945-966, doi: 10.1080/00401706.1972.10488991
0 件のコメント:
コメントを投稿