医学研究における生存時間データは、新薬と標準薬の生存時間の違いなどを比較する文脈で扱われることがほとんどです。この目的のためには、生存関数の比較が必要となりますが、そのための代表的な手法にログランク検定や一般化ウィルコクソン検定などの手法があります。本稿では、そうした手法の解説をしています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 特に断りがない限り、打ち切りは、「情報のない右側打ち切り」のことを指します。
目次[非表示]
生存時間データの比較
医学研究では、生存時間データは、例えば「あるがんに対する新薬と標準薬の生存時間の違い」など、生存時間を比較する文脈で採取されることがよくあります。そうした場合、標準的には、まずカプラン・マイヤー法などによって生存関数の推定を行い、生存曲線の形状や、各時点の累積生存率、生存時間中央値などを確認します。それでは、生存時間の定量的な比較はどのように行えばよいのでしょうか。
生存時間データの比較法:打ち切りがない場合
まず、最も理想的な「打ち切りがない場合」には、生存時間の平均、中央値、標準偏差、さまざまなパーセント点における推定値や信頼区間などの記述統制量が利用可能なため、そうした統計量による比較が可能です。最も単純な比較方法としては、例えば介入群と非介入群の「平均生存時間の差」の信頼区間の算出や検定を行うことができます。
用いる手法としては、一般的に生存時間の分布は不明であり、歪みがあることが多いので、母集団分布に正規分布を仮定するZ検定やt検定などの手法よりも、ノンパラメトリックなウィルコクソンの順位和検定を用いることになります。
生存時間データの比較法:打ち切りがある場合
ただ、実際は打ち切りデータが含まれる場合がほとんどなので、一般的には平均生存時間などの統計量を算出することができず、単純な指標の群間比較を行うことができません。そのため、別の方法で比較を行う必要があります。
打ち切りがある場合の最も単純な比較方法は、ある時点での累積生存率の比較です。例えば、がん研究においては、5年生存率などの指標がよく用いられます。この考え方では、まず、カプラン・マイヤー法などによって、各群の生存関数を推定し、グリーンウッドの公式などで各時点における生存関数の標準誤差を算出します。そして、任意の時点
こうした累積生存率の差の検定などは、基本的な統計手法をそのまま適用できるため、比較的簡単に実行することができ、結果の解釈も比較的簡単です。ただ、これはあくまでも1点における比較なので、例えば下図のように、比較する時点ではあまり差がないけど、それ以降には差がありそうな場合、その違いを検出できなくなってしまいます。

1点のみで比較するのがダメなので、複数の時点(例えば、1年、2年、3年、5年など)での比較をするという方法が思いつきますが、このやり方には検定の多重性の問題が生じ、有意水準を事前に設定した水準に保てなくなるので、不適切な方法とされています。また、例えば、「いくつかの時点で曲線が有意に異なり、他の時点では有意でない」という場合、その解釈が難しくなります。こうしたことがあるので、生存曲線を一度に、全体的に比較する方法が必要となります。
生存曲線の差の検定
検定の手順
生存曲線を全体的に比較する方法には、ログランク検定や一般化ウィルコクソン検定などの検定があります。これらの手法は、独立性の
検定仮説
すなわち、層別解析の文脈におけるマンテル・ヘンツェル検定が、
分割表の形式
具体的な手順としては、一般的に全部で
介入群 | 非介入群 | 合計 | |
---|---|---|---|
発生数 | |||
非発生数 | |||
リスク集合の 大きさ |
各群の期待イベント数とスコア
そして、時点
群間でハザードに差がないという帰無仮説のもとでは、
スコアの分散
各群の総スコアを評価するためには、一般的な統計的推論の場合と同様、帰無仮説の下でのスコアの分散が必要になります。群間で打ち切りパターンに差がなければ、
検定統計量
計数過程の理論
こうした生存関数の均一性に関する検定は、イベント発生までの時間そのものは使わず、生存時間の順位情報のみを使用します。こうした特徴があるため、後に見るように、ノンパラメトリック検定であるウィルコクソン検定を一般化したものともとらえることができます。
ログランク検定
ログランク検定 log-rank test は、各時点の重みを
重みのつけ方としては、早い時点で発生したイベントと、遅い時期に発生したイベントを同等に扱うということになりますが、一般的に、リスク集合の大きさ(サンプルサイズ)が小さくなる研究後半では、発生イベント数の分散が大きくなるため、実質的には後半で発生したイベントに大きな重みがつきます。そのため、結果として、時間の経過とともに群間差が大きくなる場合には、ログランク検定の検出力が高くなります(有意差がつきやすくなる)。
一般化ウィルコクソン検定
一般化ウィルコクソン検定 generalized Wilcoxon test は、Gehan-Breslowによって提唱された手法です。歴史的には、Gehan(1965)
これら2つの考え方に対し、Tarone and Ware(1977)
検定の例
では実際に、以下のデータ
|
|
|
|
|
|
|
|
---|---|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
続いて、イベント発生時点ごとに、分割表を作り、期待イベント数やスコア、スコアの分散を算出していきます。例えば、時点
介入群 | 非介入群 | 合計 | |
---|---|---|---|
発生数 | |||
非発生数 | |||
リスク集合の 大きさ |
また、打ち切りがある時点
介入群 | 非介入群 | 合計 | |
---|---|---|---|
発生数 | |||
非発生数 | |||
リスク集合の 大きさ |
こうした作業をすべてのイベント発生時点で行うと、以下のように整理することができます。なお、
|
|
|
|
|
|
|
|
|
---|---|---|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
このデータでの検定結果は、どちらの方法でも有意水準5%で有意差なし、すなわち、「介入群と非介入群の生存関数は異なっているとは言えない」という結果になりました。ただ、この結果は、サンプルサイズの小ささに起因するところが大きく、漸近性の仮定が成り立たないと思われることから、有意性は参考程度のものとなります。
その他の検定法
Peto-Peto流のログランク検定
ログランク検定は、分散の計算が少し複雑です。そこで手計算でも計算できるように、簡便化したのが、Peto-Peto流のログランク検定
この方法では、
Peto-Prentice 流の一般化ウィルコクソン検定
Peto-Peto(1972)
重みを全時点で1としたログランク検定は、サンプルサイズが小さくなる後半の分散が大きくなるため、後半のデータに大きな重みがつき、重みをその時点のリスク集合全体の大きさとした一般化ウィルコクソン検定は、早期のイベントの影響が大きくなります。これは、特に打ち切りが非常に多く、ある時点のリスク集合の大きさが小さくなってしまう場合に、少数の時点の検定統計量に対する寄与が極端に高くなってしまうという問題の原因となってしまうため、そうした問題に対する改善策として考案されました。
注意事項
生存関数の違いの検定では、これまでに示したように死亡までの時間の順位情報のみを用いて、死亡時点ごとに分割表を作ります。1番最初に死亡すれば、1日目であろうが、1年目であろうが、同じ扱いをします。この意味で、生存時間に関する情報を完全に使っているわけではなく、情報のロスがあります。
一般化ウィルコクソン検定とログランク検定の違いは、重みの付け方の違いからも明らかなように、一般化ウィルコクソン検定が相対的に試験の初期に起きた死亡を重く評価するのに対し、ログランク検定は後期に起きた死亡を重く評価します。ただし、一般化ウィルコクソン検定とログランク検定のいずれも、どちらかの群で生存関数が一様に高いという対立仮説を想定しているため、生存関数が交差するような場面での検出力は低くなることに注意が必要です。

ハザード比の信頼区間
一般的な統計的推論の方法と同様、生存曲線の差についても、検定に対応した、定量的な信頼区間を算出することができます。ただ、生存曲線の差については、全体を通しての生存関数(累積生存率)ではなく、全体を通してのハザード
ハザード比を計算することで、「リスク因子があるとイベント発生確率が単位時間あたり何倍になるのか」あるいは「予防対策を行うとイベント発生を単位時間当たり何分の1に減らせるのか」といった具体的な効果を推定し、表現することができます。入院期間や特定の医療器具の使用期間など、時間の影響を受けるイペントの発生頻度を要因の有無で比較評価する場合、時間的な影響(曝露の程度)を調整できるこの視標を用いることで、バイアスの混入を回避して評価することができます。
生存関数の均一性の検定に対応したハザード比は、群
参考文献
- 大橋 靖雄, 浜田 知久馬 著. 生存時間解析:SASによる生物統計. 東京大学出版会, 1995, p.35-50
- 前谷 俊三 著. 臨床生存分析:生存データと予後因子の解析. 南江堂, 1996, p.38-51
- ダグラス・アルトマン 著, 木船 義久, 佐久間 昭 訳. 医学研究における実用統計学. サイエンティスト社, 1999, p.297-300, p.304-306
- デーヴィッド・マシューズ, ヴァーノン・フェアウェル 著, 宮原 英夫, 折笠 秀樹 監訳, 小田 英世, 手良向 聡, 森田 智視 訳. 実践医学統計学. 朝倉書店, 2005, p.69-76
- 中村 剛 著. Cox比例ハザードモデル. 朝倉書店, 2001, p.16-21
- 浜田 知久馬 著. 学会・論文発表のための統計学:統計パッケージを誤用しないために. 真興交易医書出版部, 2012, p.222-231
- デビッド・ホスマー, スタンリー・レメショウ, スーザン・メイ 著, 五所 正彦 監訳. 生存時間解析入門. 東京大学出版会, 2014, p.47-62
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.469-475, p.481-489
- Clark, T.G., Bradburn, M.J., Love, S.B. et al.. Survival analysis part I: basic concepts and first analyses. Br J Cancer. 2003, 89(2), p.232-238, doi: 10.1038/sj.bjc.6601118
- 藤田 烈. 疫学・統計解析シリーズ:生存時間解析結果を読み解くための基礎知識. 日本環境感染学会誌. 2014, 29(5), p.313-323, doi: 10.4058/jsei.29.313
引用文献
- Fleming, T.R. & Harrington, D.P.. Counting Processes and Survival Analysis. Wiley & Sons, Inc., 2005, 454p.
- Andersen, P.K., Borgan, Ørnulf, Gill, R.D. et al.. Statistical Models Based on Counting Processes. Springer Verlag, 1993, 784p.
- Mantel, N. Evaluation of survival data and two new rank order statistics arising in its consideration. Cancer Chemother Rep. 1966, 50(3), p.163-170.
- Peto, R. & Peto, J.. Asymptotically efficient rank invariant test procedure. Journal of the Royal Statistical Society. 1972, Series A135, p.185-207, doi: 10.2307/2344317
- Gehan, E.A.. A generalized Wilcoxon test for comparing arbitrarily singly-censored samples. Biometrika. 1965, 52, p.203-223, doi: 10.2307/2333825
- Breslow, N.E.. A Generalized Kruskal-Wallis Test for Comparing K Samples Subject to Unequal Patterns of Censorship. Biometrika. 1970, 57(3), p.579-594, doi: 10.1093/biomet/57.3.579
- Tarone, R.E. & Ware, J.. On Distribution-Free Tests for Equality of Survival Distributions. Biometrika. 1977, 64(1), p.156-160, doi: 10.1093/biomet/64.1.156
- デビッド・ホスマー, スタンリー・レメショウ, スーザン・メイ 著, 五所 正彦 監訳. 生存時間解析入門. 東京大学出版会, 2014, p.53-54
- Peto, R., Pike,M.C., Armitage, P. et al.. Design and analysis of randomized clinical trials requiring prolonged observation of each patient. II. analysis and examples. British journal of cancer. 1977, 35(1), p.1-39, doi: 10.1038/bjc.1977.1
- Prentice, R.L.. Linear rank tests with right-censored data. Biometrika. 1978, 65, p.167-179, doi: 10.1093/biomet/65.1.167
- Simon, R. Confidence intervals for reporting results of clinical trials. Academia and Clinic. 1986, 105(3), p.429-435, doi: 10.7326/0003-4819-105-3-429
0 件のコメント:
コメントを投稿