医学研究では、予後予測や交絡因子の調整のために回帰分析が用いられることがありますが、生存時間データの場合、コックスの比例ハザードモデルという回帰モデルが使われます。本稿では、比例ハザードモデルの定義や比例ハザード性の意味や検証方法、回帰係数の推定法(部分尤度法)などについて解説しています。
なお、閲覧にあたっては、以下の点にご注意ください。
- スマートフォンやタブレット端末でご覧の際、数式が見切れている場合は、横にスクロールすることができます。
- 特に断りがない限り、打ち切りは、「情報のない右側打ち切り」のことを指します。
目次[非表示]
生存時間データに対する回帰分析
医学・疫学研究は、その成果を根拠として、さまざまな背景をもった個人ひとりひとりに対する最適な医療を提供することを最終的な目的としています。そうした医学・疫学研究の研究テーマのひとつとしての①予後予測、あるいは、②さまざまな共変量が疾病に対して単独で与える影響の評価(交絡因子の調整)などを目的として、重回帰分析やロジスティック回帰分析などの回帰分析が行われています。そうした背景を鑑みると、生存時間データに対しても、同様に予後予測や交絡因子の調整のために回帰モデルの構築ができそうな気がしますが、結論から言えば、生存時間データに対して回帰モデルを構築する場合、打ち切りデータの問題などがあるために、少々工夫した特別な方法が必要となります。
生存時間の予測
ではまず、生存時間の予測という文脈での回帰モデルについて考えましょう。本質的に生存時間
この回帰式を予測のために使うためには、実際に得られたデータから偏回帰係数を推定する必要があります。もしすべての被験者にイベントが起こるまで観察できたとき、つまり、打ち切りがない場合は、そのデータによって、推定を行うことができます。しかし、通常、生存時間データには、打ち切りがつきものなので、単純に重回帰分析の手法を適用することができません。打ち切りデータを除外して推定を行うこともできますが、データを捨てる分だけ研究の効率が低下しますし、バイアスがかかった結果が得られてしまう可能性もあるため、少し工夫したやり方が必要となります。
加速死亡時間モデル
そうした問題に対応した手法が、加速死亡時間モデル accelerated failure time model: AFT
ただ、加速死亡時間モデルは、生存時間が対数正規分布やワイブル分布、対数ロジスティック分布、一般化ガンマ分布などの分布に従っていることを仮定するため、その仮定が満たされていない条件下では妥当とは言えません。医学研究の文脈では、生存時間の分布は疾患によってさまざまで、一般的にはデータから母集団の分布を特定することができないため、分かりやすくて魅力的な方法ではありますが、汎用性に難がある方法とされています。
共変量の影響評価(交絡因子の調整)
生存時間分析を行う場合、カプラン・マイヤー法などによって生存関数を推定し、ログランク検定や一般化ウィルコクソン検定などの手法で検定を行うという流れが標準的な分析方法です。こうした方法では、例えば、あるがんに対する生存時間を調べる場合、新薬投与群と標準薬投与群の2群に分け、それぞれの生存曲線を描き、検定で生存曲線に差があるかどうかを調べます。これは、いいかえると、「新薬投与の有無」という1つの共変量の効果について検証しているので、本質的に単変量解析としての分析ということになります。
しかし、通常の単変量解析と同様、生存時間分析の場合も、ある因子の影響によって真実とは異なる結果が出てしまう、交絡の問題が発生することがあります。例えば、ある疾病に対する治療法Aと治療法Bによる生存時間の比較を行う際、治療法Aのカプラン・マイヤー曲線が終始上にあって、ログランク検定でも治療法Aの生存時間が有意にBよりも長いという結果が得られたら、治療法Aの方が優れていることになります。しかし例えば、治療法Bの対象者が高齢で重症な患者ばかりであったら、それは治療法Bが劣っているからなのか、それとも、そうした生存時間を縮める要因の影響が大きく出ていただけなのか、判断できません。この場合、治療法Aの優位性を立証するためには、そうした共変量の影響を取り除いたうえでもなお、治療法Aの生存時間が長いことを示さなければなりません。
そうした交絡因子の調整の方法には、通常の分割表の分析と同様、生存時間分析における層別解析の手法である層別ログランク検定と生存時間データに対する回帰分析の2種類の方法があります。回帰モデルの構築については、先に出た加速死亡時間モデルのパラメトリックなモデルを仮定することもできますが、そうした条件を緩めた方法が次で紹介するコックスの比例ハザードモデルです。
比例ハザードモデル
比例ハザードモデル proportlonal hazards model とは、Cox(1972)
この式にある
いっぽう、
このモデルは、ある個人のハザード関数が「経過時間に依存する部分(ベースライン・ハザード)」と「経過時間に依存しない部分」の積で表されています。このようなモデルを乗法モデル multiplicative model といい、共変量の影響がベースライン・ハザードに
比例ハザードモデルは、評価の対象としている指標が生存時間
比例ハザードモデルに必要な仮定:比例ハザード性
加速死亡時間モデルには、「生存時間が特定のパラメトリックな分布に従う」という仮定が必要でしたが、比例ハザードモデルにも1つだけ必要な仮定があります。それが、比例ハザード性の仮定です。
比例ハザード性の仮定 proportional hazard assumption とは、異なる共変量をもつ2人の個人間のハザード比が時点によらず一定であるという仮定のことです。例えば、AさんとBさんの共変量の値をそれぞれ、
この仮定は、それなりに強い仮定であり、現実のデータで比例ハザード性が成り立つかはその都度検証する必要がありますが、逆に言えば、それは検証可能なものとも言えます。比例ハザード性の仮定さえ満たされていれば、加速死亡時間モデルのような生存時間の分布に対する仮定が必要ないため、汎用性に優れた手法として現在、定着しています。
基準生存関数
比例ハザードモデルは、生存時間
この点、まず、比例ハザードモデルにハザード関数と累積ハザード関数の関係式を当てはめると、
続いて、生存関数と累積ハザード関数の関係式より、
時間依存性共変量
なお厳密には、共変量には、①時間によらない共変量と②時間依存性共変量の2 種類があります。時間によらない共変量とは、「性別」や「遺伝子型」のように、時間が経っても変わらない共変量のことです。
いっぽう、時間依存性共変量 time dependent covariate、または時変共変量 time-varying covariate とは、「病気の進行状況」や「タバコの喫煙本数」、「血圧値」など時間と共に値が変化する可能性がある共変量のことを指します。
共変量が時間依存性共変量の場合、共変量の影響も時間の関数となるため、その点を考慮した方法が必要となりますが、現在の主流となっている方法では、時間依存性共変量はモデルに含まれておらず、時間によらない共変量のみを扱っているため、本稿でもそうした最も単純な場合を想定して解説を進めます。
回帰係数の意味
ロジスティック回帰モデルの場合、回帰係数は「他の共変量がすべて等しい場合、ある共変量を1単位変化させたときの対数オッズ比」を意味していました。比例ハザードモデルにおいても、同様の意味となります。例えば、共変量
この関係は、ベースライン・ハザード
回帰係数の推定と検定
生存時間データの尤度関数
比例ハザードモデルにおける回帰係数の推定には、ロジスティック回帰モデルの場合と同様、最尤法が用いられます。そのため、まず尤度関数を求める必要があります。いま、
式
すなわち、興味のある未知のパラメータ
部分尤度法
未知のパラメータ
部分尤度法において、回帰係数を推定するための部分尤度は、タイデータがない(
回帰係数の信頼区間と検定
こうした部分尤度法にもとづいて推定された推定量は、先述の通り、他の最尤推定量と同様、漸近正規性や漸近有効性などの性質があるため、それらの性質を利用した信頼区間の算出や検定を行うことができます。
まず、信頼区間については、漸近的に
回帰係数の検定については、部分尤度比検定、ワルド検定、スコア検定などの方法がありますが、ワルド検定では、
対立仮説:共変量
部分尤度法の例
では、部分尤度の計算方法の例
時点 |
個体番号 |
イベント発生 |
---|---|---|
この例では3→4→1→2 の順で個体にイベントが発生しています。このようなイベントのパターンが得られる確率を考えてみる。
{時点
時点
比例ハザードモデルの下では、ハザード関数は、時間による効果を表す項
以下のような打ち切りがある場合は、次のようになります。打ち切りを受けた個体4 は、部分尤度の分母のみにしか寄与しません。
時点 |
個体番号 |
イベント発生 |
---|---|---|
比例ハザード性の検証方法
比例ハザード性は、コックス比例ハザードモデルの大前提であり、この仮定が成り立っていないと、モデルの妥当性が損なわれてしまいます。誤った判断をしないためには、得られたデータにもとづいて、比例ハザード性を個々の共変量ごとにその都度検証する必要があります。
これには、(1)カプラン・マイヤープロットの形状から判断する(交叉していたり、群間差が異常に広がったりしていたら比例ハザード性は疑わしい)、(2)カプラン・マイヤープロットから得られるMST比とハザード比が逆比例かを確認する(指数分布に近い場合、MST比とハザード比が逆比例していなければ比例ハザード性は疑わしい)、(3)補対数対数プロット log-log plots を利用して判断する、(4)時間
補対数対数プロットによるグラフ表現
補対数対数プロットでは、生存関数と累積ハザード関数の関係を使用します。式
簡単のため、共変量が1つの場合を考えます。例えば、薬物投与群を
このことを利用し、グラフから補対数対数曲線が平行かどうかを判断します。

参考文献
- 大橋 靖雄, 浜田 知久馬 著. 生存時間解析:SASによる生物統計. 東京大学出版会, 1995, p.105-114
- 前谷 俊三 著. 臨床生存分析:生存データと予後因子の解析. 南江堂, 1996, p.141-150
- ダグラス・アルトマン 著, 木船 義久, 佐久間 昭 訳. 医学研究における実用統計学. サイエンティスト社, 1999, p.312-316
- デーヴィッド・マシューズ, ヴァーノン・フェアウェル 著, 宮原 英夫, 折笠 秀樹 監訳, 小田 英世, 手良向 聡, 森田 智視 訳. 実践医学統計学. 朝倉書店, 2005, p.137-148
- 中村 剛 著. Cox比例ハザードモデル. 朝倉書店, 2001, p.33-44
- デビッド・ホスマー, スタンリー・レメショウ, スーザン・メイ 著, 五所 正彦 監訳. 生存時間解析入門. 東京大学出版会, 2014, p.71-90
- ジョン・ラチン 著, 宮岡 悦良 監訳, 遠藤 輝, 黒沢 健, 下川 朝有, 寒水 孝司 訳. 医薬データのための統計解析. 共立出版, 2020, p.490-494
- 赤澤 宏平. 生存時間データの解析. 医療情報学. 2001, 20(6), p.451-461, doi: 10.14948/jami.20.451
- 小柳 貴裕. 統計学 整形外科医が知っておきたい: (12)比例ハザード モデル:比例という名のハードル. 臨床整形外科. 2004, 39(10), p.1326-1332.
- Bradburn, M.J., Clark, T.G., Love, S.B. et al.. Survival analysis part II: multivariate data analysis-an introduction to concepts and methods. Br J Cancer. 2003, 89(3), p.431-436, doi: 10.1038/sj.bjc.6601119
- George, B., Seals, S. & Aban, I.. Survival analysis and regression models. J Nucl Cardiol. 2014, 21(4), p.686-694, doi: 10.1007/s12350-014-9908-2
- 藤田 烈. 疫学・統計解析シリーズ:生存時間解析結果を読み解くための基礎知識. 日本環境感染学会誌. 2014, 29(5), p.313-323, doi: 10.4058/jsei.29.313
引用文献
- Kleinbaum, D.G. & Klein, M.. Survival Analysis: A Self-Learning Text. Third Edition, Springer, 2011, 715p.
- デービット・コレット 著, 宮岡 悦良 監訳. 医薬統計のための生存時間データ解析. 共立出版, 2013, 422p.
- Andersen, P.K., Borgan, Ørnulf, Gill, R.D. et al.. Statistical Models Based on Counting Processes. Springer Verlag, 1993, 784p.
- Wei, L.J.. The accelerated failure time model: A useful alternative to the cox regression model in survival analysis. Statistics in Medicine. 1992, 11(14-15), p.1871-1879, doi: 10.1002/sim.4780111409
- Cox, D.R.. Regression Models and Life-Tables. Journal of the Royal Statistical Society. Series B (Methodological). 1972, 34(2), p.187-220, doi: 10.1007/978-1-4612-4380-9_37
- Kalbfleisch, J.D. & Prentice, R.L.. The Statistical Analysis of Failure Time Data. 2nd Edition, John Wiley & Sons, Inc., 2002, 462p.
- Fleming, T.R. & Harrington, D.P.. Counting Processes and Survival Analysis. Wiley & Sons, Inc., 2005, 454p.
- 大橋 靖雄, 浜田 知久馬 著. 生存時間解析:SASによる生物統計. 東京大学出版会, 1995, p.112-113
0 件のコメント:
コメントを投稿