肺癌治療に関する情報誌:Lung Cancer Cutting Edge(LCCE)
2014年05月号vol.49
LCCE Topic

臨床統計を学ぶ
中間解析事始め11 2 3

topic_photo1
横浜市立大学大学院医学研究科 臨床統計学 
山中 竹春 先生
はじめに

今回の連載では、普段、臨床医の先生方から尋ねられることが多い「臨床試験の中間解析」について解説をしたいと思います。データセンターをはじめとする臨床試験インフラの整備に伴い、日本でも中間解析の利用機会が拡がってきました。近年は、中間解析の結果、早期中止される試験の数も増加してきていますが、「中間解析の結果、優越性が証明された」といったリリースが出された途端、よりよい治療を求める臨床現場がザワザワしだすことは想像に難くありません。一般に、中間解析とは試験の最終解析の前に行われる有効性または安全性に関する解析のことを指します。中間解析の実施が検討される典型的な状況として、ランダム化第3相試験、 ランダム化第2相試験、単群第2相試験(2段階デザインの場合)などが考えられますが、以下ではランダム化第3 相試験を念頭において話を進めたいと思います。

一般に、中間解析の目的は、試験を早期中止すべきかどうかを判断することにあります。第3相試験を早期中止する状況として、第一に、試験途中で新治療の有効性が判明して試験を中止する、というケースが考えられます。この状況は「有効中止」と呼ばれます。一方、試験途中で新治療の有効性を証明する見込みのないことが判明した場合に、「無効中止」を行う、というケースも考えられます。無効中止のことを英語でfutility stopと呼ぶことがあります(futility【名詞】無益であること、目的のない行為)。「あの試験はfutilityで止まったようだ」という噂が流れてきたときは、無効中止を意味しているわけです。

さて、試験を早期中止することのメリットは何でしょうか? 有効中止の状況では、新治療の方が優れていることが判明しているわけですから、試験を継続して、(劣っていることが判明した)標準治療を施行される被験者の数をさらに増やすことは倫理的に問題があります。早期に試験を中止して、そのような事態を回避することが必要です。さらに有効中止を行うことで、効果の証明された新しい治療法を将来の患者さんにいち早く届けることができます。逆に、期待した仮説を示せる見込みがない場合、たとえば、薬剤を上乗せして効果の増強を狙った新治療の臨床試験において、試験途中でその新治療の効果を示せない可能性が高くなった場合は、毒性やコストのみが増えるような新治療の評価を継続しても意味がありませんので、無効中止を行い、別の有望な治療法の臨床試験に参加できる機会を患者さんに提供する方が適切です。

有効中止の実例を見てみましょう。優越性試験で有効中止された例としては、進展型小細胞癌を対象に、イリノテカン+シスプラチン(IP療法)あるいはエトポシド+シスプラチン(EP療法; こちらが対照群)を比較したJCOG9511試験が有名です。よく知られているように、この試験はNew England Journal of Medicineに掲載された日本発の医師主導臨床試験です[1]。そして、筆者の知る限り、事前に中間解析の計画がなされ、厳密な統計基準に従って有効中止された日本で初めての試験でもあり、2重の意味で金字塔と呼ぶにふさわしい臨床試験です。この試験では、1998年8月に第1回目の中間解析を迎えましたが、効果安全性評価委員会で審議を受けた結果、次回中間解析を前倒しで行うことが委員会より勧告され、1998年12月に第2回目の中間解析が行われました[1]。中間解析のP 値([2]; JCOG肺がん内科グループの許諾を得て記載します)は、第1回中間解析ではP =0.0047、第2回中間解析ではP =0.00025となり、第2回中間解析でIP療法の優越性が結論されて有効中止に至りました。この経緯を読んで、「第1回目のP =0.0047も十分小さい値なのに、中止に至らなかったのはなぜ?」と思われる方がきっといらっしゃると思います。P 値がどのくらい小さかったら試験を早期中止してよいのか、という点が問題になります。

中間解析で止めてよいP 値の大きさとは?

第3相試験では、αエラー5%の検定を行うことが一般的です。すなわち、検定のP 値が5%を下回ったときに統計的有意である(いわゆる“ 有意差あり” )と判断します。あくまでデータに基づく判断ですので、観察された有意差が“たまたま” である可能性はどこまでいっても否定しきれないのですが(本当は2群に差がないのに、たまたまデータにブレが生じて差があるように見えた)、そのような“ たまたま” が生じる可能性は5%と小さく抑えられており(αエラー5%)、観察された有意差は一応、額面通りに受け取ってヨシ、と解釈します。

中間解析を実施する場合、最終解析を含めて複数回の検定を実施することになります。試験の途中途中で行われる個々の検定において、「P 値が5%を下回ったときに統計的有意」と判断するとしても、そのような検定を繰り返すほど、“たまたま” の差を偶然ひっかけやすくなることは直観的にお分かり頂けるだろうと思います。いわゆる検定の多重性と呼ばれる問題です。例えて言うなら、下手な鉄砲も数撃ちゃ当たる、といったところでしょうか。

中間解析における検定の多重性を回避するためにはどうしたらよいでしょう? すぐに思いつくのは、中間解析における統計的有意性を宣言するときの基準を5%よりも厳しめに設定することです。個々の中間解析において5%よりも非常に小さなP 値が得られた場合のみ有意な差が得られた、と判断することにすれば、いずれかの中間解析で“ たまたま” の差を偶然ひっかけてしまう確率は、試験全体を通じて小さく抑えられることは予想できると思います。では、そのような基準を客観的にどう定めればよいのか?が次に問題となります。そのための方法論がいわゆる群逐次法(group sequential method)と呼ばれるものです[3]。一般にがん臨床試験では、群逐次法による数学的計算に基づいて、統計的有意を判断するための客観的基準を算出します。たとえば、「P <0.00034のときに有意と判断する」といった、一見奇異に見える基準は群逐次法に基づいて算出されています。P 値がその基準を下回った場合のみ、統計的有意性を主張するわけです。

9月号、1月号とちょっと先になりますが、次回以降は、JCOG9511試験を題材として、中間解析の統計的な考え方を解説します。その他、CALGB 9633試験やACTS-GC試験を取り上げ、理解を深めようと思います。CALGB 9633試験は、切除可能な非小細胞肺癌を対象に、術後のパクリタキセル+カルボプラチン療法と手術単独を比較した第3相試験です。よく知られているように、中間解析で有効中止となり、いったんはパクリタキセル+カルボプラチン療法が一部の治療ガイドラインに登場するまでになりましたが、その後のOSフォローアップ解析で有意差が消失してしまい、物議を醸した試験です。切除可能な胃癌を対象としたACTS-GC試験はNew England Journal of Medicineに掲載された日本発のエビデンスで、ACTS-GC試験の結果が現在の本邦の標準治療の根拠となっています。

群逐次法がカバーする方法論のうち、特に、Lan-DeMetsの方法、α消費関数、O'Brien-Fleming境界といった統計用語は、がん第3相試験プロトコールの最頻出ワードではないかと思いますが、これらを理解することで中間解析の結果を見る目が格段に広がります。直観的な理解を与える説明を目指したいと思います。

  • [1] Noda K et al.(2002)N Engl J Med. 346(2): 85-91.
  • [2] Personal Communication
  • [3] 森川敏彦・山中竹春訳(2012)臨床試験における群逐次法 理論と応用.シーエーシー出版

1 2 3