肺癌治療に関する情報誌:Lung Cancer Cutting Edge(LCCE)
2015年01月号vol.57
LCCE Topic

臨床統計を学ぶ
中間解析事始め31 2 3

topic_photo1
横浜市立大学大学院医学研究科 臨床統計学
山中 竹春 先生
【JCOG9511】

JCOG9511試験は、イリノテカン+シスプラチン(IP療法)とエトポシド+シスプラチン(EP療法; 対照群)を比較した第3相試験で、中間解析の結果、早期の有効中止に至りました。論文 [1] では中間解析に関する部分は次のように記載されています:

(METHODS内) The sample size initially planned was 230 patients from 54 participating sites, with 115 patients in each group. The planned duration of accrual was 3 years, and the planned follow-up time was 1.5 years. (中略) Two interim analyses were planned, with adjustment for multiple comparisons taken into account by the method of Lan and DeMets. The O'Brien-Fleming type alpha spending function was used. The first interim analysis was planned for the date on which half the planned number of patients had been enrolled, and the second for the date on which all the patients had been enrolled.

(RESULTS内) The first interim analysis, performed in August 1998, suggested a difference in overall survival between the two study groups; the monitoring committee therefore recommended that the second interim analysis be performed earlier than planned. The second analysis, performed in December 1998, found a significant difference in overall survival between the two groups (P<0.001), and the monitoring committee therefore recommended termination of the study. Enrollment was discontinued and the study was terminated in January 1999.

1回目の中間解析(1998年8月)は、予定登録数の半数が登録された時点のデータを用いて行われることになっていました。JCOG肺がん内科グループの許可を得て閲覧させて頂いた当時の資料によると [2]、予定登録数の半数が登録された時点において、予定イベント数の35%にあたるイベント(死亡)が観測されていたようです。Lan-DeMetsの方法として、特にO'Brien-Fleming(OBF)タイプのα消費関数に基づいて35%時点における消費α を求めると、0.00092となります(図1)
図1

ログランク検定の結果はP =0.0047(>0.00092)であり、統計的有意性を主張するには至りませんでした。ただし、ここがこの中間解析の興味深い点なのですが、OBFタイプに基づく規準に従うと有意ではないものの、P 値が十分小さい値のため、そのことを懸念した効果安全性評価委員会(monitoring committee)は、登録完了した時点で行われる予定であった2回目の中間解析の前倒しを指示しました。IP療法が優越性を示す可能性が高くなったことで、今後この試験においてEP療法に割付される患者さんに対する倫理性を委員会は懸念したのではないかと想像します。また、(将来の一般臨床における)患者さんにいち早くIP療法の有効性をリリースすることも必要になってきます。前回述べたように、効果安全性評価委員会から中間解析の計画変更を求められることがあります。α 消費関数アプローチであれば、そのような事態でも中間解析の回数や時期を柔軟に変更することができますが、この試験はそのことを示す好適な事例だと思います。

1回目の中間解析から4ヵ月後の1998年12月に実施された2回目の中間解析では、予定イベント数の53%が観測されていました。1回目と同様、OBFタイプのα消費関数に従って、53%時点の消費αを求めると、0.00617となります。詳細は割愛しますが、この0.00617をもとに「P <0.00680のときに統計的有意」という基準が設定されました。2回目の中間解析のログランク検定の結果はP =0.00025(<0.00680)となり、IP療法の優越性が結論されて有効中止に至ったというわけです。この時点で154 例が登録済みでしたが、予定された230例よりもずっと早く中止できたことがわかります。

【CALGB 9633】

続いてCALGB 9633試験の説明に移りましょう。CALGB 9633試験は、ⅠB期非小細胞肺癌(NSCLC)に対し、カルボプラチン+パクリタキセル療法(CP療法)による術後補助化学療法と手術単独(化学療法なし; 対照群)を比較した第3相試験です。1996 年9月から登録が開始され,期待ハザード比0.67、片側α=5%(当初は両側5%でしたが、2000年にプロトコール改訂された)、検出力80%の設定の下、目標イベント数が155件(目標登録数384例)に設定された試験でした。2003年11月に、観察期間中央値34ヵ月、88件(56.8%)のイベントが観測された時点で中間解析が行われ、主要エンドポイント(OS)に関するログランク検定の結果(片側P =0.014)が中止基準に合致したことから、効果安全性評価委員会は早期中止を勧告しました。2004年米国臨床腫瘍学会で結果が発表されたのち [3] 、NCCNガイドラインはCALGB 9633試験を根拠として、ⅠB期症例へのCP療法を推奨しました。ところが、2006年米国臨床腫瘍学会で発表された観察期間中央値57ヵ月におけるOS Update解析では、OSの統計的有意性は消失してしまったのです(ハザード比0.62, 片側P =0.10)。一転、本試験は「Negative Studyであった」と解釈されるようになりました。一体、何が起こったのでしょうか? ここでは主にCALGB 9633試験の有効中止の基準について考察したいと思います。

上述のように2003年11月に効果安全性評価委員会に報告されたデータでは、片側P =0.014であり、これが有効中止の基準に該当したことが報告されています。OBFタイプのα消費関数を用いて有効中止を行う場合、この試験のように予定イベント数の半分程度に留まる時点ですと、非常に小さいP 値が必要になります。片側P =0.014は「非常に」小さい値とまでは言えないので、私個人はOBFタイプのα消費関数ではなく、別タイプのα消費関数を用いていたのだろうと考えていました。しかし、2008年に出版された論文[4]では、

Early termination was considered if the P value of the log-rank test was less than a nominal significance level calculated with the use of the Lan‐DeMets α spending function with O'Brien‐Fleming boundaries.

とOBFタイプを用いたことが明記されています。さらに同論文のAppendixには、計30イベントが観測されて以降、半年ごとに有効性に関する中間解析を実施しており、具体的には35, 45, 66, 79イベントで実施された、とあります。Appendixには「79イベントにおける中間解析で有効中止された」という記載もあり、論文本体の「88イベントでの中間解析で有効中止された」という記載と齟齬がみられるのですが、ともかく、35, 45, 66, 79, 88イベントで解析が行われたと考えることにすると、OBFタイプの中止基準は表1のようになります(計算はnTerim 3.0による)。
表1

論文内の条件に基づいて計算する限り、OBFタイプではP <0.0071となったとき有効中止に該当します。論文や学会発表スライドには中間解析に関するこれ以上の情報はないため、「P =0.014」がOBFタイプの基準を満たしていたのかどうか、さらに突っ込んだ検討は難しいのですが、なんとも気持ち悪さが残る中間解析となりました。

【ACTS-GC】

最後にACTS-GC試験について触れます。この試験は切除可能な胃癌に対して、TS-1単剤による術後補助化学療法と手術単独(術後化学療法なし; 対照群)を比較した第3相試験で、New England Journal of Medicineに掲載された日本発のエビデンスです。全例登録終了から1年後と3年後に計2回の中間解析(最終解析と合わせ、計3回の解析を予定)を行うことになっていましたが、1回目の中間解析の結果を受けて、効果安全性評価委員会から早期有効中止が勧告されました [5]。

OBFタイプのα消費関数が用いられており、第1回目の中間解析における有効中止の基準はP < 0.0011でしたが、中間解析の結果は、主たる解析集団である全登録例(N=1,059; All Randomized)においてP =0.0016、全適格例(N =1,034)においてP =0.0008となりました。主解析と全適格例の解析が、境界となる0.0011をまたぐ結果となり、非常に稀な事態であったと思います。試験結果を公表した当時は「All randomizedでの結果は中止基準の0.0011を上回っており、主解析が統計的有意性を満たしてないにもかかわらず、有効中止するのはいかがなものか」という声もあったように記憶していますが、臨床試験を早期中止すべきかどうかの判断は' 生き物' です。主解析の結果が、単に中止境界を超えているかどうかだけで決まるわけでは必ずしもなく(もしそうであれば機械的な判断を行えばよく、効果安全性評価委員会が一同に介して中間解析を審議するのは不要になります)、総合的な判断が求められる場合があり、この試験はまさにそのケースだったと思います。

論文内に記載されている通り、全適格例における解析ではP =0.0008となり中止基準を下回っていたことや、ベイズ予測確率(観察を継続した場合に、最終的に統計的有意になる確率)が99%以上であったことは、副次解析の立場から主解析の結果の妥当性を支持するものだと思います。また、この試験は「予定イベント数の○%が観測された時点で中間解析を行う」というイベントドリブンの中間解析ではなく、「登録終了から○年の時点で中間解析を行う」という方法であり、前者に比べると、登録ペースが影響して、観測イベント数は少なく、したがって、消費するαは少なく、有意水準は厳し目になる傾向があります。さらに、実臨床でTS-1が術後症例に使用できたことも委員会の検討材料だったかもしれません。仮にこの中間解析から数年間待って、完全に統計的有意であることを確認してから結果をリリースした場合、その間、実臨床において手術単独(術後化学療法なし)の患者さんは不利益を被ることになります。以上のことを総合的に考慮すると、科学的な完全性を少し犠牲にしても早期の中止勧告を行う必要性があったと思います。

  • [1] Noda K et al.(2002)N Engl J Med. 346(2): 85-91.
  • [2] Personal Communication
  • [3] Strauss GM et al. (2004) J Clin Oncol. 22:621s (suppl; abstr 7019).
  • [4] Strauss GM et al. (2008) J Clin Oncol. 26(31): 5043-51.
  • [5] Sakuramoto S et al.(2007)N Engl J Med. 357(18): 1810-20.

1 2 3