肺癌治療に関する情報誌:Lung Cancer Cutting Edge(LCCE)
2014年09月号vol.53
LCCE Topic

臨床統計を学ぶ
中間解析事始め21 2 3

topic_photo1
横浜市立大学大学院医学研究科 臨床統計学 
山中 竹春 先生
中間解析で生じる検定の多重性の問題

中間解析の統計的な考え方の概略について説明したいと思います。中間解析を実施する場合は、最終解析も含めて複数回(計K 回とします。)の検定を実施することになります。検定のたびに「P < 0.05→統計的有意」と判断するルールですと、本当は2群に差は無いのにたまたま差があるように見えてしまった(αエラー)、そんな“たまたま ”がK 回のいずれかで生じる可能性は5%よりも跳ね上がってしまいます。たとえば、中間解析を2回,最終解析を1回行う場合、計3回の検定のそれぞれで「P <0.05→統計的有意」と判断する手順を採用しますと、3回のいずれかで誤って統計的有意と判断してしまう可能性は5%から10%に上昇します(注1)。中間解析を行う臨床試験では、1回ごとの検定でなく、計K 回の検定をセットとして捉え、"試験全体の"αエラー確率なるものを考える点が重要です。上の例ですと、試験全体のαエラー確率は予定した5%の2倍に上昇するので、いわゆる検定の多重性の問題が生じ、こりゃイカン!ということになります。

理解の助けとなるよう、図解してみます(図1)。本当は2群に差がないとします。検定ごとに「P <0.05→統計的有意」と判断する場合、1回あたりの検定で見れば、たまたまデータにブレが生じて差があるように見えてしまう(αエラー)可能性は5%と図1小さい値に抑えられています。しかし、検定の回数を2回、3回と増やしていくと、試験全体として見れば5%よりもαエラーのチャンスが増えてしまうことは直観的にわかると思います。少し状況は異なりますが、当たる確率が5%のクジを3回引く場合、3回のいずれかで当たりを引く確率は5%よりも大きくなるのと似ているところがあります。

中間解析における統計的有意性の判断

中間解析に伴って生じる検定の多重性を回避するためには、中間解析で統計的有意性を宣言するときの基準(名目有意水準)を5%よりも厳しめに設定します。個々の中間解析において、5%よりも小さい名目有意水準を設定し、P 値がその値を下回った場合のみ有意差を主張することにすれば、どれか一つの検定でたまたま有意差が得られる確率は「試験全体として見ても」5%以下に抑えられることは予想できると思います。問題は名目有意水準をどう設定するか、すなわち、第k 回中間解析においてP 値がいくつ未満であれば有意と判断するか、その値の設定の仕方です。この点は群逐次法(group sequential method)の理論の主要なトピックスになります。試験途中において、ひと塊(一群)のまとまったデータが得られるたびに、逐次的(sequential)に第1回目、第2回目、...、の中間解析を実施していく方法論のことを‘ 群’ 逐次法と呼びますが、臨床試験では群逐次法による数学的な計算に基づき、名目有意水準を算出することが一般的です。「第k 回中間解析の名目有意水準を0.00034とし、P <0.00034のときに統計的有意と判断する」といった一見奇妙な基準は、群逐次法に従って計算されているケースが多いです。

名目有意水準に関する計算でもっとも汎用されているのは、Gordon LanとDavid DeMetsの2人の統計家が提案したα消費関数を用いる方法です(Lan-DeMetsの方法)。簡単に言えば、観測イベント数(生存時間エンドポイントの場合)に応じて値が変化する関数のうち、試験開始時に0、目標イベント数到達時に1となるものをひとつ定義して、その関数(α消費関数と呼びます)図2の値に従って名目有意水準を算出するというやり方です。もう少し具体的に説明します。図の横軸は観測イベント数を表し、観測イベント数ゼロ(登録開始時; 0%)から目標イベント数(最終解析時; 100%)に到達するまでを考えます(図2)。図の縦軸はトータルで消費したαの値を表します。

まず1回目の中間解析が予定イベント数の50%の時点で行われるとします。50%の時点に対応する関数値が0.003のとき、1回目の中間解析において0.003を消費すると考えます。そして、1回目の中間解析ではP < 0.003のとき、統計的有意と判断します。P ≧ 0.003のときはNot Significantです。2回目の中間解析は予定イベント数の75%の時点で行われ、その時点に対応する関数値を0.019とします。

2回目の中間解析で新たに消費するαは0.016(=0.019-0.003)になります。1回目と同様に、「2回目の中間解析では P < 0.016のとき、統計的有意と判断します」と言いたいところですが、こちらは正しくありません(注2)。2回目以降は消費するαがそのまま名目有意水準となるわけではなく(図で言えば、P < 0.016のとき、統計的有意と判断するわけではない。0.016がそのまま名目有意水準にはなりません)、この点は少しややこしいので注意して下さい。ただし、消費するαの値と名目有意水準が大きくかけ離れた値になることは頻繁ではないと思います。その後の解析についてもα消費関数とその時点のイベント数に従って消費するαを求め、そして、最終解析での累積消費αがちょうど0.05となるようにします。この作業によって試験全体のαエラーを5%に制御することが可能になります。

試験計画時には中間解析の回数や時期を決めておくことが一般的ですが、臨床試験を早期中止すべきかどうかの判断は‘ 生き物’ です。JCOG9511試験がそうであったように、効果安全性評価委員会から計画の変更を求められる場合もあります。そのような場合であっても、α消費関数アプローチを用いれば、中間解析の回数や時期を柔軟に変更することが可能です。ただし、α消費関数の選び方は無数に存在します。Pocockタイプの関数やO'Brien-Fleming(OBF)タイプなど、状況に応じて使い分けていくことになります(図3)。しばしば、がんの第Ⅲ相試験の論文に、図3"The O'Brien-Fleming boundary was crossed for the planned interim analysis."などと記載されますが、これは正確に言うと「Lan-DeMetsの方法として、特にOBFタイプのα消費関数に従ってαを消費した。消費されたαから求められた名目有意水準をP 値が下回り、早期有効中止に至った」ということです。

PocockタイプはOBFタイプに比べてイベント数の少ない試験の早期段階から大きなαを消費していくので、その分、早期中止しやすいという特徴があります。しかし、がん領域の第Ⅲ相試験では、OBFタイプのα消費関数を用いることの方が多いようです。図からもわかりますが、OBFタイプはイベント数の少ない試験の早期段階には極めて小さいαしか消費しないため、名目有意水準も非常に小さい値となり、有効中止しにくくなります。OBFタイプの下で試験早期に有効中止するためには、小さい名目有意水準でもクリアできるような非常に大きな群間差が観察されることが必要です。OBFタイプが好まれる実用上の理由として、一般にデータの質に関する様々な問題が最も起こりやすいのは試験関係者が評価対象となる新治療に経験を得つつある試験早期であるため、この段階の小規模データで新治療の妥当性を決定するのは容易でない場合があることや、小規模データに基づく結果は専門家コミュニティからの支持が得られにくいことなどが考えられます。

中間解析の統計的な考え方の基礎を説明しましたので、いよいよ次回は、JCOG9511試験、CALGB 9633試験、ACTS-GC試験を具体的な題材として、中間解析に対する理解をより深めていこうと思います。

注1: 情報量が等間隔で、かつ両側α=5%の検定を行った場合
注2: 数学的な話になりますが、k 回目(k ≥ 2)に消費するαの値は、「1, ..., k -1回目の検定で有意にならなかった」という事象の下での条件付きの有意水準です。そのため、厳密には「k 回目の検定の名目有意水準」とは異なります。

1 2 3