肺癌治療に関する情報誌:Lung Cancer Cutting Edge(LCCE)
2017年05月号vol.73
LCCE 特集:座談会

生物統計 ここが聞きたい

tokusyu_photo1

光冨:がんの薬物療法が多様化する中で、がん臨床試験の結果がもたらすインパクトはますます大きくなり、かつその役割や機能もターニングポイントを迎えている印象があります。本日は、特に第II相試験のデザインや第III相試験との関連性に焦点を当て、免疫チェックポイント阻害薬の臨床試験に携わっている近畿大学医学部内科学腫瘍内科部門の林 秀敏先生、臨床試験の統計学についての見識が深い京都大学大学院医学研究科 医学統計生物情報学 森田 智視先生をお迎えしディスカッションします。

有意水準とP値の考え方

光冨:古典的には、臨床試験は開発の段階に応じたフェーズを取り、第I相試験で安全性、第II相試験で有効性、第III相試験で標準治療と比較するというステップを踏むとされてきました。しかし近年では、少し複雑化しつつあるように感じます。かつての第II相試験の位置づけは、第III相試験の標準治療に対する相手を選ぶことが目的であり、検定は行いませんでした。しかし近年では、あたかも第III相試験の前哨戦であるかのようなデザインの無作為化臨床試験が行われるようになりました。第II相試験の分類についてはどのように考えればよいのでしょうか。

森田:大きく分けて二つあります。一つはいくつかの薬物療法を挙げて、その中から一番よさそうなものを選び、それを第III相試験で標準治療と比較するという流れの中で行うもの、すなわち選択デザインの試験です。もう一つが、いまご指摘のあった、第II相試験の時点から標準治療も組み込んで行う、前哨戦のようなデザインの試験です。標準治療を相手に“勝てる”見込みをどの程度もてるのかを見た上で、本番の第III相試験に進んでいくという形になります。

光冨:前哨戦という位置づけで行う場合、第III相試験との境界線が分かりにくくなるのではという懸念があります。

林:私の理解では、前哨戦としての第II相試験というのは、少ない症例数でその治療がうまくいくかどうかを早急に検討したいときに行うものではないかと考えています。

光冨:がん臨床試験の第II相試験では、αエラーとβエラーの設定が第III相試験と異なり、いずれも0.2という数値を用いることが多いようです。第III相試験ではαエラーが0.05を用いることからややゆるい設定となっています。

森田:すべての第II相試験で0.2が用いられているわけではないようですが、比較的よく用いられる設定かと思います。0.2はもっともゆるい水準で、「あわてん坊」という意味では、差があるという結果が出たときに5回に1回くらいは間違っているということを意味します。βエラーが0.2ということは「ぼんやり」見過ごしてしまう可能性が20%程度あるということで、1からこのβエラーを除算した値が検出力ということになります。

光冨:第II相試験と第III相試験で、αエラーが変わり、βエラーは同じ設定であるということは、どのような意味を持つのでしょうか。

森田:この違いは、恐らく抗がん剤開発の歴史的背景によるものではないかと思います。すなわち、かつては高い有効性を示す抗がん剤は限られていたため、多少あわてん坊であっても、とにかく次に進めてみようという意図があったと。有効な薬剤である可能性があればその開発機会を逃したくないためαエラーを緩めに設定していた。これは、恐らく抗がん剤の臨床試験に特有のαの設定ではないかと思います。

光冨:αエラーとβエラーを同じ0.2という設定にしてきたのも、抗がん剤の無作為化第II相試験に特有の考え方なのでしょうか。

森田:無作為化第II相試験だけではなく、単群の第II相試験もそのような設定にしてきました。つまり、無作為化を行っているかどうかではなくて、第II相試験の役割として、第I相試験で安全性を確認されており、次は有効性がありそうであれば、関門は多少ゆるくしても第III相試験に進めたいというのが化学療法剤開発のコンテクストであったようです。

光冨:ある程度はあわてん坊を許容するということですね。その場合のP値についてですが、例えばαエラーが0.2、βエラーが0.2という設定でハザード比の推定が0.7のとき、150例の試験で、全く予想どおりの結果が出たとします。この場合、ハザード比が0.7の結果が得られたことに対して、P値をどのように理解すればよいでしょうか。

森田:よく混同されることなのですが、αエラーやβエラーは試験デザインに関わる要素です。一方、P値は結果です。αエラーとβエラーは試験の性能を表しています。すなわち、先程αエラーが0.2の場合、20%の確率で間違って第III相試験に進んでしまうと説明しましたが、それは結果ではなく、その試験があわてん坊としての性質を最初から持っているということです。そしてαエラーが低くなるほど、試験はより慎重な性質を持つことになります。αエラーの値が低くなると、症例数は多く要求され、試験の精度が高くなります。したがって続く第III相試験では症例数を増やして精度の高いデータを取り、本当にこの薬剤の有効性は大丈夫なのかというのを厳しい基準で見るという仕組みになっています。

用語開設
試験デザインとエフェクトサイズ

林:その第II相試験と第III相試験の関連について、実際の臨床試験を例にとってお伺いしたいと思います。JO25567試験は、EGFR遺伝子変異陽性の非小細胞肺癌に対する一次治療におけるエルロチニブ+ベバシズマブ併用療法とエルロチニブ単剤療法を比較検討した無作為化第II相試験です。ハザード比を0.7と推定して、αエラーとβエラーのいずれも0.2で設定した試験なのですが、結果としてはハザード比0.54、P値が0.0015という、かなり大きな差をもってPFSの有意な改善を認めました1)。現在、第III相試験が北東日本研究機構(NEJ)にてNEJ026試験として進められています。症例数は、第II相試験は各群75例、第III相試験はハザード比の推定が0.63に設定され、合計の症例数が214例となっています。私たちの疑問としては、ハザード比の設定が変わっているとは言え、第II相試験でかなり低いP値が示されていて、それほど症例数が変わっていないのに第III相試験を行う意義がどの程度あるのかということです。

森田:無作為化第II相試験という位置づけですが、エルロチニブ+ベバシズマブ対エルロチニブ単剤という組み合わせは、効くかどうか分からないというものではなく、上乗せ効果を見る、すなわちある程度の有効性を期待していると言えます。したがって探索的というよりは検証的な意味合いの強い試験だったのではないでしょうか。そう考えると、αエラーを0.05でやることもできたのではないかという考えも成り立ちますが、その場合必要症例数が大幅に増えることになります。

光冨:光冨徹哉先生そうすると実施可能性の問題が浮上してきますね。そこに症例を集めるコストがかけられるかどうか。

森田:ただ実際には、緩い設定で試験を行っています。その結果として、クリアな群間差が得られたというところです。しかしながら、この試験の性能は、あくまであわてん坊で、少ない症例数で行ったのですから、いいとこ取りをしている可能性を排除できないのです。

林:第II相試験でインパクトがあったのは0.54という数値ですが、この0.54もしくはそれに近い数値という設定で確かに差があるかということは、第III相試験でちゃんと検証しなければいけないということですね。

光冨:ハザード比の仮定を最初から0.7程度ではなく0.5程度にしておけば、少ない症例数でもαを下げることができたという考えは成り立つのでしょうか。

森田:それは0.5というハザード比にどの程度の確信があるかによるでしょう。すなわち、大きな群間差を設定して症例数を少なくしても、実際に得られたハザード比とかい離してしまうことが起こりえますし、そうなるとその試験の実施意義にも負の影響を与えてしまいます。

林:この試験の結果で多くの人が驚いたのは、やはり0.54というインパクトが大きかったためです。0.7程度であれば予測していたかもしれませんが、検証的とまでは言えなかったと思います。

森田:そうすると、αエラーを0.2、βを0.2にして探索的な検討を行ったこの試験は正当化できると思います。そしてその後第III相試験を行っているという選択も正しかった。違う集団で第II相試験の結果が再現できるかどうかの保証は全くありませんから。いくらハザード比が小さくても、いくらP値が小さくても、症例数の少ない第II相試験の結果でしかないということになります。

林:林秀敏先生この試験は症例数を75例で始めているということ自体によって、結果から解釈できることに限界があるということですね。

光冨:第III相試験で求められる検証的かどうかという性質は何をもって決定されるのでしょうか。第III相試験だから必ずしも症例数が大幅に多いということではありませんし、第II相試験との明確な境界はαエラーなどの設定だけなのか、あるいは他の要素があるのでしょうか。

森田:それは、その試験を実施する前に検証すべき研究仮説がしっかり整理されているかどうか、すなわち、治療の効果、エフェクトサイズについて根拠をもって予想できているかどうかによるのではないかと思います。

光冨:エフェクトサイズはそれまでの経験から推定するということなのですが、その点をどう考えれば良いのか難しく感じることがあります。そこに恣意的な要素が入り込むことにはならないのでしょうか。

林:過去のヒストリカルデータから、統計学的というよりも臨床的にある程度推定して、期待される数値を決めるものと理解してきたのですが。例えば5年生存率が10%改善するぐらいのエフェクトサイズがなければ新規治療として認めるのは難しいというような、臨床的感覚を私たちは重視しています。

森田:そういう観点が非常に重要だと思います。特に新薬の場合、効果が分かりませんので、エフェクトサイズの推定にはそもそも難しい部分がありますが、それは臨床的な要求によって当然変わってくるものだと思います。例えば、アンメットな疾患で、ハザード比が0.8もいけば十分だというラインもあると思います。一方で、0.7~0.8のハザード比を得られるような候補が多数あり、さらなる有効性を示せないと新しく認める意味がないという状況もありえます。

光冨:現実問題として、試験を実施する施設で募集の期間内に集められる症例数には限界があります。そうした要素をサンプルサイズの決定に反映するのは、設計上、問題があるのでしょうか?

森田:どの程度の症例が現実に集められるかという実施可能性も、もちろん例数設計の重要な要因だと言えます。その中で、エフェクトサイズをどこまで期待できるかという探りを入れるのが第II相試験の役割です。

第II相試験と第III相試験の結果の相反

光冨:近年の事例では、第II相試験では有望な結果で、P値でも統計学的有意性が確認されたのに、第III相試験では全く差が出ずに開発中止に至った例が散見されます。消化器癌領域のX-PECT試験が代表的な例ですが2,3)、肺癌領域でもMAGRIT試験やMETLung試験などが第III相試験でネガティブな結果に終わっています。

林:METLung試験はMET抗体onartuzumabをエルロチニブに追加した場合の有効性をプラセボと比較した試験です。無作為化第II相試験では、ITT集団全体では差が見られなかったのですが、METの免疫染色で陽性だったサブグループで比較すると大きな差が認められました4)。MET陰性の群では全く逆の結果です。そこで有効な集団と考えられたMET陽性群をセレクションして第III相試験を行ったところ、プラセボ群のほうが上回り、中間解析で試験中止となりました5)

森田:METの抗体がMET陽性群で効くということは、医学的に見ると確信度は非常に高いはずですよね。

光冨:ただこの試験で問題と考えられたのが、第II相試験でMET陰性の群ではプラセボのほうが上回っていたことです。抗体の発現がない集団で逆の効果を出すということは、検査した抗体自体に問題があるのか、特異性に問題があるのか、いずれにしても合理的な結果とは言えなかったわけです。

林:しかし陽性群では有意差(P=0.04)が出ており、カプラン・マイヤー曲線でも大きく離れていたため、一般的には期待されたと思います。

森田:森田智視先生統計学的にはいわゆるサブグループ解析の繰り返しによる検定の多重性に当てはまったととらえられるのかもしれませんが、第III相試験に進めるにあたっては陰性群での逆転現象を踏まえた上での議論があったのかもしれないですね。

光冨:ただ、第II相試験の検定では有意差が出ています。すると実際には差がない可能性は低いということになるかと思うのですが、このことをどのように解釈すれば良いのでしょうか。

森田:P値は一般に0.05を切れば有意差ありとして使っていますが、この数値自体に確固とした根拠はありません。少し前に、国際的な統計家に意見を求めてみたのですが、彼らに言わせると、第II相試験は世界中で数多く行われており、その中で偶然的にp値が0.05を切る試験が出てくることも十分あり得るだろう。第III相試験で結果が逆転することもいくらあってもおかしくはないだろうということなのです。
統計学的検定に頼る判断にはこのような限界があります。実際に昨年、米国統計学会はP値を過度に信頼しすぎることに対する懸念を表明しています6)。本質的なところで、その役割を見直し、代替の方法を模索していくべきではないかということで、今そのディスカッションがまさに起こっているところです。

医学的知見を試験デザインに反映する

光冨:近年の分子標的治療では、in vitroやin vivoのpreclinicalな実験の結果がしばしば臨床試験に忠実に反映されるので、第II相試験で効果が見られた後、昔からの方法論で探索的にプラチナ製剤と比較すること自体が倫理的でないという意見もあります。

森田:そのとおりだと思います。メカニズムから有効性が説明できる治療を第I相試験で試し、まさにその仮説のとおりに効けば、有効性がある部分で見えたと考えることができます。

光冨:それを症例拡大で確認できれば、単群第II相試験を実施したのと同じ、要するに第I/II相試験という扱いですね。

林:そのときの効果のエンドポイントが、生存率でないといけないとか、奏効率はだめだとか、ルールの問題ではなくて、あくまで有効かどうかを考えるということですね。免疫チェックポイント阻害薬の臨床試験では、第II相試験を飛ばして、第I相試験から第III相試験に直接、検証的試験に進むというケースも見られます。

森田:免疫チェックポイント阻害薬も最近はいくつか出ていますが、まず患者集団の絞り込みやPD-L1発現率の扱い、またどの時点での効果を見るかという問題もありますし、患者セレクションとエンドポイントの問題がまだまだ解決していないように感じます。

光冨:カプラン・マイヤー曲線では、最初、カーブの前半は差が出ずに、後半から開いてくるようなカーブを描きます。それは、治療群の中に明らかに効かない人たちが含まれているためですね。

森田:効果が出ない人の扱いは、いわゆる試験のフェーズの議論とはまた別の軸で、患者さんのセレクションの問題が背後にあると思います。

林:セレクションがうまく機能しているかどうかを調べるためには、最終的には臨床試験をやらないといけなくて、そうしたら多かれ少なかれ、このようなカプラン・マイヤー曲線の傾向になるのではないでしょうか。

森田:どこからカーブが分かれはじめるのかというところを、見定めることが重要だと思います。これらは統計的な問題ではなく、免疫学的なメカニズムがもう少し明らかになってきたところで、臨床的判断として患者さんのセレクションが可能になってくるのではないでしょうか。その上で、第I相試験で有効性を確認し、第Ⅱ相試験をスキップして第III相試験に直接進むという開発戦略もあり得ると思います。

林:私が現在、西日本がん研究機構(WJOG)で携わっている無作為化第II相試験の中に、化学療法と免疫チェックポイント阻害薬を特定の集団で比較する試験がありました。そういった試験で第II相試験として現実的、かつ妥当性のあるエンドポイントは何なのかということに悩みました。PFSに結局はしたのですが、免疫チェックポイント阻害薬の特性に合うものがあるのではないかと。

森田:輪切りで見るという方法があります。すなわち、何ヵ月後かのPFSです。最初のカーブのオーバーラップは踏まえた上で、カーブが開いた後の部分を評価する方法になります。

林:1年生存率ですね。

森田:OSを第II相試験のプライマリーエンドポイントにする問題点は、群間差を出そうとすると長く観察しなければいけなかったので、時間がかかってしまうということでした。輪切りで見れば長期間待つ必要がありません。ポイントは、やはり期間です。この1年という期間に臨床的な意味があるか、それを臨床家がどう考えるかということです。

データの裏側を見抜く力を養う

林:森田先生がおっしゃったように、臨床家として統計家の方々に頼り切りではなく、やはり自分たちでも意義のあるデータはどういうものなのかということを常に考える必要があると改めて感じました。

光冨:私たちは私たちの立場で、統計家に全部任せるのではなくて臨床的な意義とか、あるいはバックグラウンドにあるメディカルサイエンスをもってディスカッションすることが求められるということですね。

森田:統計家としても、P値だけに頼ることはもうできない時代になりつつあります。そこで見抜く力が重要になるだろうと思います。ありそうもないことが起こった場合、先生方がMET抗体の陰性群の結果をおかしいと感じられたように、見極める力を養っていくことが必須になるのではないでしょうか。

光冨:自分の理解できないことを全く受け入れないのもいけませんが、しかし自分の中の常識からあまりに外れているときには、ちょっと待てよと考える態度も必要ですね。また、ひとつのモダリティーだけでは解決できないことが増えています。例えば免疫療法を考えていく上では、医師だけでは見抜く力が十分ではないので、基礎研究者とのコミュニケーションも大事ではないかと思います。
今回は今後の臨床試験を考えていく上で、大変貴重な意見を伺うことができました。本日はありがとうございました。

1) Lancet Oncol. 2014 Oct;15(11):1236-44.
2) J Clin Oncol. 2011 Nov 20;29(33):4394-400.
3) J Clin Oncol. 30, 2012 (suppl; abstr LBA3501)
4) J Clin Oncol. 2013 Nov 10;31(32):4105-14.
5) J Clin Oncol. 2017 Feb 1;35(4):412-20.
6) Am Stat. 2016;70(2):129-33.