肺癌治療に関する情報誌:Lung Cancer Cutting Edge(LCCE)
2016年05月号vol.67
LCCE 特集:座談会

「そうだ!統計家に聞こう」~メタ解析とサブグループ解析の考え方~

tokusyu_photo1

メタ解析を斬る

瀬戸:エビデンスを整理して患者に話を提供する上で、われわれ臨床家が悩んでいる点に関して、統計家はどういうふうに考えられておられるのかということを、九州がんセンターの下川元継先生と横浜市立大学の山中竹春先生を迎えてお伺いします。今回はメタ解析とサブグループ解析についてアドバイスを頂きます。まず、メタ解析の目的はどういうものですか。

下川:複数の類似試験で得られた結果が十分に一致しない場合や個々の試験のサンプルサイズが小さく有意な治療効果を見いだせない場合などにメタ解析は有用であると考えます。基本的には、P値はあまり意識しすぎる必要はないと考えます。試験数(症例)が多ければ多くなるほど、メタ解析の有意差は出やすくなりますので、統合ハザード比(点推定値)や信頼区間を見て評価をしていけば良いと思います。

山中:メタ解析の検定で統計的有意差が出ても、その差に臨床的な意義があるかどうかは別問題です。例えば、メタ解析の結果から得られる統合ハザード比が1.00にかなり近い値だったら、統計的有意であっても臨床的には意味がない可能性があります。2群の差がどのくらいあるかをきちんと評価するために、統合ハザード比の推定精度を高めることは重要であり、メタ解析を行う目的のひとつはこの点にあります。 メタ解析の別の目的として、統合された結果の一般化可能性を検討することも挙げられます。少し逆説的な表現ですが「複数の試験を統合して、結果に一般性を持たせてよいかどうか」を検討すること自体もメタ解析の目的に含まれると言って良いと思います。試験毎のハザード比が大きくバラつく、つまり試験間の異質性が大きいときは、統合された単一のハザード比を試験が行われたどの地域にも、あるいは色々なサブグループに広く適応可能な値であると見なすのはあまり容易ではありません。つまり、得られた結果の一般化可能性には議論が必要です。ちなみに、試験間の異質性を評価する統計手法には、CochranのQ検定や、0~100%の値を取るI2 index*などがあります。

瀬戸:瀬戸貴司先生統計的に異質性があると判定された場合はどう考えればよいのですか。

山中:異質性を扱えるように変量効果モデルを仮定して統合ハザード比を求める手法もあるのですが、機械的に統合ハザード比を求めても臨床的な意義は薄い場合が往々にしてあります。根本的には異質性が生じた「原因の探索」が重要です。例えば、年齢や組織型といった背景因子の分布が試験毎に異なっており、平均年齢が高い試験や扁平上皮癌の割合が大きい試験ほどハザード比は1に近づくという傾向がみられれば、異質性の原因の探索につながります。しかし、そのような検討を行うためには各試験の生データの入手が必要で、その観点ではPubMed等を利用するliteratureベースのメタ解析には限界がある場合があります。

下川:変量効果モデルは「各試験の治療効果のばらつきは偶然誤差以外に、無視できない試験間の偏り(対象患者の違い、地域の違いなど)も原因である」とみなします。これに対して、「各試験の治療効果のばらつきは偶然誤差であり、すべての試験における真の効果の大きさは共通である」と見なして統合する方法が母数効果モデルです。

山中:ところで、メタ解析でP<0.05であれば、レベル1Aのエビデンスか?ということをよく聞かれますが、それ以前に重要なのは個々の試験の中身です。対象となる試験群が本当に「同種」であること、ここが重要で、さらに、問題になるほどの異質性がみられないこと、出版バイアスがないこと等の条件を満たせば、そのメタ解析のエビデンスレベルは高くなります。しかし、本当のレベル1Aのエビデンスは、メタ解析よりも2つのpivotal studyではないでしょうか。第II相試験をやって良い結果が出た、引き続く第III相試験でも良い結果が出た、臨床開発のセオリーではこれで再現性が確認されたと考えます。そして、さらにもうひとつ第III相試験で同様の結果があれば、再現性は強固になります。メタ解析が「レベル1Aのエビデンス」と言えるかどうかは個別の状況によると思いますが、メタ解析だから最上位のエビデンスという定義だけが独り歩きするのは懸念を感じます。

浦田:いろいろメタ解析の論文を見ていると、何十試験ものデータを統合したような解析があり、一見して疑問視されるようなものも目立ちます。

山中:今はインターネットでPubMedなどからデータを取れるようになり、それを利用した研究は増えていますが、質が低いものは少なくないように思います。

下川:メタ解析では、治療効果の結果とそのP値のみに着目されることが多いかもしれませんが、集められた文献(試験)の選択方法、試験デザインの要約を記載しているか、異質性を検討しているかなど、どのような手順で実施したかも重要なポイントとなります。

瀬戸:では実際のメタ解析を例にとって、私たち臨床医の疑問にお答えいただきたいと思います。

赤松:題材のひとつ目は、術後補助化学療法に関するメタ解析です1)。UFTの術後化学療法に関する、日本で行われた6つの試験のメタ解析です。全体の解析結果では、UFTの術後補助療法が生存を延長するという結果が得られております(図1左)。メタ解析に含められた試験には腺がんのみのものもあれば、腺がんと扁平上皮がんの両方が入っているものもあるのですが、扁平上皮がんに関する有効性を読み取りたいのです。扁平上皮がんでも統合ハザード比はUFT favorableに寄ってはいるのですが信頼区間が1をまたいでおり、有意差は出ていません(図1右)。著者は「扁平上皮がんに関しては患者数が少ないので、証明することはできなかった」と述べています。

瀬戸:腺がんではハザード比がUFTの方に振れており、症例数は少ないが扁平上皮がんも同じ方に振れているから、扁平上皮がんでも術後補助療法として用いてよいのでは、というのがこの論文の趣旨ですね。しかし臨床医としては疑問に思ってしまいます。統計家から見ていかがでしょうか。

下川:下川元継先生扁平上皮がんの解析は症例数が少ないので術後補助療法として用いて良いかは、この結果だけで判断はできませんが、扁平上皮がんでは、他のサブグループ(年齢や性別など)と同じように、UFT favorの傾向がみられています。UFTの治療効果はありそうと読み取ることはできるのではないかと思います。

赤松:もっとも大規模なのはKato et alの試験2)です。他の5試験と異なり、この試験だけは腺がんを対象としており、扁平上皮がんを含んでいません。

山中:腺がんや扁平上皮がんをこみにした“全体”に対するメタ解析もさることながら、“組織別”のメタ解析の結果も検討したい、ということですよね。
まず、このメタ解析に含まれているWada et al3)では、非小細胞肺がん全体でpositive、さらに特にstage Iの腺がんでUFTに良い傾向が出ていました。そこで腺がんサブグループを対象に1,000例規模の臨床試験をして結果がpositiveだった、というのがKato et alの報告です。「2つのpivotal study」とまでは言えないですが、腺がんについてはWada et al、次いでKato et alと再現性が高く、レベル1Aに近いエビデンスだと考えます。その統合ハザード比の結果が0.69(0.56-0.85)だった。腺がんについては強い主張ができると思います。
これに対し、扁平上皮がんでは、やはりUFTが良い傾向にありますが、腺がんで特に有効だと考えられ、その後に試験が進められていた経緯を考えると、扁平上皮がんも腺がんと同じレベルで推奨できるかというと答えはNoで、解析に含まれた症例数(イベント数)が少ないこともあり「判断できない」という解釈になるのではないでしょうか。メタ解析の著者が論文の中で主張されているのもそういうことだと思います。

瀬戸:では扁平上皮がん患者にどう説明するかということですが、逆に術後補助療法をやらなくてもいいというエビデンスもありません。

山中:山中竹春先生リスクとベネフィットのバランスの判断をどう患者に説明するかでしょう。腺がんに関してはやったほうがいいと言えると思いますが、扁平上皮がんに関してはハザード比0.82(0.57-1.19)と共に、リスク・ベネフィットバランスを説明し、先生たちと患者で決めるということになると思います。どう解釈されますか。

瀬戸:UFTはそれほど毒性の高い薬剤ではありませんし、毒性も軽いので、考慮には値すると思います。患者さんには「いい方向に振れているけど、確証のあるデータはない」ということを説明した上で治療決定する、という方法が妥当でしょうね。

赤松:次に、2つの対照的なメタ解析についてご意見を頂きたいと思います。1つ目は、適切と思われる例で、局所進行の患者に対して化学放射線療法を同時(concurrent)でやるのか逐次(sequential)でやるのかというメタ解析です4)。各試験では有意差があったり、なかったりというような状況で、メタ解析を行うとハザード比が0.84(95%信頼区間:0.74-0.95)となり、concurrentの方が良いだろうという結論になっています。
2つ目は、悪いメタ解析の例と言えるかもしれませんが、IV期の非小細胞肺がんに対する維持療法の解析で、維持療法の是非を問うています5)。問題と思われるのは、対照としてプラセボまたはBSCを用いているものを選んでおり、その結果、switch maintenanceとcontinued maintenanceの違いなども考慮せずメタ解析をしてしまっていること、それと症例数がPaz-Ares et alの試験が非常に大きく、他は比較的小規模の試験であることです。

* 編集部注:Ohta et alの論文の筆頭著者はKatoのため、文中ではKato et alと記載した。

山中:1つ目のメタ解析は、私は共著者なのですが、個々の試験の症例数不足もあり一定の結論が得られていない状況でした。加えて、異質性もあまり見られません。先のUFTのケースと同様に、メタ解析の実施には好適な状況であったと思います。同時照射の方が逐次照射に比べて死亡リスクを16%減らせるという推定結果となりました。
2つ目のメタ解析は、switch maintenanceとcontinued maintenance は「違う治療」という認識ですから、統合する試験群がそもそも「同種」の試験であるかの問題が懸念されますね。

赤松:switchとcontinuedが一絡げにされていると、臨床的には意味がありません。また、フォレストプロットを見ると、維持療法がfavorableとするPaz-Ares et al.試験の症例数が多いのに比べて、他の試験の信頼区間は広く、1を大きくまたいでいます。そのため、全体の結果(ハザード比0.80)もPaz-Aresの試験に大きく引っ張られているのではという疑問が持たれます。

瀬戸:こういうメタ解析を見ると質が低いというのはわかるのですが、何をもって質の低さを説明できるのかに困ることがあります。

下川:異質性はどうなのでしょうか。

山中:このメタ解析ではI2=0、さらに異質性の検定はP=0.64です。異質性は確認できないというところでしょう。

赤松:統計的な異質性という点で問題が表面化するわけではないけれども、そもそも「同種の試験」の定義が不十分なところに問題があるように思えます。

浦田:浦田佳子先生同種性という点で、別の事例についてもご意見を頂きたいと思います。化学療法±ベバシズマブの効果の差を比較する試験に関するメタ解析なのですが6)、2つの第Ⅱ相試験(AVF-0757g、JO19907)と2つのpivotalな第Ⅲ相試験(ECOG4599、AVAiL)が含まれています。対照群となる化学療法には2種類のレジメンが混在しています。ランダム化の割付比率も1:1や1:2、1:1:1等が混在しており、どう解釈してよいかということなのですが。

山中:ベースとなる2種類の化学療法はどのようなものですか。

浦田:どちらもplatinum-doublet(CBDCA/PAC、CDDP/GEM)です。今のコンセンサスでは、ベバシズマブの効果はベースによらないと考えられています。

山中:割付比率が1:1:1のAVF-0757gとAVAiLでは、15 mg/kg群、7.5mg/kg群、化学療法単独群にランダム化しています。また、日本のJO19907は15 mg/kg群のみですが、割付比率は2:1を採用しているようです。ECOG4599は、15 mg/kg群 vs化学療法単独群に1:1割付です。浦田先生のご質問は、15 mg/kg群と7.5 mg/kg群の2つの用量をこみにして化学療法±ベバシズマブのメタ解析をする妥当性についてかと思います。これについては、いずれの用量でも(ベバシズマブ上乗せの)ハザード比はあまり違わないので、2つの用量をこみにした解析は一応問題ないと考えられます。論文中にはさらに2つの用量別に行ったメタ解析も提示されており、参考になります。
次に、ベースの化学療法の違いにかかわらずメタ解析を行っている点ですが、どの化学療法ベースでも「(ベバシズマブ上乗せの)ハザード比は同じである」と見なせば、このメタ解析は妥当です。
ところで、統合された結果の0.90というOSハザード比、つまり10パーセントの死亡リスク減に、ベバシズマブ上乗せが見合うかどうかという判断について臨床の先生方はどう考えますか。

下川:ハザード比が0.90で95%信頼区間が0.81-0.99となっていますので、統計的有意差はありますが、この結果が臨床的に意味のある差になっているかを評価する必要があると思います。

瀬戸:異質性がなく同じ傾向があって、かつ症例数も十分で統計学的有意、統合ハザード比に臨床的な意味があるか、差があるかどうかということは、臨床医が考えるべきところですね。

サブグループ解析を斬る

瀬戸:次に、サブグループ解析を考える上で考慮しなければならない点は何でしょうか。

山中:サブグループ解析の問題は、ほとんどがネガティブトライアルにおける検定の多重性の問題です。つまり、全体集団ではネガティブトライアルだったが、いろいろなサブグループ解析をすれば、数打てば当たるではありませんが、どこかのサブグループにおいて有意差が出やすいという問題です。一方、サブグループ解析がネガティブに出た場合も、サブグループで解析したことによる検出力不足なのか、本当に差がないのか区別がつかないという問題がありますね。

赤松:私もネガティブトライアルのポジティブサブグループ解析は過大評価するなと教わりました。どうすればその問題を回避できるでしょうか。

山中:事前に計画(pre-planned)されているかどうかという点だと思います。デザインの段階できちんと統計方法を決めておいて、そのとおりに解析しました、結果がこうでした、というのが透明性の確保や結果の信頼性につながるでしょう。
しかし、一方で計画していなかった解析をすべきでないということではありません。むしろ臨床試験のデータは貴重なものですから、可能な限り活用できる方法を考えるべきで、それが科学的に正しい態度だと思います。重要なのはpre-plannedでやった解析とそうでない解析の結果は区別して報告し、それぞれのエビデンスは別々に考えるべき、ということです。

下川:サブグループ解析は、治療効果がどのサブグループでも一定であることを通じて結論の一般化可能性を保証する目的で実施されます。性別、年齢、PSなどのサブセットにおける結果が同等であれば、一般化が可能と判断できる可能性が高くなります。

瀬戸:他の試験との再現性と、その試験の中の再現性があるということですね。

下川:そうです。どこかのサブグループで治療効果に違いが認められれば、それでダメというわけではなく、次の研究に向けての仮説となる可能性もありますので重要な位置づけとなります。

赤松:そのずれ自体を何らかのシグナルとして、新たな仮説を考える余地が出てくるということですね。

瀬戸:では、実際の事例を見ていきましょう。

赤松:赤松弘朗先生最初は、導入化学放射線療法の後に手術(lobectomyまたはpneumonectomy)を行うtrimodality(A群)の有効性を、導入化学放射線療法後に放射線療法を継続する治療(B群)と比較した臨床試験です7)。プライマリーエンドポイントのOSに関して、A群のB群に対する優越性は示されませんでした。この試験ではサブグループ解析が行われており、A群のうちlobectomyを施行したグループの1例1例について、B群の中から年齢・性別・PS・病期に関して1:1マッチングさせた集団をつくり、OSを比較しています(図2左)。A群のうちpneumonectomyを施行したグループについても同様なOSの比較を行っています(図2右)。この解析結果から、lobectomyを受けた集団に限ってみれば、A群の方がB群よりも有意にOSが優れているという結果が出ています。気になるのは、この解析がpre-plannedではなく、事後解析ということです。

瀬戸:疑問を感じるのは、この解析では、本来lobectomyの方がpneumonectomyに比べて腫瘍量は少ないので予後は良好です。それぞれの術式にマッチされたB群サブグループの成績を比較した場合(つまり、図2の点線同士を比較した場合)、lobectomyにマッチされたB群サブグループの方が成績は良くてよいはずです。しかし、結果は逆でした。この結果を臨床家としてはどう解釈してよいか困ります。

山中:このサブグループ解析を行った経緯として、A群ではpneumonectomyを施行した症例の術後死亡が多かったことから、A群全体のOSが低調だった、そこでA群のうちlobectomyを施行した症例だけに限ってみればA群の方がB群を上回るのではないか?という予想があったのだろうと思います。研究上の過程から生じたサブグループ解析であり、著者たちも”unplanned”と断っていますので、それを踏まえれば、仮説生成の面からは一応まっとうなサブグループ解析と思います。
A群においてlobectomy かpneumonectomyかの選択はsurgeons’ choiceになっています。いずれの術式を選択するかは多くの因子を基にした複雑な判断ですので、図2左の180例と図2右の102例はだいぶ異なる集団だろうと思います。
このサブグループ解析の検討事項としては、マッチングした因子以外の因子が、図2左の90例 vs 90例の間で(あるいは、図2右の51例 vs 51例の間で)どんなバランシングになっているかよく分からないことが挙げられます。また、「“結果的に”lobectomyを施行された症例とそのmatched pairにおけるOSの比較」にどの程度外的妥当性があるのかわかりません。さらに瀬戸先生が指摘された臨床的に説明がつかない点があることも重要です。

赤松:Kaplan-Meier曲線では結構差がありそうに見えます。しかし、それだけを切り取って見ると危ないですね。

下川:lobectomy群とpneumonectomy群の背景因子をマッチングさせているわけではないと思いますので、もし、それぞれの群できれいにマッチできていたと仮定しても、lobectomy群とpneumonectomy群を直接比較することはできないです。

赤松:その後、同じような試験がいくつか計画されましたが、やはり再現性は得られていないようです。次はLux-Lung 3とLux-Lung 6両試験の統合解析の事例からです。EGFR遺伝子変異陽性の非小細胞肺癌患者を対象に、アファチニブとシスプラチンベースのplatinum-doubletとを比較した2つの第III相試験のデータが統合されました8)。PFSは、統合解析でアファチニブ群の優越性が示されました。OSについても、統合解析でアファチニブの方が有意に優れていました。問題になっているのは、遺伝子変異サブグループ別のOSの検討です。EGFR変異のexon 19欠失(del19)サブグループとexon 21のL858R変異サブグループでは、フォレストプロットが違う方向を向いているということが判明しました。

瀬戸:OSの検討では、全体集団を対象とした統合解析でポジティブだったが、その後変異別に分けて調べてみると、特にdel19サブグループで統計的有意にOSが優れていたことがわかったという経緯をたどっています。このサブグループ解析は信頼できると考えて良いのでしょうか。

山中:経緯については瀬戸先生の言われている通りですが、del19サブグループにおいて、アファチニブが化学療法に比べてOSが上回るという結果は、Lux-Lung 3(HR=0.54, p=0.0015)とLux-Lung 6(HR=0.64, p=0.0229)で再現性がみられており、サブグループ解析ながらその点は重要視しています。del19でのRCT、あるいはL858RでのRCTを実施することは困難ですから、臨床試験毎にサブグループ解析の再現性を検討していくという視点も重要になります。

下川:他の試験のサブグループ解析で同様の結果が示されていれば妥当性は高まります。ただし、あくまでサブグループ解析の結果ですので、それを考慮に入れた上で評価すべきでしょうね。

赤松:L858Rについては、OSに関して、化学療法の方がアファチニブを上回っているのですが、どう考えるべきでしょうか。

山中:L858Rサブグループについては2試験共にN.S.であり、かつアファチニブの方が劣る傾向が再現されていますが、del19においてアファチニブが優越性を示した観察に比べると、現時点でこれ以上考察を進めるのは難しいでしょう。

瀬戸:両レジメンの毒性プロファイルの差を考慮すると、実際にこの結果は臨床的な差異を反映している可能性があります。すなわち、del19とL858Rの変異の違いによって、腫瘍がEGFR阻害薬に対し違う振る舞いを示しているという解釈が否定できないということです。第3世代EGFR-TKIが出てきたので、一次治療で獲得耐性を示すT790M変異がどれだけ出るかということも臨床に影響を与えてくるでしょう。

瀬戸:今回はお忙しい中、2名の現役臨床家と2名の生物統計家にお集まりいただきありがとうございました。統計的な解釈を踏まえながら、現場で一人一人の患者のことを考えていかなければいけないということは間違いありません。今回のメタ解析、およびサブグループ解析に対する解説が、より正しい治療選択に役立てばと思います。今日はありがとうございました。

用語解説

* I2 index…0~100%の値を取り、高いほど試験間の異質性が高いとされる。大まかな評価基準としては、I2 ≈ 25%で小さな不均一性、I2 ≈ 50%で中程度の不均一性、I2 >75%で大きな不均一性と考えることが多い。

  1. J Clin Oncol. 2005; 23(22): 4999-5006.
  2. N Engl J Med. 2004; 350(17): 1713-21.
  3. J Clin Oncol. 1996; 14(4): 1048-54.
  4. J Clin Oncol. 2010; 28(13): 2181-90.
  5. Clin Lung Cancer. 2015; 16(5): e15-23.
  6. Ann Oncol. 2013; 24(1): 20-30.
  7. Lancet. 2009; 374(9687): 379-86.
  8. Lancet Oncol. 2015; 16(2): 141-51.