LCCE Topic
2018年03月号vol.78
LCCE 特集:座談会

Real World Dataのための統計解析 ~プロペンシティスコア解析を中心に~ 第3

山中竹春先生室谷健太先生
愛知医科大学病院
臨床研究支援センター
室谷健太 先生
横浜市立大学大学院
医学研究科 
臨床統計学
山中竹春 先生

プロペンシティスコアの推定

過去2回(LCCE 2017年5月号、9月号)ではプロペンシティスコアとは何か、何ができる方法なのかを紹介してきました。今回はプロペンシティスコアマッチングと並び頻用される解析手法の1つである逆確率重みづけ(Inverse Probability of Treatment Weighting: IPTW)法を実例と共に紹介します。その前に、復習も兼ねてプロペンシティスコアの推定について重要なポイントを確認しておきましょう。

A vs Bの2群比較を考えるとき、プロペンシティスコア(p)とはA治療を受ける確率のことです(1-pはB治療を受ける確率)。一般にpの推定はロジスティック回帰を使って行われます。このとき重要なのは、どの説明変数をロジスティック回帰に投入するべきか?という点です。議論はありますが、(1)治療選択に関わるもの、(2)エンドポイント(予後)に関わるもの、を入れた方が望ましいと言われています。ロジスティック回帰モデルの当てはまりの良さはC統計量などで評価することが可能です。第2回で1:10 ruleについて触れましたが、ロジスティック回帰に投入できる説明変数の数の目安は保守的に見てmin(Aを受けた人数、Bを受けた人数)÷10個ですから、仮にA、B共に100例程度の症例数が確保できていれば、10個程度の説明変数が投入できる計算になり、実用的にはpの推定に問題は生じないでしょう。これらの議論は星野、岡田[1]によくまとめられています。

IPTWについて

次に、プロペンシティスコアpを使った調整解析であるIPTWを説明しましょう。pが近い被験者の背景情報は似る、という特徴があったことを思い出してください。プロペンシティスコアマッチングはこの特徴を使い、A群、B群でpが近い者同士をペアにすることで、マッチング後のpの分布、すなわち患者背景を揃える手法でした。IPTWもA群、B群のpの分布を揃えることを目指しますが、アプローチがマッチングと異なります。

図1(a)はA群、B群の元のデータのpの分布を表しています。点線をp=0.2のところに引いています。pもしくは1-pはそれぞれA群、B群に割付けられる確率だったことを思いだせば、p=0.2となる被験者はA群では珍しく、(1-p=0.8から)B群では比較的よくいる被験者と考えることができます。そこで、その珍しさに応じて1被験者あたりの重みを大きくして、p=0.2となる人の分布のバランスがA群とB群の間で取れるようにします。具体的には、A群の被験者ならば1/p倍、B群の被験者ならば1/(1-p)倍することで、両群のpの分布が同じになるようにします。ここでは、A群でp=0.2の被験者は1/0.2=5、すなわち5人分の重みをもち、B群でp=0.2の被験者ならば1/(1-0.2)=1.25人分の重みを与えます。それぞれ5倍の人数、あるいは1.25倍の人数に水増しするイメージと言えば、わかりやすいでしょうか。珍しい被験者には大きな重みを与えることでA群とB群のpの分布のバランスが取れるように調整するのです。これを全てのpについて実行すれば、理想的には図1(b)のように両群のpの分布が完全にバランスすることが期待できます。これがIPTWの本質であり、目指すところであります。あとは統計学的に重みづけ解析を行えば両群のpのバランスを取った解析結果を得ることができます。

IPTWの利点はpを計算できた被験者全員のデータを解析に使える点です。プロペンシティスコアマッチングの場合は、A とBで人数が不均衡のとき、小さい方の被験者数に合わせられてしまう欠点がありましたが、IPTWにはそれがありません。他方、欠点としてはpが十分小さい(or 大きい)被験者がいたとき、一方の群の被験者で重みが不当に大きくなりすぎて解析結果を偏らせるリスクがあります。その場合は、pが十分小さい(or 大きい)症例は解析から除外する方法が取られたりします。例えば1~99パーセント点に収まるpをもつ被験者を解析対象にするなどの工夫が取られます。

プロペンシティスコアの説明が終わりましたので、2つの実例を題材として、プロペンシティスコア解析の理解を深めていきましょう。

Stage I非小細胞肺癌における術後補助化学療法の効果

Tsutani et al [2] はECOG PSが1以下であるステージ1非小細胞肺癌(NSCLC)患者800人を対象に、術後補助化学療法を受けた191人と受けなかった609人をプロペンシティスコアマッチングにより比較しました。まず、プロペンシティスコア推定に使った説明変数について次の記載があります。

(Statistical Analysis内) The variables were age (continuous), gender, smoking history, comorbidity, postoperative complication, histology, size of the invasive component size (continuous), and status of lymphatic, vascular, and pleural invasion.

ここに挙げられた変数に限っては群間のバランスが取れていると解釈されます。続いて次の記載があります。

(Statistical Analysis内) The C statistic of the variables was 0.688 (95% confidence interval [CI], 0.641-0.735, P<.0001). For matching, adjuvant chemotherapy and observation pairs with an equivalent propensity score were selected by a 1-to-1 match with a caliper width of 0.2 of standard deviation.

プロペンシティスコアを推定するときに用いたモデルの当てはまりの良さをC統計量で評価し、マッチング手法について記載しています。C統計量は0.8以上あることが望ましいですが、本論文のように0.688くらいであっても重要な因子がプロペンシティスコア推定に組み込まれていれば、あまり大きな問題にはなりません。一般的に少なくとも0.6程度は確保しておきたいところです。本論文のように、何を使ってプロペンシティスコアを推定したか、その当てはまりはどのくらいだったかを明示することは重要です。

図2はRFSのKaplan-Meier曲線です。(a)は元の集団での結果ですが、両群で差は見られません。しかし(b)のようにプロペンシティスコアマッチングで2群の比較可能性を高めた集団で検討してみると、術後補助化学療法群の予後が良いことが確かめられます。プロペンシティスコアを用いた解析による恩恵と言えるでしょう。

高齢者におけるReal World Data解析

Langer et al [3] はSEER-Medicareデータベースから抽出した1,706名の進行再発非小細胞肺癌に対してcarboplatin-paclitaxel(CP)療法もしくはbevacizumab-carboplatin-paclitaxel(BCP)療法を受けた高齢者(65歳以上)集団を抽出し、CPに対するBCPの有効性を検討しました。この研究には前身となる研究があります。Zhu et al [4] は同じデータベースの2006-2007のデータを用いて高齢者集団におけるCPとBCPの比較を行いました。その論文ではbevacizumabの上乗せ効果にネガティブな結果が得られていました。しかし、当時はbevacizumabが上市されて、それ程時間が経過してなかったこともあり、解析に使われたデータがReal World Dataとなり得ていたのか疑問の余地が残っていました。そこで、bevacizumabの使用経験を考慮し、同じデータベースで期間を2006-2009に拡張して検討した結果がこの論文です。

解析は上述したIPTWの考え方に従って、患者ごとにプロペンシティスコアpの逆確率を計算し、それを重みとしたAdjusted Kaplan-Meier曲線 [5]を用いて行われました。図3にZhu et al [4] のOSの結果(a)と本論文のOSの結果(b)を示しました。Zhu et alではBCPとCPの間で差が見られませんでしたが、Langer et alではBCPがOSを有意に延長しました。MSTで2カ月の延長という結果であり、高齢者に対するBCP療法の有効性が確認されるという結果が報告されました。

ただし、Langer et alでは、プロペンシティスコアを推定するロジスティック回帰モデルに使った因子が明記されていませんし、また、当該ロジスティック回帰モデルのC統計量の評価は行われていません。

おわりに

3回にわたりReal World Data解析のための代表的な方法であるプロペンシティスコアの考え方と、それを利用した実例を紹介してきました。プロペンシティスコア解析が威力を発揮する状況はいくつか考えられますが、イベント数があまり多くないと予想される術後補助化学療法における群間比較や、RCTが組み込みにくい集団(高齢者集団など)での群間比較は、その一例です。今後、Real World Dataはますます重要性を増していくことが期待されます。本稿がプロペンシティスコア解析の概要を理解するための一助になれば幸いです。

参考文献:

[1] 星野、岡田、保健医療科学. 2006; 55(3): 230-43.
[2] Tsutani et al. J Thorac Cardiovasc Surg. 2014; 148(4): 1179-85.
[3] Langer et al. Lung Cancer. 2014; 86: 350-7.
[4] Zhu et al. JAMA. 2012; 307(15): 1593-601.
[5] Cole and Hernán. Comput Methods Programs Biomed. 2004; 75: 45-9.