LCCE Topic
2017年09月号vol.75
LCCE 特集:座談会

Real World Dataのための統計解析 ~プロペンシティスコア解析を中心に~ 第2

山中竹春先生室谷健太先生
愛知医科大学病院
臨床研究支援センター
室谷健太 先生
横浜市立大学大学院
医学研究科 
臨床統計学
山中竹春 先生

プロペンシティスコア解析≠RCT

前回はReal World Data(RWD)の統計解析手法の1つであるプロペンシティスコアを紹介しました。A vs Bという2群比較において、ある患者のプロペンシティスコアとは“その患者に治療Aが施行される確率p”と定義されます。1‐pは治療Bが施行される確率になります。前回の解説で、プロペンシティスコアが近い患者同士は背景因子が似る傾向があることを説明しました。したがって、治療Aと治療Bを施行された患者集団から、プロペンシティスコアが近い患者のペア(a1, b1), (a2, b2), (a3, b3), (a4, b4), …を選択すると(プロペンシティスコアマッチングと呼びます)、患者集団(a1, a2, a3, a4, …)と患者集団(b1, b2, b3, b4, …)の間で背景因子は揃います。

プロペンシティスコア解析を使えば後ろ向きデータなのにランダム化比較試験(RCT)のようなことができると言われている理由はここにあります。RCTは比較したい2群間で背景因子をバランシングして比較可能性を高める最強の手法ですが、プロペンシティスコア解析はそれを模しているわけです。事実、プロペンシティスコア解析は、成立を確かめようのない仮定(SITA; Rosenbaum and Rubin 1983)の下でRCTの結果となり得ることが数学的に証明されています(Rosenbaum 2002, Rubin 1974, 1977)。ただし、実学的に考えれば、成り立つかどうか分からない仮定の検証を議論するよりも、プロペンシティスコア解析はCox比例ハザードモデル等と同様に、多変量解析の1手法であってRCTとは別物だ、と考えた方がよいと思われます。実際、プロペンシティスコア解析で得られたエビデンスとRCTで得られたエビデンスに乖離があることが、いくつかの論文で指摘されています(例えば Zhang et al. 2014)

以上のことは頭に留めておく必要がありますが、一方で、後ろ向きにA vs Bの2群比較をしようとしたときに、プロペンシティスコア解析が回帰分析に基づく調整解析の限界をうまくカバーしていることも事実です。

1:10 ruleの打開

後ろ向き研究で2群比較をしようとしたとき、最大のポイントは「背景因子をどこまで調整するか」という点です。伝統的な調整解析であるCox比例ハザードモデルやロジスティック回帰は、説明変数として治療(A or B)を表す2値変数を含め、さらに複数の重要な因子(例えば、性別、ステージ、組織型、ECOG PS)を投入します。これにより、統計モデル上は、性別、ステージ、組織型、ECOG PSの2群間のアンバランスを「調整」した上で、A vs Bのハザード比やオッズ比を推定しようとする方法です。これが調整されたハザード比(adjusted HR)やオッズ比(adjusted OR)です。

調整因子として重要なものが不足なく入っていることが必要ですが、調整因子の数は目安として1:10 ruleに従います。すなわち1個の調整因子を入れたければ目安として10イベントが必要という経験則です(nではなくイベントであることに注意)。しかし、がん臨床研究においてイベントの数がこの条件を満たさない場合もあります。例えば、上記の例ですと、治療(A or B)を含めて5因子ですので、50イベント以上が必要になります。例えば、計100例を対象とした術後補助化学療法の研究で50イベント以上を観測するのは困難です。したがって、5因子全部を含めたCox比例ハザードモデルやロジスティック回帰は要注意です(学会ではよく見かけますが)。

プロペンシティスコアはその点をうまくカバーします。図1の(1),(2)はどちらも回帰分析を使った調整法を表しています。(1)が伝統的な調整法、(2)がプロペンシティスコア(p)を使った調整法を表しています。伝統的な方法(図1.(1))ではエンドポイントのイベント数が調整因子の数に直結していますが、プロペンシティスコアを使う方法(図1.(2))では治療を受けた症例数(正確にはmin( Aを受けた人数, Bを受けた人数 ))が調整因子の数を決めます。つまり、こういうことです。調整できる因子数は、伝統的な方法なら「イベント数÷10」が目安だが、プロペンシティスコアならそれを「min( Aを受けた人数, Bを受けた人数 )÷10」にできるということです。調整因子をプロペンシティスコアだけに要約したご利益と言えるでしょう。

具体的な問題で考えてみましょう。例えば、A薬 vs B薬の術後補助化学療法のOSを比較したいとします。調整因子は、年齢、性別、ECOG PS、病期、分化度、組織型、胸膜浸潤の有無、術前療法の有無の8個であったとします。データは後ろ向きに集められた300例(A薬100例、B薬200例)とし、そのうちイベント数(死亡件数)は30件であったとします。このとき、Cox比例ハザードモデルで治療A vs Bを比較する場合、「治療群+8個の調整因子=合計9個」を説明変数とした次のCox比例ハザードモデル

を当てはめて、治療群の調整ハザード比で比較する必要があります。しかし、イベント数は30件ですので、30÷10=3個がCox比例ハザードモデルに投入できる因子の目安であり、9個の説明変数は多すぎます。伝統的な方法の限界のひとつはここにあります。

次にプロペンシティスコアを考えてみましょう。プロペンシティスコアpは、次のロジスティック回帰を当てはめることで推定されます。

min(A群の人数, B群の人数)÷10個までの背景因子をロジスティック回帰モデルに投入することが可能です。今の例ではmin(A群の人数, B群の人数)÷10 = min(100,200)÷10=100÷10=10個まで投入可能で、右辺は8個の説明変数ですのでこの例なら問題ありません。上のモデルからαを推定すれば、

から患者毎のプロペンシティスコアが推定できます。その後、以下に述べるようなプロペンシティスコアを用いた解析をすれば、8個の説明変数に関して調整した解析を行ったことになります。

回帰分析の説明変数として入れる方法

これは直感的でシンプルです。8個の調整因子をいったんプロペンシティスコアpに集約して、pを調整することで8個全部を調整したことにしよう、というアプローチです。例えば、Cox比例ハザードモデルならば次のモデル

数式

を当てはめて、治療群のハザード比を求めれば、それは統計学的には8個の調整因子で調整したハザード比と解釈されます。(1)は説明変数が9個だったのに対して、(2)は説明変数がわずか2個です。総イベント数は30件でしたから、(2)のモデルなら目安の1:10 ruleをクリアできます。しかし、このアプローチはプロペンシティスコアpがハザードに対して直線的であることを仮定しており、モデルの妥当性という面で若干疑問が残ります。

プロペンシティスコアマッチングを用いる方法

これまで何度か述べてきたように、プロペンシティスコアpの特徴は“pが同じような人の背景因子は似る傾向がある”でした。治療Aを受けたスコアpの人に対して、治療Bを受けたスコアpの(またはpに近い)患者さんをマッチングすると、マッチングしたペアは“2人の間で背景因子はほぼ同じで、違うのは治療群のみ”、というRCTの状況になっていることが期待できます。治療Aを受けた各々の人に対して、その都度このマッチングを行っていけば、背景因子を揃えた2治療の集団ができることが想像できます。あとはこの2治療の集団に対して解析を行えば、「後ろ向きの研究なのにRCTのときのような2治療の比較ができるようになる」というのがプロペンシティスコアマッチング解析のうたい文句です。

この手法には欠点もあります。それは比較したい群の症例数が不均一であるとき、解析対象の症例数が減ってしまうという点です。A治療を50例、B治療を500例受けたデータがあったとします。仮にマッチングが全員できたとしても症例数の最大値は50 vs 50の100例の解析になります。せっかく多くの症例数のデータがあったとしても全ての情報を有効に使えなくなるという事態が起こりえます。

これについては、例えば1:nでマッチングするとか、なるべくマッチングする相手がいなくなることを防ぐために、どこまでのスコアの違いは“同じ”と見なすか、その幅(caliper)を広くとる、などの処置を取ることもありますが、本質的解決には至りません。特にcaliperを大きくすることは、そこまで背景因子が似ていない人も強制的に似ている、と見なしてマッチングさせることになるわけですからマッチング後の群間の比較可能性が低下するリスクがあります。そのチェックのために、プロペンシティスコアマッチングをした後は、群間でスコアの分布が均一になったかどうかを確認する目的で図2のようなバイオリン・プロットを作ったり、standardized differenceをマッチング前後で評価したりして、マッチングによって集団が均一になったことを確認することが行われます。周辺の話題はHeinze and Jüni 2011に分かりやすくまとめられています。

プロペンシティスコアを用いた最後の解析は、逆確率重みづけ(Inverse Probability of Treatment Weighting; IPTW)法と呼ばれる方法です。この手法は群間で症例数が不均一であったとしても全症例のデータを使える利点があります。IPTW法については次回に述べたいと思います。

参考文献:

[1] Rosenbaum P.R. and Rubin D.B. Biometrika, 1983; 70(1), 41-55.
[2] Rosenbaum P.R. Observational Studies, 2nd edn. 2002. Springer-Verlag, New York.
[3] Rubin D.B. J Educ Psychol. 1974; 66(5), 688-701.
[4] Rubin D.B. J Educ Behav Stat. 1977; 2(1), 1-26.
[5] Zhang Z, Ni H and Xu X. J Crit Care. 2014; 29(5); 886. e9-15.
[6] Heinze G and Jüni P. Eur Heart J. 2011; 32(14): 1704-8.