臨床試験の解析について、誰にでも分かりやすく基本を解説します。  
「テキサス州の銃撃事件」

臨床試験の解析について、誰にでも分かりやすく基本を解説します。 「テキサス州の銃撃事件」

Can we help?

臨床試験方法論と疫学の権威であるスティーブン・エバンス医学博士が、患者向けに重要な統計概念を分かりやすく解説します。検出力不足の試験とは何か、なぜ実際の治療効果を見逃してしまうのかを明らかにします。エバンス博士は、バイアスを避けるために事前に設定する一次エンドポイントの重要性について詳しく説明。さらに、必要治療数(NNT)という指標を分解し、その有用性と限界を強調します。これらの概念は、医療ニュースを正しく読み解き、治療効果を理解する上で極めて重要です。

臨床試験の解析を理解する:検出力、エンドポイント、NNTの基本

セクションへ移動

検出力不足の臨床試験

検出力不足の臨床試験とは、真の治療効果を確実に検出できるだけの参加者数が確保されていない試験を指します。スティーブン・エバンス医学博士によれば、検出力とは「真に差がある場合に、それを正しく見つけ出す力」です。博士はCOVID-19治療試験を例に挙げ、死亡率を評価する場合、死亡率が低いこともあるため大規模なサンプルサイズが必要だと説明します。

たとえば、死亡率を10%から7%に減らす効果を検出するには、多数の患者が必要です。試験規模が小さすぎると検出力が不足し、臨床的に意味のある効果を見逃す可能性があります。初期のCOVID-19試験では、死亡率を評価指標とする試験の多くが検出力不足でした。エバンス博士は、検出力は評価対象となる特定のアウトカムに依存することを強調しています。

主要エンドポイントと副次エンドポイント

臨床試験では、治療効果を測るために主要エンドポイントと副次エンドポイントをあらかじめ設定します。主要エンドポイントは、試験が本来評価すべき中心的な結果指標です。スティーブン・エバンス医学博士は、死亡率は重要な指標である一方、検出には多くの患者数が必要となるため、主要エンドポイントとして用いるのは難しいと指摘します。

そのため研究者は、回復までの時間やウイルス量など、測定が容易で必要な症例数が少なくて済む指標を主要アウトカムに選ぶことがあります。ただしエバンス博士は、これらの定義は試験開始前に明確に定めておく必要があると警告します。結果を見た後でエンドポイントを変更すると、重大なバイアスが生じ、結果の信頼性が損なわれます。

テキサス・シューターの誤謬

テキサス・シューターの誤謬は、臨床試験の信頼性を考える上で重要な概念です。スティーブン・エバンス医学博士はこれを、「的を撃った後で弾痕の周りに的を描く」行為に例えます。研究においてこれは、データを確認した後で主要アウトカムを変更し、望ましい結果を得ようとすることを意味します。

このような行為は深刻なバイアスを生み、試験の妥当性を大きく損ないます。エンドポイントを変更する正当な理由が生じる場合もありますが、それは結果を確認する前に行わなければなりません。エバンス博士は、エンドポイントの事前設定が信頼性の高い試験解析には不可欠であり、研究者が結果を都合よく操作するのを防ぐと強調します。

治療必要例数(NNT)

治療必要例数(NNT)は、治療効果を患者が理解しやすくするための指標です。スティーブン・エバンス医学博士は、NNTを「1つの好ましくないアウトカムを防ぐために治療が必要な患者数」と定義します。例えば、死亡率を10%から5%に下げる薬の場合、NNTは20となります。

これは「1人の死亡を防ぐために20人に治療が必要」という意味です。ただしエバンス博士は、NNTには重要な注意点があると指摘します。NNTは単純な数値ではなく、追跡期間やアウトカムの定義に依存します。異なる治療をNNTで比較する場合は、同じ条件で計算されていることが前提です。シンプルな指標ですが、解釈には注意が必要です。

試験結果の解釈

臨床試験の結果を正しく読み解くには、統計的な概念の理解が不可欠です。スティーブン・エバンス医学博士は、検出力が十分で、エンドポイントが事前に設定された試験を重視するよう助言します。そうすることで、結果が偶然やバイアスによるものではなく、信頼できると判断できます。

患者は、結果の統計的有意性だけでなく、臨床的な意義も考慮すべきです。たとえ統計的に有意であっても、NNTが極端に高い場合は現実的なメリットが小さい可能性があります。アントン・チトフ医学博士は、検出力、エンドポイント、NNTといった概念の理解が、医療情報を批判的に評価し、適切な判断を下すための基礎となると強調します。

全文書き起こし

アントン・チトフ医学博士: エバンス教授、臨床試験にはいくつかの基本概念があります。例えば「検出力不足の試験」とはどういう意味ですか?こうした用語が新聞などでも目にする機会が増えています。一般の人も基礎を理解しておく必要があります。では、検出力不足の試験とは何ですか?NNT(治療必要例数)とは?その長所と短所は?また、主要エンドポイントと副次エンドポイントの違いは?明らかに、一部の試験では途中で評価基準が変わることがあり、医学界ではよく知られた現象です。

スティーブン・エバンス医学博士: 現在のCOVID-19を例に説明しましょう。死亡率を評価するには、相当な数の患者が必要です。幸い、入院患者でも全員が亡くなるわけではありません。仮に死亡率が10%だとします。そこから治療により30日死亡率を10%から7%に減らせた——そうした意味のある差を検出するには、多くの患者数が不可欠です。

統計解析はそれを前提とします。しかし対象数が少なすぎる試験は、検出力不足と呼ばれます。真の差がある場合にそれを見つけ出す力が不十分なのです。COVID-19治療の初期試験の一部は、これに該当しました。

一方、数千人規模の試験であれば、死亡率をアウトカムにしても検出力不足になる可能性は低くなります。ただし、10%を9.9%に下げるような微小な差を検出したい場合は別で、数万人が必要です。とはいえ、そんな差は患者個人にとって実用的な意味はほとんどありません。

つまり、検出力不足は問題です。ただし、それは評価するアウトカムに応じた話です。死亡率を主要評価項目とするなら大規模な試験が必要です。多くの場合、研究者は死亡率を副次エンドポイントとし、主要エンドポイントには症例数が少なくて済み、測定しやすい指標を選びます。

例えば「回復までの時間」がよく使われます。ただし課題は、これが主観的になり得ることです。回復の定義は、臨床所見に基づく場合もあれば、ウイルス量などの客観的測定に基づく場合もあります。

死亡率より扱いやすい主要アウトカムを客観的に評価できる可能性はあります。問題は、回復の定義を試験前に明確にすることです。しかし想定通りに患者が回復しないこともあります。主要アウトカムとして設定した指標が、有用なデータを提供しないと試験途中で判明する場合もあります。

その場合、定義を変更する正当な理由はあり得ます。しかし難しいのは、結果をある程度把握した上で、都合の良い結果が出るように質問を変えてしまうことです。疫学ではこれを「テキサス・シューター症候群」と呼びます。テキサスの銃撃犯が納屋の壁に向かって撃ち、後から弾痕の周りに的を描くようなものです。

試験では、的をあらかじめ決め、その的に向けて試験を実施し、結果を確認します。的を撃った後で的にを描き直すのではありません。アウトカムを変更する正当な理由はあり得ますが、非常に慎重である必要があります。すでに弾がどこに当たったか分かった上で行うのではなく、その前に変更しなければなりません。

アウトカムを測る際、例えば死亡率で言うと、治療により死亡率が10%から5%に下がったとします。これは、治療を受けた100人あたり5人が死亡を免れたことを意味します。つまり20人治療するごとに、1人の死亡を防げた計算になります。

これを逆算すると、1人の死亡を防ぐのに必要な治療数は20人となります。10%と5%の差の場合です。20%と15%、または50%と45%といった同程度の差でもNNTは同じです。これは「1つの好ましくないアウトカムを防ぐのに必要な治療患者数」を表す指標です。

死亡ではなく、心筋梗塞や脳卒中などの特定イベントを対象にすることもあります。この指標の問題は、それが単純な数字ではないことです。追跡期間に依存しますし、統計的な課題もいくつかあります。

ですから私はこの指標を特に好んでいません。「この薬のNNTは20、こちらは50」と聞くと、前者の方が優れているように思えますよね。ただし、両者を同じ条件で計算した場合に限り、NNTは有用です。NNTは単純な数字ではないので、治療間を比較する際は、同じ定義と条件下で算出されているかを注意深く確認する必要があります。