臨床試験における統計解析：非劣性試験はどんなときに必要か？

仮説検定とは何ですか？の記事では、証明したい「対立仮説」と否定したい「帰無仮説」を立てて仮説検定を行うことによって、臨床試験で得られたデータに差があることを判断するというお話をしました。

判断の基準はあらかじめ設定した有意水準と、検定で計算したP値です。

判断の結果、有意差が認められず「帰無仮説」を否定できない場合には、「対立仮説が正しいとは言えない」という結論になることもわかりました。

このように仮説検定を行って「差がある」ことを判断するのが優越性試験です。

臨床試験とは比較する試験

新規の薬剤や治療方法の臨床試験を行うには「比較相手」を設定します。その相手に対して新しい治療がどのような結果になるかを調べるのです。

比較の型式として、優越性試験、非劣性試験、同等性試験があります。

信頼区間を使って見てみましょう。

優越性試験は信頼区間が「差＝0」を超えていれば成功。
非劣性試験は信頼区間が「非劣性マージン」を超えていれば成功。
同等性試験は信頼区間が「両側の同等性マージン」の間にあれば成功。

日本では過去に、新規治療と実薬治療との間に有意差（統計学的に意味のある差）がないことによって同等であると解釈していた時代があったようです。

ところが、症例数が少ない試験では「有意差がない」となるため、本当に差がないのか症例数が少ないだけなのか理由がわかりません。

この場合は「有意差は認められなかった」ということに過ぎず、有意差がない⇒同じと結論付けることはできないのです。

同等性を示すには前述のとおり信頼区間が両側の同等性マージンにすっぽりと入っていなければなりません。

そのためには信頼区間が小さくなるように膨大な症例数が必要となります。

そこで登場したのが非劣性試験です。

非劣性試験で比較相手となるのは実薬治療です。

非劣性試験が必要になるのは主に、新規治療と実薬治療との効果の差が小さく、有効性を示すためには非現実的なほど膨大な症例数が必要となる場合です。

もう1つは、主要評価項目である有効性での効果は同等であっても他のメリットがある場合。
例えば、副作用が少ないなど安全性に優れている、静脈内投与しかできなかったが経口投与が可能になって投薬の簡便性が向上するなどです。

「劣っていない」ことのみに注目するため、結果的に優れていてもOKです。
しかし、非劣性を証明することを目的として試験を実施し、結果的に優れていたとしても、導き出される結論は「非劣性が示された」ということだけですので、ここも注意が必要です。

非劣性試験で重要なのが「マージン」という考え方です。

上の図で見たように、非劣性試験はマージンと信頼区間によって成功かどうか判断されます。非劣性マージンとは「実対照薬よりも劣る幅として臨床的に許容される最大のレベル」とされています。

劣っていないかどうかのみに注目し、優越性は成立してもしなくてもよいので信頼区間の片側のみに注目します。

マージンの設定については、ICH-E9「臨床試験のための統計的原則」のQ&Aにヒントが示されています。

重要なのは、マージンは専門家と合意のうえで設定し、妥当性の根拠を明示すること、試験開始前に必ずプロトコールに記載することです。
優越性を目的とした試験なのに、優越性が認められなかったために途中から非劣性を目的とするのはNGなのです。