なんかバイアスとか嫌なんですけど
突然言われても困りますが、確かにバイアスや交絡因子は困った存在です
どうすればいいんですか?嫌になってきたんですけど
ではバイアスや交絡についてや、その対策についてみていきましょう!
交絡ってなんだろ?
バイアスと交絡因子について
さて、統計解析をしていると、最初の壁がこのバイアスや交絡因子の存在だと思います。
きちんと意識してあげないと、基本的な統計解析では太刀打ちできません。でも安心してください。対策を紹介していきます。
肺がんが「あり群」と「なし群」でデータを比較しています。
喫煙をみてください。ありのn数と割合(%)が出ています。「あり群」で喫煙率が80%、「なし群」で20%で有意差があるので、肺がんの人は喫煙率が高いことが予想されます。
同じようにライターの所有率を見てください。
こちらも「あり群」が40%、「なし群」が10%で有意な差があります。
では、「ライターの所有率が高いと肺がんになる」のでしょうか?
ここでは、バイアスと交絡因子について順番に見ていきながら理解を深め、その対策を勉強していきます。
バイアスについて
バイアスとは意識的に調整しなければ、必ず生じる結果の方よりで、系統誤差ともいいます。まぁ、これはおいといて、その中の選択バイアスと情報バイアスについてきちんと理解しましょう。
選択バイアスは、対象者の背景因子に偏りがある場合をいいます。対象者を選ぶときや、グループ分けする時に発生します。
特にグループに分けるときに、どちらか一方のグループに高齢者が偏ったり、男性が多かったりする場合、年齢や性差の影響により結果の解釈が難しくなる場合があります。
また、介入研究の被験者を募るとき、研究への参加意欲が高い人に偏る可能性もあります。そもそもの意欲が高いので、介入効果が高く出てしまう可能性があります。
情報バイアスは、得られた情報やデータに偏りがある場合をいいます。
研究者に先入観があったり、対象者がうまく思い出せなかったり、そもそも調査の妥当性が低く正確ではなかったり。そういう状態は情報バイアスがかかっており、結果がゆがんでいる可能性があります。
交絡因子について
続いて交絡因子についてです。
ライターの所有率と肺がんに見かけ上の関係が見られましたが、おそらくこれは上のような関係図になっていると予想できます。
ライターの所有率は喫煙してる人で高くなります。また、喫煙率が高い人は肺がんの有病率も高くなります。そうすると本来は全く関係ないライターの所有率と肺がんの有病率に関連が見られてしまいます。
この場合、喫煙が交絡因子になります。
この例の場合はわかりやすいですが、実際には交絡因子を見つけるのは統計的な視点と、その分野の専門的な視点が必要になります。
バイアスと交絡因子の対策方法
ではどうすればいいか。
まず、データを取得する前のバイアスや交絡因子への対策です。
バイアスを制御するには二重盲検法による無作為比較試験を行うことです。二重盲検法というのは対象者と研究者ともに、どちらに介入しているかわからない状態で研究する方法です。また、無作為割り付けを行ってグループを分けることで、統計的に2つのグループは同等とみなせるので選択バイアスを抑制できます。
ただ、無作為比較試験を実際にデザインして実施するのはなかなか難しいです。
なので、バイアスはどんな研究でも必ずかかると思っておきましょう。その上でどういったバイアスがあるか認知しておくことが大切です。
一番怖いのが、バイアスがかかっていることを知らない・気づいていないことです。まずはバイアスを認知しましょう。
続いて、データを取得した後のバイアスや交絡因子への対策です。できることは交絡因子の調整を行うことと、バイアスを報告することです。
交絡因子やバイアスは、統計解析によって調整することができます。その中でも層別化解析はとても簡単な手法です(後述)。そのほか、多変量解析や傾向スコアマッチング法などもありますが、今回は割愛します。
ただ、統計解析によってバイアスや交絡因子の対策をするのには、多くの標本数が必要になります。数百~数千のデータがあれば、このような方法を用いることで調整することもできます。
ただ、研究の規模が小さいと、統計解析で調整することも難しいです。
その場合は、先行研究の結果を参考に考察したり、研究の限界としてきちんと報告すれば問題ありません。ただし、バイアスが強くかかった状態の研究は、特殊な対象となり結果を一般化しづらく仮定できる母集団が限定的になってしまいます。その場合、ケーススタディーとして報告するのもひとつの手だと思います。
簡単にできる調整方法である層別解析について紹介しておきます。
層別化解析
さて、先ほどの例ですが、喫煙の有無で層に分けて検討してみたいと思います。こうすることで、喫煙の効果とライター所有の効果を切り離して肺がんへの影響を見ることができます。
一般的には、年齢幅が広い対象や性別に偏りがある場合などに、年齢階級や性別で層化して解析を行うことがよくあります。
喫煙の有無で層別化した結果です。
喫煙ありの場合は肺がんが「あり群」も「なし群」もライターの所有率は50%で差はありません。
また、喫煙がない場合はどちらもライターの所有率は0です。まぁ当然の結果ですが。
このように層別化解析はただ分けるだけでとても簡単にできます。ただ、分ければ分けるほどn数が少なくなってしまうのがデメリットになります。
まとめ
バイアスや交絡因子はどうにかしようと思うほど、どうにもならくて嫌になってしまいます。
まず認識を変えましょう。バイアスはかかるものであると。
大切なのはきちんと認知して、正しく報告することです。バイアスや交絡因子があっても研究として成り立つということを理解して、その上でデータを取得する前、データを取得した後それぞれで、できる範囲で向き合っていくのが大切です。
交絡因子は考えるときりがないですが、少なくとも年齢と性別は考慮する必要があります。特に患者背景がそろっていない場合(疾患が違う、病態が違う、病期が違う、合併症が違う)は注意が必要かと思います。
対象者を集めた時に、「この人たちって全部まとめて平均値とか出していいんか?」って考えると見えてくるんじゃないかなと思います。
バイアスや交絡因子は、研究のデザインにも関係してくるのであわせて見ておくことをお勧めします!