今日から学ぶサクッと脳科学講座【上級編】第19回：脳画像と統計学の多重比較問題

サマリ

脳画像研究では数万個の体積を同時に検定するため、偶然の発見が増加します。この「多重比較問題」に対処するため、ボンフェローニ補正やFDR法といった統計手法が用いられます。正しい手法の選択が研究の信頼性を大きく左右します。

脳画像研究、特にfMRI（機能的磁気共鳴画像法）やVBM（体積ベースのモルフォメトリ）では、脳全体を数ミリメートル単位で分析します。この結果、脳のほぼすべての領域について統計検定を実施することになります。

例えば、1つの研究で5万個の領域を検定する場合を考えてください。有意水準を通常の5％に設定すると、実は何も効果がない状態でも、理論上5％×5万個＝2,500個の領域で偽陽性（本当は違うのに有意と判定されること）が生じてしまいます。これが多重比較問題です。

統計学では「帰無仮説」という「効果がない」という前提で検定を始めます。その前提から外れる確率が有意水準です。しかし検定の回数が増えれば、その前提を誤って棄却する確率も指数関数的に高まるのです。

この問題に最初に対処した方法がボンフェローニ補正です。シンプルな考え方で、有意水準を検定回数で割ります。5万個の検定なら、有意水準を0.05÷50,000＝0.000001にするわけです。

この方法の利点は理解しやすく、実装が簡単という点です。ただし非常に厳しい基準になるため、本当に重要な効果まで見落としてしまう危険性があります。これを「偽陰性」と呼びます。

実際の脳画像研究では、この補正を適用すると統計的に有意な領域がほぼ消えてしまうケースも少なくありません。そのため、より柔軟な手法が求められるようになりました。

2000年代に広がったのがFDR（False Discovery Rate：偽発見率）法です。これは「発見した結果のうち、どのくらいが本当は誤りなのか」という観点から補正する手法です。

例えば、FDRを5％に設定すれば「有意だと判定した100個の領域のうち、平均5個程度は実は効果がないかもしれない」という意味になります。ボンフェローニ補正ほど厳しくないため、実際の脳画像研究で広く使われています。

FDR法は検定結果をP値の小さい順に並べて、段階的に基準を調整する方法です。統計的パワー（本当の効果を見つけられる確率）とエラーのバランスが取れているため、実用性が高いのです。

脳画像データには大切な特性があります。隣同士の領域は独立していず、強く相関しているのです。つまり、ある領域で効果があれば、その周辺領域でも同じ傾向が見られやすいということです。

ボンフェローニ補正やFDR法は、すべての検定が独立していると仮定しています。しかし実際には相関があるため、これらの手法は必要以上に厳しくなってしまいます。

この問題に対処するため、空間的クラスタリングを利用した手法が開発されました。連続した領域をグループ化し、グループ単位で検定を行うことで、より適切な補正ができるようになります。

多重比較問題に適切に対処することは、脳画像研究の信頼性を左右する重要な要素です。論文を読む際には、どの補正方法を使ったか確認することをお勧めします。

また、補正方法の選択は恣意的であってはいけません。分析計画書を事前に作成し、どの手法を使うか決めておくことが、科学的誠実さの証です。

さらに最近の研究では、複数の補正方法を並行して報告し、結果の堅牢性（結果の安定性）を示すことが推奨されています。このようなアプローチを通じて、脳科学研究全体の信頼性が向上していくのです。