前の記事 | 目次 | 研究所 | 次の記事
農業と環境 No.187 (2015年11月1日)
国立研究開発法人農業環境技術研究所

論文の紹介: ゲノムワイド連関解析における検定の多重性を考慮しよう

Accounting for multiple comparisons in a genome-wide association study (GWAS)
RC Johnson et al.
BMC Genomics 2010, 11:724 (2010)

2005年にゲノムワイド連関解析(GWAS)が登場して以降、実に 1000 近いGWASを用いた論文が登場している。マイクロアレイ解析から、次世代シーケンサの登場による全ゲノムを対象とした膨大な要因を抱えた解析まで、大規模データ解析の重要性は高まる一方である。今回はGWASを行う上で、よく利用される多重性への配慮のための方法を比較した論文を紹介する。これらにはいくつかの考え方の流派のようなものがある。

1.FWER (Family-Wise Error Rate) を制御する方法

一般に検定は、本当は差がないのに差があると判断してしまう、第一種の過誤の確率が、α%以下となる仮説を採用していく作業であるが、GWASのように、一度に数千〜数万のパラメータを一度に検定すると、その解析全体での過誤率は 1-(1-α)n となり、ほぼ 100 %の確率で、少なくとも一つ以上の過誤を犯してしまうことになる。そこで、あらかじめFWERでの許容過誤率を αT とすることで、αT < 1-(1-α)n となる、より厳しいαを設定するという手段がとられる。代表的なものに、Bonferroni 補正、Holm 法などがある。これらの方法は非常に保守的なことで知られ、確証的な研究の際に、より好んで使われる。デメリットとしては第二種の過誤 (本当は差があるのに差がないと判断してしまう過誤) のリスクが非常に高いことである。

2.FDR (False Discovery Rate) を制御する方法

こちらはより探索的な段階で、より好まれる方法で、あまり予断をもって解析に当たらないGWASには適した方法といえるし、実際に非常によく使われている。解析全体で少なくとも一つの過誤を犯す確率を制御するFWERに対し、解析全体で、採択される仮説の過誤率FDRを一定以下に制御することを目的とした方法である。一般には FDR < 0.1 がよく使われる。最も有名なのは Benjamini & Hochberg 法(BH 法)であるが、近年では、p値の一様分布仮定を除いた positive FDR 法 (Storey 法、q-value 法などともいう)、local FDR 法などがよく使われているようである。これらは帰無仮説と対立仮説が、ある割合で混合していると仮定し、その割合πを推定して利用する方法である。

3.並べ替え検定 (Permutation test) による経験的な分布を利用した方法

近年のコンピュータの発達により非常によく使われるようになってきた方法である。まず、一塩基多型(SNPs)のような遺伝子情報はそのままにして、病気や目的形質のような表現型を、すべてのサンプルについてランダムにシャッフルする。これを数千、数万と決められた回数Nを繰り返すことで、帰無仮説のもと(表現型と遺伝子情報に関連がない)での仮想的なデータセットが得られることになる。こうして得られた仮想的データセットの分布を利用して、p値を調整し、有意性を判定する。この方法のメリットは、遺伝子情報の相関がそのまま保存されており、なおかつ多重性の調整もできるという点である。デメリットとしては計算負荷が非常に膨大であることがあげられる。たとえば人間の場合で遺伝子数 30,000、SNPsを 5,000,000、並べ替えの繰り返し数を 10,000 とすると、1500兆ものデータが生成されることになる。

また、FWERであれ、FDRであれ、対象とする仮説を別の方法で大きく絞り込もうという方法も提案されている。代表的なものに、主成分分析(PCA)を利用した方法、遺伝子の連関構造を利用した方法がある。前者は主成分分析で、閾値(いきち)を全情報量の 99.5 %などと設定し、ほとんど情報をもたない仮説を完全に捨ててしまったうえで、αを情報を持った仮説の数で割った形で利用する。後者は、対象を染色体の一部に絞り、SNPs を含んだ数千程度の領域に分割したうえで、その領域を単位として扱うことで、対象仮説数を大きく節約しようという方法である。

今回紹介した論文では、ヒトのエイズに関する 70 万ほどの SNPs データから、これらの方法を実現するいくつかのソフトウェアや論文で提示された方法の優位性について議論している。著者らは、結論として、単純な Bonferroni 補正は、リソースが有限であることを考えれば、第二種の過誤の大きさに耐えられないため、一般にGWASで有用な方法とはいいがたく、並べ替え検定を利用したソフトウェア(PRESTO、SLIDE)、PCA を利用した方法(simpleM)が安定的によい結果を出したとしている。

並べ替え検定を利用した方法は、各 SNPs 間の相関を考慮しない単純な方法に比べて、明らかな利点があり、効率的なアルゴリズムも日々提案され続けている。PCA を利用した方法や positive FDR のような比較的単純なαの調整法は、計算負荷という意味で大きなメリットを持っているが、計算機の進歩の速さを考えると並べ替え検定を利用した方法は今後ますます利用が拡がっていくと考えていいだろう。

大東健太郎 (生態系計測研究領域)

前の記事 ページの先頭へ 次の記事

2000年5月からの訪問者数(約185万人)