遺伝子情報に基づく巨大系統樹推定プログラムの開発


[要 約]
 遺伝子の塩基配列データに基づいて系統樹を推定する新しいソフトウェアを開発した。既存の系統推定ソフトウェアでは計算それ自体が不可能だった,万単位の端点(種)をもつ巨大データに対しても相対的に短い時間内で最節約系統樹を構築することが可能になった。
[担当研究単位] 農業環境技術研究所 地球環境部 生態システム研究グループ 環境統計ユニット
[分 類] 学術

[背景・ねらい]
 系統推定に用いられる形質データのサイズがますます巨大化する傾向が強まってきた。形質数だ けでなく,端点(種)の数が増大するとともに,最節約法や最尤法のような最適性基準(目的関数)による系統樹の離散最適化を行なう手法では,いかにして効率的にかつ高速に最適系統樹を計算するかという問題につねに直面している。とりわけ,計算の複雑性の点で,もはや完全探索が不可能である以上,発見的探索のためのアルゴリズムを高速化する必要がある。
[成果の内容・特徴]
  1. 形質状態(塩基配列)をもつ端点集合を与え,形質空間の中でハミング距離(マンハッタン計量)の上で近い端点部分集合を同時並行的に作成する。端点の各部分集合に対して,部分木を最節約的に構築する。その際,仮想祖先(スタイナー点)の形質状態は最節約復元のメディアン演算によって計算する。構築された複数の部分木を逐次的に結合することにより,最終的に完全な最短系統樹を探索的に構築する()。
  2. 最節約系統推定においてもっとも広く用いられているソフトウェアPAUP*(version 4)との性能比較をしたところ,今回開発した系統スタイナー樹ソフトウェアBogenは,より短い計算時間でより巨大なデータの系統解析を可能であることがテスト塩基配列データから示された()。ソフトウェアの比較を実行した計算環境はWindowsマシン(Pentium 4,2.26GHz,RAM1GB)である。その他の既存ソフトウェアPHYLIPやTNTとも比較し,系統樹の計算速度や分析可能なデータサイズの点でBogenが勝っていることを確認した。
  3. とくに,端点数が数千を越えるケースでは既存のいずれのソフトウェアでも系統解析そのものが不可能だが,Bogenを用いれば許容される計算時間の範囲内で最適系統樹を探索できることがわかった。現バージョンでの最大端点数は3万種,最大形質数は5万塩基対である。
[成果の活用面・留意点]
  1. Bogenは最節約法に基づく分子系統樹推定ソフトウェアであり,距離法には対応していない。最尤法については現バージョンでは対応していないが, Bogenの最適性基準(目的関数)を尤度に変更することにより将来的には対応可能になるだろう。
  2. 今回開発したソフトウェアは塩基配列に基づく分子系統樹推定にはいつでも利用できる。ただし,塩基配列データはあらかじめアラインメント(整列)されている必要がある。入力データ形式として現在広く用いられているNEXUS形式などには対応している。
  3. Bogenの公開方法については現在検討中である。詳細については担当者(minaka@affrc.go.jp)へ連絡ないしウェブサイト(http://www.bogen.co.jp/)を参照されたい。

[その他]
 研究課題名 : 環境資源情報解析のための多変量解析手法・系統分類手法の開発
        (環境資源・環境負荷データの分類手法及び多変量解析手法の開発)
 予算区分  : 運営費交付金
 研究期間  : 2003年度(2001〜2005年度)
 研究担当者 : 三中信宏,陶村貴(チュラルテック),町井弘禧(チュラルテック),山本春雄(ボーゲン
        ファイル),浅野剛弘(ボーゲンファイル)
 発表論文等 : 1)Minaka, Cladistics, 18, 227(2002)
               2) Minaka, et al., Cladistics, 19, 157(2003)
               3) Minaka, et al., Hennig XXI, Helsinki, Finland, Program and Abstracts(2002)
               4) Minaka, et al., Hennig XXII, New York, Abstract(2003)

目次へ戻る