2010年11月26日金曜日

マッピングツールの種類

ショートリードの解析は、つまるところ
1.リファレンスが無いデノボアセンブリ と
2.リファレンスがあるそれ以外
に分かれる。
1は、シーケンサー本来の使い方であり、王道なのだが、僕はちょっと退屈だ。 いまいちゲノムプロジェクトの魅力が感じられないのは、僕がまだ半人前の証拠か。

それ以外の解析、トランスクリプトームやエピゲノム、SNPやAllelic Imbalance などの方が興味を惹かれる。
これらの解析では通常リファレンスがあるので、マッピングが行われる。以前紹介したBowtieは、僕のお気に入りのマッピングツールだが、それ以外にも、BFASTやSOAPなどが良く論文に現れる。
けれどもやっぱり、ユーザーが最初に使ってみようと思うのは、シーケンサーについているソフトのマッピングツールではないだろうか。

SOLiDなら付属ソフト「BioScope」のGUIから選べる "Map Data" とか "bFast Map Data"
Illuminaなら同じく付属ソフト「CASAVA(キャッサバと発音)」の "Eland"

シーケンサーについているソフトなので、配列データをベースコールした後、そのままマッピングできるのが便利…だろう。 いずれにせよ、マッピングは精度と速さ、目的に応じた使い勝手、で選ぶべきなので、
1.シーケンサー付属のマッピングツール
2.Bowtieなどのフリーのマッピングツール
3.CLC-BioやNextGeneなどの有償パッケージソフトのマッピングツール

を試すのが最も良いと思う。
マッピングのアルゴリズムは、今やどれも遜色ない。というか、精度の差は優越付けがたい。
僕の場合、マッピングの目的は、短い配列をできるだけユニークにアラインさせることにある。
大抵の場合、ヒトゲノムに対して、なので、リファレンス情報に不自由はない。
ターゲットを決めたディープシーケンスのときがほとんどだが、たまにホールゲノムに対しての時もある。 
マッピングの後の解析は、SNPやInDelの検出、新規転写産物の検出、たまにChIP-Seqやメチレーション、だ。
転座解析は、まだやってないが、興味はある。

これらに必要なマッピングアルゴリズムは何だろう?
短い配列だから、ユニークにアラインさせることは難しいか?

短いと言っても、リード長、今や40、50は当たり前。 Pair Endで実験すればForwardとReverseの間のフラグメントの長さが決まっているから、その情報を頼りにユニークにアラインさせることは難くない。 以前、メーカーの人に聞いてみたが同じような答えだった。

読んだ配列に、ギャップがあった場合、リファレンス配列にちゃんとマッピングされるか?
大丈夫、短いInDelならほとんどのツールが判別してくれる。
短いInDelとは例えば、IlluminaのCASAVAのEland v2 では20塩基未満のギャップなら認識してくれる。v2 以前はギャップは見落としていたらしい。

短い配列のマッピングには、ローカルアライメントが使われ、例えば連続する12塩基が完全に一致する箇所をリードの中に先ず見つけ、その後両端を伸長してアライメントさせるアルゴリズムがある。 
この方法は昔からよくChIP-Seqの論文で見つけた。 
伸長していくとき、同時に、ミスマッチの箇所、1塩基ギャップの箇所を見つけ、あればこれらでアライメントの精度を評価する。
評価にはスコアリングが使われる。 わかりやすく例えると、最初、50ベースのリードが、50点持っていたとする。 ミスマッチがあればマイナス3点、ギャップスがあればマイナス1点、などと50から減点していく。 ある程度の点数以下になればこのリードは信用なし、としてアライメントに使われない。 
正しくはツールによってスコアの種類も異なり、最初の12塩基完全一致という前提も異なり、計算式もそれぞれだ。 でもわかりやすく言うとこんな感じで、スコアリングについては、どのマッピングツールも大体似たような考えを用いて精度を上げている。

速度はどうか? 僕の体感ということを断わっておくと、
Bowtieはダントツに速い。
次にCLC-Bioが速い。
もちろん、他のフリーソフトも、条件を最適にすればそれなりなのだろうが、それを怠っているせいで、あまり速くは感じない。 
シーケンサー付属ツールは、実はガッツリ使っているわけではないのでわからない。

使い勝手はどうか?
これはその人それぞれ。
シーケンサーが外部のラボにあって、実際に触れない人なら、シーケンサー付属のソフトという選択肢は先ず消える。ということなら、フリーツールか有償パッケージソフトになる。
有償パッケージソフトが安定しているのは当然だ。
コマンドラインに格闘する楽しさは味わえないかもしれないが、SAMファイルを出してくる所までは簡単にできる。 パラメータ設定も十分種類がそろっている。 アルゴリズムもほとんど世界共通なものを使用しているので、心配はいらないと思う。
フリーツールも、コマンドラインを使って見せて、頭よさそーに自己陶酔できる、という利点もさることながら、SAMファイルまではちゃんと出してくれるだろう。 Linuxに詳しければシェルを組んでバッチで流すということもできるツールが多い(つまりマッピングの自動化)。

SAMファイルまたはBAMファイルまで出てくれば、マッピングツールとしての役割は終わりだ。
このファイルはその後のトランスクリプトーム解析、SNP解析、エピゲノム解析のスタートポイントになる。 まさに、マイクロアレイで言えば、ノーマライズ後のデータ、に似てはいないか。

0 件のコメント:

コメントを投稿