BMB2010

分子生物学会が終わり、今年も終わりに近づいてきた。
暮れのこのイベントが、仲間の生存を確認するいい機会になっている。
今年も懐かしい顔に会えて、ほっとした。

昨年と比べ、次世代シーケンサーの結果を披露しているポスターが多かった。
と言っても全体に比べるとごくごく少数だが。　（全体数が多すぎるのか？）

種類別で言えば、まだまだ解析の方法論を述べているものが多い。
アンプリコンのシーケンスで特定配列のタイピングをしたもの。
2種類の生物のゲノムを読んでSNPを比べたもの。
エキソンスプライシングの差を特定していたもの。

個人的には、ゲノム構造（ヒストン構造などのエピゲノム）と遺伝子発現との関連をテーマにしている発表が興味深かった。　何十年も前から関連性は示唆されていたものの、これまでの技術では解明できなかった。　高速シーケンサー技術がこれを可能にするかもしれない。
僕は、1分子シーケンサーの登場こそが、真にシーケンサーによる解析のブレークスルーをもたらすと思う。
これについては、後日、ちゃんとまとめる。

さて、先日の書き込み、マッピングのところ、大切なことを忘れていたことに気が付いた。
僕はそれほど気にしていなかったのだが、ある方と話していて、気が付いた。

マッピングには、Gapを許すアルゴリズムと、Gapを許さないアルゴリズムがある。
Gapを許す方が、計算時間はかかるが、Insertion / Deletion の検出に向いている。
Gapを許さない方は、InDel検出には向いていないが、その分計算時間が短い。
フリーのツールでは、Bowtie、Soapが、Gapを許さない。
BWAがGapを許す。

また、リードをマッピングするときは、マッピングの前に、クオリティでトリミングすることがある。
塩基のクオリティは、リードの後ろほど低い。
50塩基のリードなら、ある程度、例えば40塩基まではクオリティが高くても、その後ガクンと落ちることがままある。
だから、マッピング前に、リードの後ろの方を削り落すことが大事なのだ。
大抵の有償ソフトには、デフォルトでその機能が付いているが、フリーのツールでは自分でパラメータを追加しないといけないことが多い。

一律に、後方10塩基を落とす、という方法なら、全部のリード長は同じになる。
でも、クオリティがXX未満の塩基があったらその後ろを落とす、という方法なら、リード長はまちまちだ。
そんなとき、リード長がまちまちでもマッピングできるのが、BWA。
BowtieとSoapは、リード長が全部同じでないとマッピングできない。
もちろん有償のソフトなら、リード長がまちまちでも問題無い。

さあ、ここまでが、マッピングで書き忘れていた大事なこと。

ところでDDBJ(http://www.ddbj.nig.ac.jp/)でも、シーケンスの登録データベースがあるのをご存じだろうか？
そこの担当者とも話す機会があった。
DDBJにシーケンスデータをアップして、そのまま解析ができるパイプライン(ここ)を作ったそうだ。
今は、マッピングとアセンブルの機能はあるらしい。
もっと広く認知されれば、徐々にサーバーのスペックも上げていくらしい。今はまだ、同時アクセスを制限している状態、ら　し　い。

ショートリードの憂鬱 - 次世代シーケンサー

2010年12月10日金曜日

BMB2010

0 件のコメント:

コメントを投稿