de novo transcriptome という分野

NGSの使われ方のひとつに、de novo transcriptome という分野がある。　これは何かと言うと、リファレンス配列が全く未知の生物の発現解析である。
普通、RNA-Seqは、リファレンス配列(ゲノム配列またはRefSeq配列)があって、これに対してリード配列をマッピングしていく。　そのうえで、マッピングされたリード配列の数を数えて、発現量を推定する。

余談だが「リード配列の数＝発現量」というのは、正確に言うと違う。　リードの数は、転写産物の長さや、シーケンサーから出力された全リード数で補正(Normalize)する必要がある。　RPKMという補正値が、遺伝子ごとの発現量としては一般的で、SOLiDやGAIIに付属するソフトでもこの値で出力することができる。　でも、ディスカバリー目的、例えばエキソンのスプライシングや、未知エキソンの検出、などにはリード数そのものを比較することもある。　むしろ補正はしない方がいいと思う。

さて、話題に戻って de novo transcriptome の話をすると、これはさっきも言った通りリファレンスが無い。　ということは、出てくるデータは転写産物のショートフラグメントだけ！　なので、まず、
1)　リードをアセンブルしてContigを作る
2)　できたContigを転写産物と仮定して、リードをContigにマッピングする
3)　後は普通のRNA-Seqと同じ
という順序になると思う。

データが出てきた後の話だ。
アセンブルは色々あるが、454ならNewbler、SOLiDやGAIIならVelvetのようなアセンブラーを使って行うだろう。
その時のTipは、ミトコンドリアやクロロプラスト由来のRNAが混ざっている場合、その配列にヒットするリードをあらかじめ除いておくと、ゲノム由来のRNAにコンタミするのを防ぐことができる。　

数時間後、めでたくContigができた。　100-mer以上の長さが数百本ある。　これは信じていいのか。　Contigはたくさんできても、それが本当に転写産物なのかは、リファレンス配列が無い時は確かめようがない。　なので、Contigを既知のタンパク質配列に対してBLASTxし、Contigがどれだけ既知の転写産物らしいか、を確かめると良いと思う。
真核生物、哺乳類、植物、など大きなくくりでタンパク質配列を用意して、それに対してBLASTxする。　さて、ここで遺伝子に紐付いたものの中に、保存性が高くてかつ塩基配列が長いものはあるか？　植物ならBIG(binding / ubiquitin-protein ligase/ zinc ion binding)などの遺伝子配列がある程度の長さで取れているか？　これは、アセンブルの精度の基準なると思う。　

この De novo transcriptomeをする場合、使うべきは454のロングリードシーケンサーだろう。　実際に454を使っている文献はいくつかある。
1．Parchman TL. BMC Genomics. 2010 Mar 16;11:180. PMID: 20233449
2．Elmer KR. Mol Ecol. 2010 Mar;19 Suppl 1:197-211. PMID: 20331780
3．Kristiansson E. BMC Genomics. 2009 Jul 31;10:345. PMID: 19646242
どれもモデル生物ではない生物で、発現を見ている。
このうち面白いのが、1の文献で、これはLodgepole pine (P. contorta) のde novo transcriptomeをしている。　このケースでは、先ず464,896本のリードを、すでにゲノム配列がだいたいわかっている近縁種P.taeda の、18,921本のUnigene配列と共にアッセンブルして、めでたく6,601本のContigを得ていた。　近縁種のUnigeneと実験データのリードを混ぜてアセンブルしているのだ！　これはびっくり。　これにより、P.contortaとP.taeda の間で保存されている配列を先に同定できる。　Contigに加わらなかったリードで再びde novo assembleを行い、最終的に57,086本のContigと、およそ24万本のsingletonを得ている。　24万本のSingletonって…、という突っ込みはさておき、この方法は近縁種の遺伝子がある程度分かっているときに有効な手法だろう。

http://atgc-illumina.googlecode.com/...k_090910_D.pdf
をGoogleで検索すると、トップに出てくるのが、レタスのde novo transcriptome
これはIlluminaのGAを使用している。
残念ながらSOLiDでの例はまだ出会っていない。　454と組み合わせての使用例は今後出てくるかもしれないが。

僕の経験では、当たり前かもしれないがショートリードだけでなく、ロングリードと一緒にアセンブルした方が長いContigが多くできやすい。
transcriptomeに関しては、そもそも発現していない遺伝子はリード数が少なく、アセンブルされにくいだろう。　つまりゲノムのアセンブルと違ってContigの数が多ければ良いというわけでもない。

未知の転写産物を調べるというのは、高速シーケンサーならではの使い方なので、今後増えてくると思う。　第3世代なら問題ないかもしれないが、第2世代の機械ではアセンブルという必要があるので、ここは難しくもあり、また僕みたいなデータ解析屋にとってはチャレンジングなテーマでもある。

ショートリードの憂鬱 - 次世代シーケンサー

2010年10月3日日曜日

de novo transcriptome という分野

1 件のコメント: