Trinity: de novo Transcriptome の救世主？

前回の最後にチョイ出ししたTrinityというソフト、使ってみました。

http://trinityrnaseq.sourceforge.net/
Broad Instituteで開発されたこのソフトは、Perlで動かして使い、Linux上でテストされているそうです。
先のサイトからダウンロードしてインストールすると、

こんなディレクトリができあがり、/trinityrnaseq/sample_data/test_Trinity_Assembly の下に、サンプル用のペアエンドデータが作られているはずです。

とりあえずどんな結果が出てくるのかが待ち遠しいひとは、まずこのサンプルデータをランしてみましょう。　runMe.sh を打つようにマニュアルでは言っていますが、あえて（わざわざ）このシェルの中のコマンドを打ってみました。　（以下、一行です）

Trinity.pl --seqType fq --left reads.left.fq --right reads.right.fq --SS_lib_type RF --paired_fragment_length 280 --min_contig_length 305 --run_butterfly --CPU 2 --bfly_opts "-V 10 --stderr"

--seqType fq で、このリードがFastqだということを示し、
--left / --right で、ペアエンドの配列ファイルを指定し、
--SS_lib_type RF で、このリードがストランドスペシフィック（日本語で何と訳すんだろう）でリバース・フォワードの向きだと宣言し、
--paired_fragment_length 280 はフラグメントの長さが280ベースだと言い、
--min_contig_length 305　で、コンティグは最低305塩基必要とし、
--run_butterfly --CPU 2 で、一緒にbutterfly もランして、その時はCPUを2個使えと言い、
--bfly_opts "-V 10 --stderr"　これは何かよくわかりません

ちなみにシングルエンドリードのときは、--left / --right　を　--single にすればOKです。
さて、このコマンドを流すと、trinity_out_dir　というディレクトリが作られて結果が保存されますが、--output で出力先を決めることもできます。

結果で大事なのは、この中でTrinity.fastaです。　これが最終的なコンティグです。

これがそのファイルを開いたところです。　名前（ID）と、Contigの長さ、リードをマッピングした時のFPKM、がヘッダーに書かれているMulti-Fasta形式ですね。

Trinityは、Inchworm（シャクトリ虫）、Chrysalis（サナギ）、Butterfly（チョウ）という名前の3つに分かれています。

Inchwormでは、k-mer ベースでの de Bruijn graph でアセンブります。　Alternative Variantがある時でも、そのうちの代表的な転写産物をつくるようにアセンブるので、完全なTranscriptome、Isoformを反映したTranscriptomeができるわけではありません。　

デフォルトは k=25 です。　k-1 の重なりでContigを伸長していき、これ以上伸長しなくなったら止まるそうです。

Inchworm.K25.L48.fa という名前のファイルができます。　

メモリが足りないとこのファイルすらできません。

次のChrysalisは、名前の通り、動いているのか止まっているのかわからない、ユーザーを不安にさせるコマンドです。

冗談です。

Inchwormで作られたInchworm.K25.L48.fa のコンティグたちから似ている配列のContigを集め、Alternative Splicingや、Paralogっぽい配列をまとめる、極めて重要な作業をしている、そうです。

k-1 の重なり具合をもとに、Inchwormで出来上がったコンティグで、de Bruijn graph を作っていくつものパスを作るらしいです。

最後のButterflyは、いかにもチョウらしく、何百行ものコマンドラインが現れては流れていきます。　ChrysalisでまとめられたIsoform/Paralogのコンティグをもとに、リード配列を使って、あいまいさの残る部分を修正し、全体を再構築しているそうです。　

この過程でFPKMも算出されます。

文献によると、ベンチマークでは、ABySS、TransABySS、SOAP denovo、と比べると、完全長の遺伝子、Isoformの数ともにTrinityは優れているそうです。

しかーし、

このツールは恐らくショートリード向けでしょう。　k-mer が25と短いのがその理由です。

また、デモデータではなく、本番データをアセンブるには、結構な量のメモリが必要です。

76塩基程度のイルミナペアリード100万本あたり、1GB のメモリが必要だそうです。

とうことは、1,000万本で10GB、1億本で100GB !!!

彼らのお勧めは、256GB の、22コアCPUのサーバーとのこと。

とてもじゃないですが、常識的なお値段で買える代物ではありません。

と、いうことで、私は多分、リード数が2,000万本を超えるような de novo Transcriptome でこのツールを使うことはしないでしょう。　

分散化などをうまく施せば別ですが。

ショートリードの憂鬱 - 次世代シーケンサー

2011年7月22日金曜日

Trinity: de novo Transcriptome の救世主？

0 件のコメント:

コメントを投稿