http://trinityrnaseq.sourceforge.net/
Broad Instituteで開発されたこのソフトは、Perlで動かして使い、Linux上でテストされているそうです。
先のサイトからダウンロードしてインストールすると、
こんなディレクトリができあがり、/trinityrnaseq/sample_data/test_Trinity_Assembly の下に、サンプル用のペアエンドデータが作られているはずです。
とりあえずどんな結果が出てくるのかが待ち遠しいひとは、まずこのサンプルデータをランしてみましょう。 runMe.sh を打つようにマニュアルでは言っていますが、あえて(わざわざ)このシェルの中のコマンドを打ってみました。 (以下、一行です)
Trinity.pl --seqType fq --left reads.left.fq --right reads.right.fq --SS_lib_type RF --paired_fragment_length 280 --min_contig_length 305 --run_butterfly --CPU 2 --bfly_opts "-V 10 --stderr"
- --seqType fq で、このリードがFastqだということを示し、
- --left / --right で、ペアエンドの配列ファイルを指定し、
- --SS_lib_type RF で、このリードがストランドスペシフィック(日本語で何と訳すんだろう)でリバース・フォワードの向きだと宣言し、
- --paired_fragment_length 280 はフラグメントの長さが280ベースだと言い、
- --min_contig_length 305 で、コンティグは最低305塩基必要とし、
- --run_butterfly --CPU 2 で、一緒にbutterfly もランして、その時はCPUを2個使えと言い、
- --bfly_opts "-V 10 --stderr" これは何かよくわかりません
さて、このコマンドを流すと、trinity_out_dir というディレクトリが作られて結果が保存されますが、--output で出力先を決めることもできます。
結果で大事なのは、この中でTrinity.fastaです。 これが最終的なコンティグです。
これがそのファイルを開いたところです。 名前(ID)と、Contigの長さ、リードをマッピングした時のFPKM、がヘッダーに書かれているMulti-Fasta形式ですね。
Trinityは、Inchworm(シャクトリ虫)、Chrysalis(サナギ)、Butterfly(チョウ)という名前の3つに分かれています。
Inchwormでは、k-mer ベースでの de Bruijn graph でアセンブります。 Alternative Variantがある時でも、そのうちの代表的な転写産物をつくるようにアセンブるので、完全なTranscriptome、Isoformを反映したTranscriptomeができるわけではありません。
デフォルトは k=25 です。 k-1 の重なりでContigを伸長していき、これ以上伸長しなくなったら止まるそうです。
Inchworm.K25.L48.fa という名前のファイルができます。
メモリが足りないとこのファイルすらできません。
次のChrysalisは、名前の通り、動いているのか止まっているのかわからない、ユーザーを不安にさせるコマンドです。
冗談です。
Inchwormで作られたInchworm.K25.L48.fa のコンティグたちから似ている配列のContigを集め、Alternative Splicingや、Paralogっぽい配列をまとめる、極めて重要な作業をしている、そうです。
k-1 の重なり具合をもとに、Inchwormで出来上がったコンティグで、de Bruijn graph を作っていくつものパスを作るらしいです。
最後のButterflyは、いかにもチョウらしく、何百行ものコマンドラインが現れては流れていきます。 ChrysalisでまとめられたIsoform/Paralogのコンティグをもとに、リード配列を使って、あいまいさの残る部分を修正し、全体を再構築しているそうです。
この過程でFPKMも算出されます。
文献によると、ベンチマークでは、ABySS、TransABySS、SOAP denovo、と比べると、完全長の遺伝子、Isoformの数ともにTrinityは優れているそうです。
しかーし、
このツールは恐らくショートリード向けでしょう。 k-mer が25と短いのがその理由です。
また、デモデータではなく、本番データをアセンブるには、結構な量のメモリが必要です。
76塩基程度のイルミナペアリード100万本あたり、1GB のメモリが必要だそうです。
とうことは、1,000万本で10GB、1億本で100GB !!!
彼らのお勧めは、256GB の、22コアCPUのサーバーとのこと。
とてもじゃないですが、常識的なお値段で買える代物ではありません。
と、いうことで、私は多分、リード数が2,000万本を超えるような de novo Transcriptome でこのツールを使うことはしないでしょう。
分散化などをうまく施せば別ですが。
0 件のコメント:
コメントを投稿