2011年4月21日木曜日

SAMMate : RNA-Seqの解析簡単フリーツール

SAMMate (http://sammate.sourceforge.net/) というフリーの、RNA-Seq解析ツールがあります。
これは、Windowsで動きます。 GUI自体も難しい操作は必要なく、非常にシンプルです。
僕はこういうソフトが好きです。

先ずは上のサイトからEXEをダウンロードしましょう。 WinもMacも今最新のがv2.5です。
適当なフォルダ内で解凍すると、こんなファイル群ができます。
SAMMate.exeをダブルクリックすると、起動します。
起動しない時は、必要なバージョンのJavaが入っていないせいかもしれません。詳しくは先のサイトからダウンロードできるManualに書いてあります。
起動するとこの画面が出ます。

SAMMateを使うには、
1.SAMフォーマットのマッピングファイルと、
2.マッピングに使ったゲノムのGTFアノテーションファイル
が必要です。

例えばUCSCのHG18をリファレンスにBowtieか何かでマッピングして、SAMファイルを作る。
そのゲノムに合ったGTFフォーマットのアノテーションファイルを、ダウンロードしてくる。
SAMファイルとGTFファイルを同じディレクトリに入れて、SAMMateからその場所を "Open" します。
そして、その2つのファイルを右クリックして "Working Space" に移動します。
あとは、 "Run" するだけ。

デモデータも用意されています。 "examples" のディレクトリを開いて、とりあえず2つのファイルをWorking Spaceに移動してRunしてみましょう。

結果はこんな感じのリストです。
これは遺伝子の発現を示したリストです。 詳細説明はマニュアルに任せるとして、転写産物ごとのリード本数、FPKMなどが計算されています。

デモデータではない、実際のNGSデータをUCSCのゲノム配列にマップした2GbくらいのSAMファイルと、70MbくらいのGTFファイルを使ってSAMMateをRunしたところ、メモリ3Gb、Windows7の私のPCで約20分かかりました。 計算中は他のソフトはほぼ動きません。

SAMファイルを入れていたフォルダには、遺伝子の発現値がExcelでも保存されています。
あと、Wigファイルというものも作られます。
これは、UCSCのゲノムブラウザ上に表示することのできるファイルフォーマットです。
Custom Trackという機能を使うと、このwigファイルを表示することができます。

この絵の一番上の山みたいなグラフがwigファイルの表示結果です。 発現量を示しています。
すぐ下のmRNAのExonの場所とほぼ一致するのがわかりますね。

SAMMateにはあと2つ、シンプルな機能があります。
SAMのソートと、SAM <--> BAM 変換です。
これも、SAMtoolなどでもできるのですが、コマンドラインが嫌いという方でも簡単にできるのがいいですね。

最初にも言いましたが、こういうシンプルなソフトは大好きです。
ひとつのソフトにあまり多くを期待するな! という作者のポリシーが見えてきそうです。

2011年4月2日土曜日

大容量配列データのやりとり

以前、シーケンスデータのサンプルを得るには、NCBIのSRA(Sequence Read Archive)が便利、というようなことを書きました。 (EBIやDDBJからも落とせるんですがそれはさておき)
ところが今SRAにログインすると、こんな画面が出てきます。
「SRAはまもなく新規データの登録を停止する。 このデータベースも連邦政府の予算削減のあおりを受けて、無くなるかもしれない。」
2月17日から、この画面です。 
データベースが無くなってしまうのか、とNCBIに問い合わせても、「現状はアナウンスと変わらない、つまり全ては予算しだい」という答えが返ってきました。

NGSのデータは1ファイル10Gbを超えるものもざらなので、これではいくら容量があるストレージサーバーを用意してもきりがないのでしょうね。 ペタバイト、エクサバイト・・・。 一昔前ならSFにしか出てこないような単位が必要かもしれません。

そんな中、個人的に注目しているのは、今さらですがP2Pのデータやりとり。
ファイル交換です。
NCBIみたいな所が一括して管理するのではなく、さまざまな研究所・大学単位で自分たちのでかい配列ファイルは保存しておいて、ファイル交換ソフトを使って欲しい時に取得するというもの。

ITに詳しい人はとっくに知っているでしょうが、BitTorrent というファイル転送プロトコルがあります。
詳しくはここのウィキを参照。
BitTorrentを使ってのファイルのダウンロードの仕方はちょっと変わっていて、
1.トラッカーサイト(ファイルの目次みたいなリストがあるサイト)から目的のファイルのトレントファイル .torrent を落とす
2.ローカルPCに予めインストールした専用ソフトを使って .torrent ファイルを元に、本体データを落とす
です。

このプロトコルは、人気のあるファイルほど高速にダウンロードできる、という特徴があります。 
理由は、BitTorrentはファイルをダウンロードする際、自分の持っている(ダウンロードした)ファイルのピース(部分)をアップロードする決まりになっているからです。
つまり、人気があるからといって待たされることはありません。

もうひとつの特徴として、匿名性が無いことです。 誰が何のファイルを共有しているか、わかるしくみになっています。
この利点として、非合法なファイルを共有したらすぐにわかるので、我々健全な市民にはありがたいことです。 
そのせいか、多くの海外企業がファイル共有に採用しているそうです。
合法的なファイルなら、これをサイエンスコミュニティに導入したらどんなに便利でしょう。

Bioのデータも、これからはBitTorrentファイル交換によってやりとりしようぜ! 
http://extratorrent.com/article/459/biotorrent+now+bittorrent+is+used+for+scientific+purposes.html


ここで話題になっている、BioTorrent(BitTorrentと名前が似ていて紛らわしい)というサイトを見てみましょう。
http://www.biotorrents.net/browse.php


シンプルな作りです。
Genomicsというチックボックスが気になります。
ここをクリックします。
イルミナシーケンサーからの配列ファイル名が出てきました。
ここのリンクをクリックすると、.torrent ファイルを落とせます。
その後自分のソフトを使って、ファイルを共有しているみんなから、ファイルのピースをダウンロードして配列ファイルを得るのです。
ちなみに、このサイトを使用するにはサインアップが必要です。

試しにダウンロードしてみました。 バクテリアサイズのParied-Endイルミナシーケンスファイル268Mb、解凍すると800Mb近いFastqファイル、が数十分で落とせました。

BioTorrentへの登録数はまだまだ少ないです。
これから増えていくのでしょうか。 あるいは他の、もっとたくさんのデータメニューをそろえたトラッカーサイトができるのでしょうか。
注目しています。