2010年12月18日土曜日

サンプルデータの取得法 2 NCBI

以前、「サンプルデータの取得法」というタイトルで書いた。
その後すぐに、NCBIのSRA(ここ)にて、データのフォーマットが変更されたので記しておく。

NCBIのSRAに行ってみて、何か検索してみると、例えばSRP000698を検索してみると、右にランの名前がリストされている。

以前はここから、FTPにリンクされて、そこからbzip2で圧縮されたリードファイルがダウンロードできた。
今はちょっと違う。
まず、FTPからは、sraまたはsra-liteという2種類のデータがダウンロードできる。
fastqファイルが欲しければsra-liteで良い。
Rocheの波形データを含むsffフォーマットが必要なら、sraから取得する。

さて、僕はsffはいらない。 fastqフォーマットが欲しい。
ということで、sra-lite からファイルをダウンロードした。


ところが、このファイルを解凍するには、SRA Toolkit という特別なツールが必要だ。
こちらを参照する http://www.ncbi.nlm.nih.gov/books/NBK49294/ と、Linux System上で動くとあるが最近Windows版も出たらしい。
ツール自体は、
http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
からダウンロードできる。

僕は64-bit Linux版を落としてきた。
次に、これを展開する。 
$ tar xvfz sratoolkit.2.0b4-3-centos_linux64.tar
ダーっと展開された。
実行コマンドはfastq-dump.2 らしいのでヘルプを見てみよう。
$ ./fastq-dump.2 -h

よくわからない。
さっきのNCBIのSRA TOOLKITのサイトを見てみる。

早速試してみた。
基本コマンドは $ ./fastq-dump.2 -A (OutPut fastqファイル名) -D (Downloadした.lite.sraファイル) なので、
$ ./fastq-dump.2 -A SRR027865 -D /opt/(Downloadしてきた場所)/SRR027865.lite.sra

しばらくして、SRR027865_1.fastqとSRR027865_2.fastqというファイルができるはず。
このSRR027865はペアエンドのリードファイルなので、2つのfastqファイルができるのだ。
シングルエンドのファイルなら、1つのfastqが作成されるはず。

sra-liteからfastqへ変換完了!
ちょっと面倒くさくなった。 慣れればどうってことないが。
データ量が増えたから仕方ないか。
DDBJもいずれこうなるのかな?

0 件のコメント:

コメントを投稿