その後すぐに、NCBIのSRA(ここ)にて、データのフォーマットが変更されたので記しておく。
NCBIのSRAに行ってみて、何か検索してみると、例えばSRP000698を検索してみると、右にランの名前がリストされている。
以前はここから、FTPにリンクされて、そこからbzip2で圧縮されたリードファイルがダウンロードできた。
今はちょっと違う。
まず、FTPからは、sraまたはsra-liteという2種類のデータがダウンロードできる。
fastqファイルが欲しければsra-liteで良い。
Rocheの波形データを含むsffフォーマットが必要なら、sraから取得する。
さて、僕はsffはいらない。 fastqフォーマットが欲しい。
ということで、sra-lite からファイルをダウンロードした。
こちらを参照する http://www.ncbi.nlm.nih.gov/books/NBK49294/ と、Linux System上で動くとあるが最近Windows版も出たらしい。
ツール自体は、
http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
からダウンロードできる。
僕は64-bit Linux版を落としてきた。
次に、これを展開する。
$ tar xvfz sratoolkit.2.0b4-3-centos_linux64.tar
ダーっと展開された。
実行コマンドはfastq-dump.2 らしいのでヘルプを見てみよう。
$ ./fastq-dump.2 -h
さっきのNCBIのSRA TOOLKITのサイトを見てみる。
早速試してみた。
基本コマンドは $ ./fastq-dump.2 -A (OutPut fastqファイル名) -D (Downloadした.lite.sraファイル) なので、
$ ./fastq-dump.2 -A SRR027865 -D /opt/(Downloadしてきた場所)/SRR027865.lite.sra
しばらくして、SRR027865_1.fastqとSRR027865_2.fastqというファイルができるはず。
このSRR027865はペアエンドのリードファイルなので、2つのfastqファイルができるのだ。
シングルエンドのファイルなら、1つのfastqが作成されるはず。
sra-liteからfastqへ変換完了!
ちょっと面倒くさくなった。 慣れればどうってことないが。
データ量が増えたから仕方ないか。
DDBJもいずれこうなるのかな?
0 件のコメント:
コメントを投稿