2011年8月5日金曜日

SRA-toolkit v.2.1.2

前にも書きましたが、NCBIのSRA(sequence read archive)に、sra-toolkit というツールがあります。
これは、SRAや、EBI、DDBJの配列データベースから、リードファイルを落としてきたときの、.sra または.lite.sra フォーマットファイルを解凍するのに使います。

SRA-toolkitの詳細はこちらにあります。
http://www.ncbi.nlm.nih.gov/books/NBK47540

最近バージョンが上がったので、メモを兼ねて、再度書きます。


ダウンロードはここ http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software

LinuxでもWindowsでもMacでも動作します。

ここからがメモ書き
共通するのは、-A オプションで解凍後のファイル名を決めること でしょうか。

lite.sra からfastq への変換コマンド: fastq-dump
使用例1:デフォルト
fastq-dump -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129.fastq ペアエンドが一本になって出力される!

使用例2:--split-files オプションを入れてRとFに分けて解凍したほうが後でソフトに入れるときに都合が良いと思う
fastq-dump -A SRR233129 --spilt-files SRR233129.lite.sra
出力結果:
SRR233129_1.fastq; ペアエンドのR
SRR233129_2.fastq; AATGTTCT バーコードのみ
SRR233129_3.fastq; ペアエンドのF

使用例3:タグのあるリードを、タグ無しのリードと分ける
fastq-dump -G -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129_tagged_78_AATGTTCT.fastq
SRR233129.fastq


Illuminaファイルへの変換: illumina-dump
使用例1:
illumina-dump -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129_4_1101_seq.txt
SRR233129_4_1101_qcal.txt
............................
SRR233129_4_2208_seq.txt
SRR233129_4_2208_qcal.txt

使用例2:qseqファイルへの変換 「-x」
illumina-dump -x -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129_4_1101_1_qseq.txt
.............................
SRR233129_4_2208_3_qseq.txt


SOLiD dataを .csfasta / .qual に変換する: abi-dump
使用例:
abi-dump -A SRR019622 SRR019622.lite.sra
出力結果:
SRR019622_F3.csfasta
SRR019622_F3_QV.qual


以上が、私が思うに、後のデータ解析に使うのに、必要最低限のコマンド+オプションの組み合わせです。

0 件のコメント:

コメントを投稿