前にも書きましたが、NCBIのSRA(sequence read archive)に、sra-toolkit というツールがあります。
これは、SRAや、EBI、DDBJの配列データベースから、リードファイルを落としてきたときの、.sra または.lite.sra フォーマットファイルを解凍するのに使います。
SRA-toolkitの詳細はこちらにあります。
http://www.ncbi.nlm.nih.gov/books/NBK47540
最近バージョンが上がったので、メモを兼ねて、再度書きます。
ダウンロードはここ http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
LinuxでもWindowsでもMacでも動作します。
ここからがメモ書き
共通するのは、-A オプションで解凍後のファイル名を決めること でしょうか。
lite.sra からfastq への変換コマンド: fastq-dump
使用例1:デフォルト
fastq-dump -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129.fastq ペアエンドが一本になって出力される!
使用例2:--split-files オプションを入れてRとFに分けて解凍したほうが後でソフトに入れるときに都合が良いと思う
fastq-dump -A SRR233129 --spilt-files SRR233129.lite.sra
出力結果:
SRR233129_1.fastq; ペアエンドのR
SRR233129_2.fastq; AATGTTCT バーコードのみ
SRR233129_3.fastq; ペアエンドのF
使用例3:タグのあるリードを、タグ無しのリードと分ける
fastq-dump -G -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129_tagged_78_AATGTTCT.fastq
SRR233129.fastq
Illuminaファイルへの変換: illumina-dump
使用例1:
illumina-dump -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129_4_1101_seq.txt
SRR233129_4_1101_qcal.txt
............................
SRR233129_4_2208_seq.txt
SRR233129_4_2208_qcal.txt
使用例2:qseqファイルへの変換 「-x」
illumina-dump -x -A SRR233129 SRR233129.lite.sra
出力結果:
SRR233129_4_1101_1_qseq.txt
.............................
SRR233129_4_2208_3_qseq.txt
SOLiD dataを .csfasta / .qual に変換する: abi-dump
使用例:
abi-dump -A SRR019622 SRR019622.lite.sra
出力結果:
SRR019622_F3.csfasta
SRR019622_F3_QV.qual
以上が、私が思うに、後のデータ解析に使うのに、必要最低限のコマンド+オプションの組み合わせです。
0 件のコメント:
コメントを投稿