サンプルデータの取得法

次世代シーケンサーの解析を始めたいひとなら、まずサンプルデータを取得することから、始めるかもしれない。　自分の実験データがあるひとでも、解析方法が正しいのか、を確かめるためにはサンプルデータがあると便利だ。

ドライの解析でも「ポジコン」が必要だし、マッピングなどを初めてやるひとも、誰かが出したデータ、それも文献になっている元データがあると便利だろう。　あるいはデータ解析をサービスとしてやるひとなら、色々なフォーマットの配列データをテスト解析してみることは必須になってくると思う。

サンプルデータはどこから取得したら良いか？
NCBIのSRA、Sequence Read Archive からか？　ここは最も有名な、配列デポジットデータベース、だ。　
マイクロアレイのデータを集めたGEO、Gene Expression Omnibus にもシーケンスデータはある。　初めてここを使うひとは、日本語の目次を利用すると良いだろう。　遺伝子発現バンク(GEO)目次はLSDBという文科省傘下の組織？が我々日本人のためにキュレートしてくれている。
ここには、HT (High Throughput)データというタブを開くと、シーケンスデータがある。
さて、GEOは、一番下のSupplementary fileというところ、SRPとかから始まるアクセッションがそのままSRAで使われているアクセッションになるので、GEOから検索してもデータは結局SRAからダウンロードすることになるのだ。

じゃあ、SRAで、試しにSRA008367と検索してみよう。

サンプルごとの名前は、SRXから始まるIDでまとめられている。

Summaryをクリックすると、実験のサマリーが参照できる。これはSRPというIDで管理されている。

1サンプルの中で使われたランはSRRから始まるIDで、右側に見えるのがそうだ。

データはSRRごとにダウンロードされる。

これはペアーエンドのデータなので、ダウンロードは同じSRR IDが2つあるので、2つで1セットだ。

SRAで落とせるデータは全部、bz2という圧縮ファイルで、解凍するとできるのはfastq フォーマット。　

fastqフォーマットは、ほとんどの解析ツールで取り込むことができて、ワールドスタンダードフォーマットと言っても良いだろう。

実際、論文で引用される公共データも、解析ソフトメーカーがデモデータとして使うのも、このSRAから落としてきたfastqフォーマットがほとんど。

で　は　、　

fastq以外の生データはどこから取得したら良いのか？

僕が知っている限り、

1．メーカーのWebSite

2．文献のオーサーが公開している場合

3．メーカーに問い合わせ　（問い合わせればもらえることが結構ある）

の方法がある。　

ここから先は、SOLiDとIlluminaのデータについて、僕が今知っている生データのソースを書く。

新しいのがわかったら随時、追加していきたい。

SOLiDデータのサンプルデータは、旧アプライドバイオシステムズのサイトから取得できる。
http://solidsoftwaretools.com/gf/project/から、～data とか、～dataset とかいう名前をクリックすると、データのダウンロードページにリンクする。
これらのデータは基本的にはメーカーのサポート外なので、使うときは心得ておこう。

Mate-Pairのデータセットが欲しければ「E.Coli DH10B 2X50 Mate-Pair Data Set」
csfastaやqualファイルはもちろん、カバレージファイルやStatsファイル、マッチングファイルは.maとgffなど、BioScopeから出力される必要なデータは全部そろっている。
データ量はそれなりに大きいので注意。
small RNAのデータ「Human Small RNA Data Set」は比較的小さい。といっても解凍すると1GB以上は普通にある。
そのほかにも、Humanのゲノムデータが欲しければ「Human (Yoruban) Data Set」、BiSulfiteの実験データが欲しければ「Bisulfite Data Set」http://solidsoftwaretools.com/gf/project/bisulfite/

そんな中でも注目しているのが、AgilentのSure SelectというEnrichmentキットを使ってHumanのExon部分のみをセレクションし、シーケンスしたという「Targeted Resequencing data set for barcoded samples enriched with Agilent SureSelect 38MB Human All Exon Kit」データセットhttp://solidsoftwaretools.com/gf/project/agilentexome/
ゲノムの中でも遺伝子、さらにメッセンジャーの部位となると、わずか1%のみ。Exonをターゲットにして発現やSNPなどを観測したい場合は、残り99%の場所は無駄なわけで、この1%のExonだけをシーケンスできるようにしたのが、Sure Selectというテクノロジー。単純計算でもカバレージが100倍になるので効率よく複数のサンプルをリシーケンスすることができるのだ。

さて、早速チェックした方の中には、これらのデータの中に、リンク先が無いものがあるのに気づいたかもしれない。
http://solidsoftwaretools.com/gf/project/bisulfite/によれば、以下のFTPから取得できるらしい。
Server ftp1.solidsoftwaretools.com
Username solidanon
Password solidanon1mmoorex
File anonymous/bisulfite/
が、しかし、このフォルダのリンク先は正しくない。データは別のところにある。
僕は見つけたが、メーカーは公表していないのでここに書くことはやめる。でもフォルダをひとつずつ探せば簡単に見つかるだろう。
イルミナデータの場合
イルミナのデータは、メーカーのサイトには見つからない。　ユーザーサイトにはあるかも知れないが、公開サイトにはない。でも、パブリッシュされているものを見つけた。

Targeted next-generation sequencing of a cancer transcriptome enhances detection of sequence variants and novel fusion transcripts　(http://genomebiology.com/2009/10/10/R115)
という文献に使われたデータは、引用32に記載されているWebサイト（Broad Institute）から、アライメント前のSRFフォーマットでダウンロードできる。
これもサイズが結構大きい。　10ギガ、20ギガは余裕で行く。
このデータも、先のAgilent Sure Selectと同様、ターゲットリシーケンスの結果だ。　僕もこれを勉強になるかと思い、利用している。　

別のデータは…　また今度の機会に。　

ショートリードの憂鬱 - 次世代シーケンサー

2010年10月23日土曜日

サンプルデータの取得法

0 件のコメント:

コメントを投稿