2010年10月23日土曜日

サンプルデータの取得法

次世代シーケンサーの解析を始めたいひとなら、まずサンプルデータを取得することから、始めるかもしれない。 自分の実験データがあるひとでも、解析方法が正しいのか、を確かめるためにはサンプルデータがあると便利だ。

ドライの解析でも「ポジコン」が必要だし、マッピングなどを初めてやるひとも、誰かが出したデータ、それも文献になっている元データがあると便利だろう。 あるいはデータ解析をサービスとしてやるひとなら、色々なフォーマットの配列データをテスト解析してみることは必須になってくると思う。

サンプルデータはどこから取得したら良いか?
NCBIのSRA、Sequence Read Archive からか? ここは最も有名な、配列デポジットデータベース、だ。 
マイクロアレイのデータを集めたGEO、Gene Expression Omnibus にもシーケンスデータはある。 初めてここを使うひとは、日本語の目次を利用すると良いだろう。 遺伝子発現バンク(GEO)目次はLSDBという文科省傘下の組織?が我々日本人のためにキュレートしてくれている。
ここには、HT (High Throughput)データというタブを開くと、シーケンスデータがある。
さて、GEOは、一番下のSupplementary fileというところ、SRPとかから始まるアクセッションがそのままSRAで使われているアクセッションになるので、GEOから検索してもデータは結局SRAからダウンロードすることになるのだ。

じゃあ、SRAで、試しにSRA008367と検索してみよう。

サンプルごとの名前は、SRXから始まるIDでまとめられている。
Summaryをクリックすると、実験のサマリーが参照できる。これはSRPというIDで管理されている。
1サンプルの中で使われたランはSRRから始まるIDで、右側に見えるのがそうだ。
データはSRRごとにダウンロードされる。
これはペアーエンドのデータなので、ダウンロードは同じSRR IDが2つあるので、2つで1セットだ。

SRAで落とせるデータは全部、bz2という圧縮ファイルで、解凍するとできるのはfastq フォーマット。 
fastqフォーマットは、ほとんどの解析ツールで取り込むことができて、ワールドスタンダードフォーマットと言っても良いだろう。
実際、論文で引用される公共データも、解析ソフトメーカーがデモデータとして使うのも、このSRAから落としてきたfastqフォーマットがほとんど。

で は 、 
fastq以外の生データはどこから取得したら良いのか?
僕が知っている限り、
1.メーカーのWebSite
2.文献のオーサーが公開している場合
3.メーカーに問い合わせ (問い合わせればもらえることが結構ある)
の方法がある。 

 ここから先は、SOLiDとIlluminaのデータについて、僕が今知っている生データのソースを書く。
新しいのがわかったら随時、追加していきたい。

SOLiDデータのサンプルデータは、旧アプライドバイオシステムズのサイトから取得できる
http://solidsoftwaretools.com/gf/project/から、~data とか、~dataset とかいう名前をクリックすると、データのダウンロードページにリンクする。
これらのデータは基本的にはメーカーのサポート外なので、使うときは心得ておこう。

Mate-Pairのデータセットが欲しければ「E.Coli DH10B 2X50 Mate-Pair Data Set」
csfastaやqualファイルはもちろん、カバレージファイルやStatsファイル、マッチングファイルは.maとgffなど、BioScopeから出力される必要なデータは全部そろっている。
データ量はそれなりに大きいので注意。
small RNAのデータ「Human Small RNA Data Set」は比較的小さい。といっても解凍すると1GB以上は普通にある。
そのほかにも、Humanのゲノムデータが欲しければ「Human (Yoruban) Data Set」、BiSulfiteの実験データが欲しければ「Bisulfite Data Set」http://solidsoftwaretools.com/gf/project/bisulfite/

そんな中でも注目しているのが、AgilentのSure SelectというEnrichmentキットを使ってHumanのExon部分のみをセレクションし、シーケンスしたという「Targeted Resequencing data set for barcoded samples enriched with Agilent SureSelect 38MB Human All Exon Kit」データセットhttp://solidsoftwaretools.com/gf/project/agilentexome/
ゲノムの中でも遺伝子、さらにメッセンジャーの部位となると、わずか1%のみ。Exonをターゲットにして発現やSNPなどを観測したい場合は、残り99%の場所は無駄なわけで、この1%のExonだけをシーケンスできるようにしたのが、Sure Selectというテクノロジー。単純計算でもカバレージが100倍になるので効率よく複数のサンプルをリシーケンスすることができるのだ。

さて、早速チェックした方の中には、これらのデータの中に、リンク先が無いものがあるのに気づいたかもしれない。
http://solidsoftwaretools.com/gf/project/bisulfite/によれば、以下のFTPから取得できるらしい。
Server ftp1.solidsoftwaretools.com
Username solidanon
Password solidanon1mmoorex
File anonymous/bisulfite/
が、しかし、このフォルダのリンク先は正しくない。データは別のところにある。
僕は見つけたが、メーカーは公表していないのでここに書くことはやめる。でもフォルダをひとつずつ探せば簡単に見つかるだろう。
イルミナデータの場合
イルミナのデータは、メーカーのサイトには見つからない。 ユーザーサイトにはあるかも知れないが、公開サイトにはない。でも、パブリッシュされているものを見つけた。

Targeted next-generation sequencing of a cancer transcriptome enhances detection of sequence variants and novel fusion transcripts (http://genomebiology.com/2009/10/10/R115)
という文献に使われたデータは、引用32に記載されているWebサイト(Broad Institute)から、アライメント前のSRFフォーマットでダウンロードできる。
これもサイズが結構大きい。 10ギガ、20ギガは余裕で行く。
このデータも、先のAgilent Sure Selectと同様、ターゲットリシーケンスの結果だ。 僕もこれを勉強になるかと思い、利用している。 

別のデータは… また今度の機会に。 

0 件のコメント:

コメントを投稿