- リードをゲノムにマッピングし (BWA)
- 冗長性のあるリード・Duplicateを除去し (SamtoolsやPicard)
- キャプチャーしたExon領域だけを取り出し (Bedtools)
- SamtoolsでSNVを抽出し
- SNVにアノテーションをつける non-synonymous SNV, missense, frame-shift など
NGS Surfer's Wiki のリシークエンス
BioStar を参照
このうち、3の、キャプチャーした領域だけを取り出す、という所は、キャプチャー領域を定義したファイルが必要です。
このファイル、BEDフォーマットであることが普通(Bedtoolsを使うときは)です。
UCSCなどの公共DBから落とすことも可能でしょうが、メーカーももちろん提供しています。
Agilent社のSureSelect Human Whole Exon 50MのBEDファイルをダウンロードして、実際にどの場所をキャプチャーしているのか、見てみましょう。
Agilent社のアレイ情報は、eArray というサイトで得ることができます。 登録が必要ですが、無料なので是非ユーザー登録しましょう!
ログイン画面はこんな感じ
ちょっと重いサイトですが、気にせずに。
右上の、Switch Application Type をクリックして、
SureSelect Target Enrichment を選びます。
Human All Exon 50Mb Kit というのが欲しいアレイ情報です。
これをダウンロードしましょう!
ゲノムバージョンを確認して、ダウンロード画面へ
BEDだけをダウンロードするのではなく、ここでは全部選択します。
欲しいのは、実は一番上のSureSelect_All_Exon・・・というファイルなのです。
後で中身を比較してみると良いでしょう。
ダウンロードが終わったら、ファイルを解凍して、さらにSureSelect_All_Exon・・・.zipを解凍して、.bedファイルを得ます。 このBedファイルはキャプチャー領域を定義しています。
先のBEDフォルダに入っているBedファイルは、プローブの設定領域を定義しているようです。
Bedファイルの中を開くとこんな感じ
これをIGV (Integrative Genomics Viewer http://www.broadinstitute.org/igv/ )上で見てみましょう!
先ず、IGVtools でインデックスを付ける必要があります。
(File > Run igvtools... でBedファイルを指定し、Indexを選択)
これをインポートすればOK!
画像は次回、このBedファイルと、BedファイルをGalaxyというフリーツールを使ってGFFファイルに変換する方法を説明するときに合わせてお見せします。
では。
0 件のコメント:
コメントを投稿