2011年の総括
私は今まで、この「ショートリードの憂鬱」というブログで、次世代シーケンサーの技術と解析を中心に書いてきました。
仕事でNGSのデータを扱っていましたが、このブログは会社の業務とは全く別に、個人でやっています。
だから自分の所属する会社名は出していないはず(リンクを貼ったことはあったけど)です。
そもそも次世代シーケンサーなるものを最初に知ったのは、2007年の分子生物学会でした。
確かABI社のSOLiDのプレゼンだったと記憶しています。
「これは来るぞ!」って直感し、翌2008年から、メーカーさん主催のセミナーやWebセミナーにはできる限り参加して、情報収集をしていました。
でもまだその頃は、データ量の多さと、将来の可能性ばかりが強調されて、解析はこれから、という感じでした。少なくとも日本では。
2009年、NGS関連の論文がたくさん出てくるようになり、時間が許す限り、目を通すようにしました。
シーケンサーといっても、配列解析だけでなく、発現やメチレーションなど、汎用性が高いのが特徴なので、はっきり言って私の知らない分野が多く、勉強するのが大変です。
この頃からフリーツールを調査し始めるようになります(まだ趣味の範囲で)。
2010年、仕事でNGSのデータを扱うようになって、いよいよ本格的に、世に出ているフリーツールを試し始めました。
また同時に、会社で導入したCLC-Bio社のソフトを触るうちに、他の商用ソフトとの比較もしたくなり、いくつかトライアルしました。
そんな経験やそこで得た情報を何とか残しておきたい、ほかのひととシェアしたい、と始めたのがこのブログです。
開設から1年半経ち、このブログがきっかけで、出会えたひともたくさんいます。
本当に良かったと思います。
本日12月29日は、会社の仕事納め、と同時に私の最後の出勤日でした。
来年1月からは、Pacific Biosciences社の日本代理店で働きます!
PacBioについては前から何回か書いてきましたね。 噂の一分子のシーケンサーです。
そこで、
PacBioのことは別ブログで書くことにしました。 もうショートリードじゃないし・・・
その名も、
「パックマンの挑戦」
PacBioにとっても、私にとっても、2012年は挑戦です。
日本で一番詳しいPacBioのブログ、を目指します!
とにかく、PacBioのシーケンサーは、賛否両論、いろいろ言われていますね。
それだけ注目度が高いということでしょう。
新しい技術は、批判に聞く耳を持って、改善されて、世に広がっていくものです。
私は、今度はPacBio擁護派に属する訳ですが、そのブログでは、正確な情報を発信することに気をつけます。
つまり、批判が正しければそのように、間違っていればその点を明らかにしようと思います。
また、PacBioに興味がある方全てに向けて、公共のPacBioデータとネット上の情報の、解説っぽいことも書こうと思います。
それから、PacBioのデータ解析も、いち早く書こうと思います。
と、まあ、来年に向けての抱負っぽいことを言いましたが、どれだけ実現できるか・・・
「ショートリードの憂鬱」も、できる限り、続けていくつもりです。
主に公共にある情報(論文やネット上)が中心になるかと思いますが。
やはりロングリード(特に一分子)をやる以上は、ライバルのショートリードを知ることが欠かせないですから。
来年もどうぞ宜しくお願いします。
良いお年を!!
第2世代高速シーケンサー(Illumina, SOLiD, 454)とそのアプリケーションについて。 できるだけ最新に近いことと、トレンド、面白いと思った論文やアプリケーションを書いています。シーケンサーに興味のあるひとは是非覗いていってください。 コメントも大歓迎です。 一分子シーケンサー PacBioについては、姉妹ブログ「パックマンの挑戦 http://pacbiobrothers.blogspot.com/ 」 を、10X Genomicsについては「くろみうんの冒険」を覗いてみてください!
2011年12月29日木曜日
2011年12月27日火曜日
BEDファイルをGFFファイルに変換
BEDフォーマットからGFFフォーマットへの変換
って、何のために?
と思った方もいるのではないでしょうか。
どちらも、ゲノムのアノテーションや場所を指定・定義するフォーマットです。
例えば前回のブログに書いた、SureSelectのキャプチャー領域を示したBEDファイル、これをGFFファイルに変換する必要があったとします。
(GFFしか対応していないツールにBEDファイルの情報を取り込みたい時など)
フォーマットを単に変換すれば良いと思いきや、注意する点がありました。
ポジションの表示方法が、UCSCで作られたBEDフォーマットは0インデックス、SangerでつくられたGFFは1インデックスなのです。
なんのこっちゃ?とお思いの方、数え方の違いだと思ってください。
地上階を1階と数えるか、(行ったことありませんがイギリスのように)Ground Floorとして0階と数えるか、の違いのような。
塩基を0から数えるか、1から数えるか、の差です。
くわしくはここを参照。
プログラムでやるのも良いですが、車輪の再発明、なんてことにならないように、もっと簡単便利なツールがGalaxyです。
Galaxyはこちら ユーザー登録が必要です。
先ずはデータ(BEDファイル)をアップロードします。
File Formatはbedを選択、ファイル(ここではSureSelect のHuman Exon 50MbのBedファイル)を指定、GenomeはHg19で、Executeボタンを押します。
ネットワークによっては結構時間がかかりますので、気長に待ちます。
うまくアップロードされると右側のパネルに、ファイル名が表示されます。
Galaxyはいろいろできるクラウド型解析パイプラインです。
個人的には、フォーマットのコンバート(変換)など、ちょっとしたことに使っています。
その中のひとつ、BED-to-GFFを使います。
左側パネル、Convert Formats をクリックし、Convert this query に今アップしたSureSelectのBedファイルを選択して Execute します。
これはすぐ終わるでしょう。 GFFファイルができたら、保存アイコンを押してダウンロード。
では、早速、GFFファイルを確認してみましょう。
中身を見るのももちろんですが、ソフトにインポートしてうまく入るかどうかを確認して下さい。
IGVに入れたときの例:
下段の一番上がRefSeqのアノテーション、真ん中がGFF変換後のSureSelect Human 50Mb、下が変換前のBEDファイル。
真ん中と一番下は同じ情報のはずです。
もっと拡大して塩基がずれていないか確認。
ずれていないようですね。
ちなみに、BEDファイルとGFFファイルは、IGVに取り込む前に、File>Run igvtoolsでIGVtoolsを開き、Indexを付けてあげる作業が必要かもしれません。
さて、最初に戻り、なんでこんな、わざわざBEDで書いてあるアノテーションをGFFにしたか、という理由をお話します。
あるソフト、CLC Genomics Workbenchでは、リファレンス配列にアノテーションを追加する機能がありますが、現バージョン4.9ではBEDファイルを取り込めないのです。
GFFならOK、ということで、わざわざ同じ情報をGFFにしたのでした。
こうすると、リファレンスゲノムにSureSelectのキャプチャー領域がアノテーションされるので、Exome実験のデータをマッピングするときに、SureSelectキャプチャー領域のみに、マップすることが可能になるのです。
もちろんSureSelectだけでなく、TruSeqやSeqCapなどでキャプチャーしても同じです。 BEDファイルがあればGFFに変換してCLCに取り込めば、キャプチャー領域だけにマッピングすることができます。
それがやりたかったのでした。
って、何のために?
と思った方もいるのではないでしょうか。
どちらも、ゲノムのアノテーションや場所を指定・定義するフォーマットです。
例えば前回のブログに書いた、SureSelectのキャプチャー領域を示したBEDファイル、これをGFFファイルに変換する必要があったとします。
(GFFしか対応していないツールにBEDファイルの情報を取り込みたい時など)
フォーマットを単に変換すれば良いと思いきや、注意する点がありました。
ポジションの表示方法が、UCSCで作られたBEDフォーマットは0インデックス、SangerでつくられたGFFは1インデックスなのです。
なんのこっちゃ?とお思いの方、数え方の違いだと思ってください。
地上階を1階と数えるか、(行ったことありませんがイギリスのように)Ground Floorとして0階と数えるか、の違いのような。
塩基を0から数えるか、1から数えるか、の差です。
くわしくはここを参照。
プログラムでやるのも良いですが、車輪の再発明、なんてことにならないように、もっと簡単便利なツールがGalaxyです。
Galaxyはこちら ユーザー登録が必要です。
先ずはデータ(BEDファイル)をアップロードします。
File Formatはbedを選択、ファイル(ここではSureSelect のHuman Exon 50MbのBedファイル)を指定、GenomeはHg19で、Executeボタンを押します。
ネットワークによっては結構時間がかかりますので、気長に待ちます。
うまくアップロードされると右側のパネルに、ファイル名が表示されます。
Galaxyはいろいろできるクラウド型解析パイプラインです。
個人的には、フォーマットのコンバート(変換)など、ちょっとしたことに使っています。
その中のひとつ、BED-to-GFFを使います。
左側パネル、Convert Formats をクリックし、Convert this query に今アップしたSureSelectのBedファイルを選択して Execute します。
これはすぐ終わるでしょう。 GFFファイルができたら、保存アイコンを押してダウンロード。
では、早速、GFFファイルを確認してみましょう。
中身を見るのももちろんですが、ソフトにインポートしてうまく入るかどうかを確認して下さい。
IGVに入れたときの例:
下段の一番上がRefSeqのアノテーション、真ん中がGFF変換後のSureSelect Human 50Mb、下が変換前のBEDファイル。
真ん中と一番下は同じ情報のはずです。
もっと拡大して塩基がずれていないか確認。
ずれていないようですね。
ちなみに、BEDファイルとGFFファイルは、IGVに取り込む前に、File>Run igvtoolsでIGVtoolsを開き、Indexを付けてあげる作業が必要かもしれません。
さて、最初に戻り、なんでこんな、わざわざBEDで書いてあるアノテーションをGFFにしたか、という理由をお話します。
あるソフト、CLC Genomics Workbenchでは、リファレンス配列にアノテーションを追加する機能がありますが、現バージョン4.9ではBEDファイルを取り込めないのです。
GFFならOK、ということで、わざわざ同じ情報をGFFにしたのでした。
こうすると、リファレンスゲノムにSureSelectのキャプチャー領域がアノテーションされるので、Exome実験のデータをマッピングするときに、SureSelectキャプチャー領域のみに、マップすることが可能になるのです。
もちろんSureSelectだけでなく、TruSeqやSeqCapなどでキャプチャーしても同じです。 BEDファイルがあればGFFに変換してCLCに取り込めば、キャプチャー領域だけにマッピングすることができます。
それがやりたかったのでした。
2011年12月26日月曜日
SureSelect のBEDファイル取得方法
Exome解析については、以前ここでも書きましたが、ワークフローは大体出来上がっています。
NGS Surfer's Wiki のリシークエンス
BioStar を参照
このうち、3の、キャプチャーした領域だけを取り出す、という所は、キャプチャー領域を定義したファイルが必要です。
このファイル、BEDフォーマットであることが普通(Bedtoolsを使うときは)です。
UCSCなどの公共DBから落とすことも可能でしょうが、メーカーももちろん提供しています。
Agilent社のSureSelect Human Whole Exon 50MのBEDファイルをダウンロードして、実際にどの場所をキャプチャーしているのか、見てみましょう。
Agilent社のアレイ情報は、eArray というサイトで得ることができます。 登録が必要ですが、無料なので是非ユーザー登録しましょう!
ログイン画面はこんな感じ
ちょっと重いサイトですが、気にせずに。
右上の、Switch Application Type をクリックして、
SureSelect Target Enrichment を選びます。
Human All Exon 50Mb Kit というのが欲しいアレイ情報です。
これをダウンロードしましょう!
ゲノムバージョンを確認して、ダウンロード画面へ
BEDだけをダウンロードするのではなく、ここでは全部選択します。
欲しいのは、実は一番上のSureSelect_All_Exon・・・というファイルなのです。
後で中身を比較してみると良いでしょう。
ダウンロードが終わったら、ファイルを解凍して、さらにSureSelect_All_Exon・・・.zipを解凍して、.bedファイルを得ます。 このBedファイルはキャプチャー領域を定義しています。
先のBEDフォルダに入っているBedファイルは、プローブの設定領域を定義しているようです。
Bedファイルの中を開くとこんな感じ
これをIGV (Integrative Genomics Viewer http://www.broadinstitute.org/igv/ )上で見てみましょう!
先ず、IGVtools でインデックスを付ける必要があります。
(File > Run igvtools... でBedファイルを指定し、Indexを選択)
これをインポートすればOK!
画像は次回、このBedファイルと、BedファイルをGalaxyというフリーツールを使ってGFFファイルに変換する方法を説明するときに合わせてお見せします。
では。
- リードをゲノムにマッピングし (BWA)
- 冗長性のあるリード・Duplicateを除去し (SamtoolsやPicard)
- キャプチャーしたExon領域だけを取り出し (Bedtools)
- SamtoolsでSNVを抽出し
- SNVにアノテーションをつける non-synonymous SNV, missense, frame-shift など
NGS Surfer's Wiki のリシークエンス
BioStar を参照
このうち、3の、キャプチャーした領域だけを取り出す、という所は、キャプチャー領域を定義したファイルが必要です。
このファイル、BEDフォーマットであることが普通(Bedtoolsを使うときは)です。
UCSCなどの公共DBから落とすことも可能でしょうが、メーカーももちろん提供しています。
Agilent社のSureSelect Human Whole Exon 50MのBEDファイルをダウンロードして、実際にどの場所をキャプチャーしているのか、見てみましょう。
Agilent社のアレイ情報は、eArray というサイトで得ることができます。 登録が必要ですが、無料なので是非ユーザー登録しましょう!
ログイン画面はこんな感じ
ちょっと重いサイトですが、気にせずに。
右上の、Switch Application Type をクリックして、
SureSelect Target Enrichment を選びます。
Human All Exon 50Mb Kit というのが欲しいアレイ情報です。
これをダウンロードしましょう!
ゲノムバージョンを確認して、ダウンロード画面へ
BEDだけをダウンロードするのではなく、ここでは全部選択します。
欲しいのは、実は一番上のSureSelect_All_Exon・・・というファイルなのです。
後で中身を比較してみると良いでしょう。
ダウンロードが終わったら、ファイルを解凍して、さらにSureSelect_All_Exon・・・.zipを解凍して、.bedファイルを得ます。 このBedファイルはキャプチャー領域を定義しています。
先のBEDフォルダに入っているBedファイルは、プローブの設定領域を定義しているようです。
Bedファイルの中を開くとこんな感じ
これをIGV (Integrative Genomics Viewer http://www.broadinstitute.org/igv/ )上で見てみましょう!
先ず、IGVtools でインデックスを付ける必要があります。
(File > Run igvtools... でBedファイルを指定し、Indexを選択)
これをインポートすればOK!
画像は次回、このBedファイルと、BedファイルをGalaxyというフリーツールを使ってGFFファイルに変換する方法を説明するときに合わせてお見せします。
では。
2011年12月20日火曜日
キメラRNAの検出
NGSでキメラRNAの検出に挑戦した論文
Kannal et al. Recurrent chimeric RNAs enriched in human prostate cancer identified by deep sequencing PubMed
Q: Chimeric RNAって、Fusion Geneのことでしょうか?
A: もっと広い概念です。 Chimeric RNAのうち、Chromosomal Rearrangementsによって作られる複合遺伝子のことを、Fusion Geneと定義するそうです。
染色体リアレンジメント以外の原因で、転写が原因で作られるキメリックな転写産物のことも、Chimeric RNAと呼ぶそうです。
転写が原因で起こる?
そのうち、前立腺癌に特徴的なキメラRNAを見つけよう!という論文です。
NGSはスクリーニングに使う、というスタンスです。
いくつもフィルタリングを重ねて、キメラRNAの候補を絞り込んでいます。
Kannal et al. Recurrent chimeric RNAs enriched in human prostate cancer identified by deep sequencing PubMed
Q: Chimeric RNAって、Fusion Geneのことでしょうか?
A: もっと広い概念です。 Chimeric RNAのうち、Chromosomal Rearrangementsによって作られる複合遺伝子のことを、Fusion Geneと定義するそうです。
染色体リアレンジメント以外の原因で、転写が原因で作られるキメリックな転写産物のことも、Chimeric RNAと呼ぶそうです。
転写が原因で起こる?
- 隣の下流遺伝子まで、転写されてしまうことで作られる、Read-through/splicing 型Chimeric RNA
- 転写された異なるRNA分子が同時にスプライシングされて、ひとつのRNA分子になる、Transsplicing 型Chimeric RNA
そのうち、前立腺癌に特徴的なキメラRNAを見つけよう!という論文です。
NGSはスクリーニングに使う、というスタンスです。
いくつもフィルタリングを重ねて、キメラRNAの候補を絞り込んでいます。
イルミナGAIIの36bpペアエンドリードを使っています。
- クオリティフィルター: リード単位でクオリティが悪いもの(イルミナパイプラインのデフォルト)を除きます
- ユニークネスフィルター: リードマッピングの後、マッパブルなペアエンドリードのうち、ペアとして、ゲノムまたはTranscriptに複数個所マップするものを除きます。 これによって、ペアリードの両方とも、ゲノム上またはTranscript上に1か所だけマッピングするものだけが残ります(2塩基のミスマッチはゆるしています)。
- Entrez Gene IDフィルター: ゲノムやTranscriptにユニークにヒットすると言っても、遺伝子単位でユニークかどうか。 彼らは、Entrez Gene ID単位で遺伝子を定義しています(Gene IDが無い配列は遺伝子としない)。 ペアとして複数のGene IDにマップされるリードは除かれます。 この2と3のフィルタリングは、ユニークマッピングするペアリードだけを残すので、Gene Family(Homolog)などを間違ってキメラRNA候補としてしまうのを避けることができます。 しかし、逆に、Homologのどれかがキメラっている場合のRNAは検出できません。 実際、CLC Genomics Workbench でも経験があるのですが、Fusion Geneを検出してもHomologにばかりヒットして、擬陽性ばかりということがありました。 ユニークヒットに限ることは良いかもしれません。
- Gene ID キメラフィルター: キメラRNAを見つけるのが目的なので、同じ遺伝子上にペアの両方ともマップされているリードは除きます。 異なる遺伝子をまたいでマップされているリードだけに絞っています。 イメージでは、こんな感じ(Fusion Geneと書いていますがキメラRNAと置き換えてください)
ペアの片方が、偶然GeneAとGeneBの結合部位(ジャンクション)に合った場合、片方のペアの6塩基が完全ヒットであれば、ジャンクションにヒットしたと、見なしていました。
個人的にはもう少し長い塩基の条件にした方が良いのでは、と。
彼らは、少なくとも3本のペアリードが、同じキメラRNAの相手にマップされていた、という条件で、 6,163ものキメラ候補を3人の患者サンプルから得ました。
そのうち、後に検証しにくいKLK2またはKLK3を含むキメラを除くと、2,369にまで減りました。
20人の患者中10人に共通していたキメラは46と、ウェットで検証可能な数になりました。
世の中には、TopHat Fusionというツールがありますが、この論文では使われていないようです。
個人的にはもう少し長い塩基の条件にした方が良いのでは、と。
彼らは、少なくとも3本のペアリードが、同じキメラRNAの相手にマップされていた、という条件で、 6,163ものキメラ候補を3人の患者サンプルから得ました。
そのうち、後に検証しにくいKLK2またはKLK3を含むキメラを除くと、2,369にまで減りました。
20人の患者中10人に共通していたキメラは46と、ウェットで検証可能な数になりました。
世の中には、TopHat Fusionというツールがありますが、この論文では使われていないようです。
2011年12月15日木曜日
分子生物学会 in 横浜
例年通り、分子生物学会に来ています。
展示会のブースに立っていて、色んな人と話をしました。
やっぱり次世代関係の質問は多いです。
昨年に比べて3、4倍くらい、質問がきます。
やってみたい、というひとを入れると10倍くらいに増えているような感じです。
私のブログを見てくれているひともいました。
「もしかしてブログの・・・」 って言ってくれたひとも。 うれしい。
ポスターも、NGS関連が多くなってきたと実感します。
来年の、「NGS現場の会 第二回研究会」のチラシです。
行かれる方も多いのではないでしょうか?
この分野はまだ始まったばかりですので、手探り状態で実験・解析をしている方が多いのではないかと思います。
「現場の会」のようなところで、意見交換、質問、発表をすることは良いでしょうね。
NGS専門の学会が、日本にはありませんから。
私も来年、行きます。
それにしても横浜は疲れる。
私の家は東京の板橋区なんですが、三田線、東横線、みなとみらい線と乗り継いで、会場のパシフィコ横浜までドア・トゥー・ドアで約2時間。
往復4時間はしんどいです。
神戸が会場の去年は、泊まりだったから、ホテルに帰ってもまだまだ元気だったのに・・・。
展示会のブースに立っていて、色んな人と話をしました。
やっぱり次世代関係の質問は多いです。
昨年に比べて3、4倍くらい、質問がきます。
やってみたい、というひとを入れると10倍くらいに増えているような感じです。
私のブログを見てくれているひともいました。
「もしかしてブログの・・・」 って言ってくれたひとも。 うれしい。
ポスターも、NGS関連が多くなってきたと実感します。
来年の、「NGS現場の会 第二回研究会」のチラシです。
行かれる方も多いのではないでしょうか?
この分野はまだ始まったばかりですので、手探り状態で実験・解析をしている方が多いのではないかと思います。
「現場の会」のようなところで、意見交換、質問、発表をすることは良いでしょうね。
NGS専門の学会が、日本にはありませんから。
私も来年、行きます。
それにしても横浜は疲れる。
私の家は東京の板橋区なんですが、三田線、東横線、みなとみらい線と乗り継いで、会場のパシフィコ横浜までドア・トゥー・ドアで約2時間。
往復4時間はしんどいです。
神戸が会場の去年は、泊まりだったから、ホテルに帰ってもまだまだ元気だったのに・・・。
登録:
投稿 (Atom)