2011年12月29日木曜日

2011年の総括

2011年の総括


私は今まで、この「ショートリードの憂鬱」というブログで、次世代シーケンサーの技術と解析を中心に書いてきました。
仕事でNGSのデータを扱っていましたが、このブログは会社の業務とは全く別に、個人でやっています。
だから自分の所属する会社名は出していないはず(リンクを貼ったことはあったけど)です。


そもそも次世代シーケンサーなるものを最初に知ったのは、2007年の分子生物学会でした。 
確かABI社のSOLiDのプレゼンだったと記憶しています。
「これは来るぞ!」って直感し、翌2008年から、メーカーさん主催のセミナーやWebセミナーにはできる限り参加して、情報収集をしていました。
でもまだその頃は、データ量の多さと、将来の可能性ばかりが強調されて、解析はこれから、という感じでした。少なくとも日本では。

2009年、NGS関連の論文がたくさん出てくるようになり、時間が許す限り、目を通すようにしました。 
シーケンサーといっても、配列解析だけでなく、発現やメチレーションなど、汎用性が高いのが特徴なので、はっきり言って私の知らない分野が多く、勉強するのが大変です。
この頃からフリーツールを調査し始めるようになります(まだ趣味の範囲で)。

2010年、仕事でNGSのデータを扱うようになって、いよいよ本格的に、世に出ているフリーツールを試し始めました。 
また同時に、会社で導入したCLC-Bio社のソフトを触るうちに、他の商用ソフトとの比較もしたくなり、いくつかトライアルしました。

そんな経験やそこで得た情報を何とか残しておきたい、ほかのひととシェアしたい、と始めたのがこのブログです。
開設から1年半経ち、このブログがきっかけで、出会えたひともたくさんいます。
本当に良かったと思います。


本日12月29日は、会社の仕事納め、と同時に私の最後の出勤日でした。


来年1月からは、Pacific Biosciences社の日本代理店で働きます!
PacBioについては前から何回か書いてきましたね。 噂の一分子のシーケンサーです。

そこで、

PacBioのことは別ブログで書くことにしました。 もうショートリードじゃないし・・・
その名も、
「パックマンの挑戦」

PacBioにとっても、私にとっても、2012年は挑戦です。
日本で一番詳しいPacBioのブログ、を目指します!

とにかく、PacBioのシーケンサーは、賛否両論、いろいろ言われていますね。
それだけ注目度が高いということでしょう。
新しい技術は、批判に聞く耳を持って、改善されて、世に広がっていくものです。
私は、今度はPacBio擁護派に属する訳ですが、そのブログでは、正確な情報を発信することに気をつけます。
つまり、批判が正しければそのように、間違っていればその点を明らかにしようと思います。
また、PacBioに興味がある方全てに向けて、公共のPacBioデータとネット上の情報の、解説っぽいことも書こうと思います。
それから、PacBioのデータ解析も、いち早く書こうと思います。
と、まあ、来年に向けての抱負っぽいことを言いましたが、どれだけ実現できるか・・・

「ショートリードの憂鬱」も、できる限り、続けていくつもりです。 
主に公共にある情報(論文やネット上)が中心になるかと思いますが。
やはりロングリード(特に一分子)をやる以上は、ライバルのショートリードを知ることが欠かせないですから。

来年もどうぞ宜しくお願いします。
良いお年を!!

2011年12月27日火曜日

BEDファイルをGFFファイルに変換

BEDフォーマットからGFFフォーマットへの変換
って、何のために?

と思った方もいるのではないでしょうか。
どちらも、ゲノムのアノテーションや場所を指定・定義するフォーマットです。

例えば前回のブログに書いた、SureSelectのキャプチャー領域を示したBEDファイル、これをGFFファイルに変換する必要があったとします。
(GFFしか対応していないツールにBEDファイルの情報を取り込みたい時など)

フォーマットを単に変換すれば良いと思いきや、注意する点がありました。
ポジションの表示方法が、UCSCで作られたBEDフォーマットは0インデックス、SangerでつくられたGFFは1インデックスなのです。 
なんのこっちゃ?とお思いの方、数え方の違いだと思ってください。
地上階を1階と数えるか、(行ったことありませんがイギリスのように)Ground Floorとして0階と数えるか、の違いのような。
塩基を0から数えるか、1から数えるか、の差です。
くわしくはここを参照

プログラムでやるのも良いですが、車輪の再発明、なんてことにならないように、もっと簡単便利なツールがGalaxyです。

Galaxyはこちら   ユーザー登録が必要です。 

先ずはデータ(BEDファイル)をアップロードします。

File Formatはbedを選択、ファイル(ここではSureSelect のHuman Exon 50MbのBedファイル)を指定、GenomeはHg19で、Executeボタンを押します。

ネットワークによっては結構時間がかかりますので、気長に待ちます。
うまくアップロードされると右側のパネルに、ファイル名が表示されます。

Galaxyはいろいろできるクラウド型解析パイプラインです。
個人的には、フォーマットのコンバート(変換)など、ちょっとしたことに使っています。
その中のひとつ、BED-to-GFFを使います。

左側パネル、Convert Formats をクリックし、Convert this query に今アップしたSureSelectのBedファイルを選択して Execute します。

これはすぐ終わるでしょう。 GFFファイルができたら、保存アイコンを押してダウンロード。

では、早速、GFFファイルを確認してみましょう。
中身を見るのももちろんですが、ソフトにインポートしてうまく入るかどうかを確認して下さい。

IGVに入れたときの例: 
下段の一番上がRefSeqのアノテーション、真ん中がGFF変換後のSureSelect Human 50Mb、下が変換前のBEDファイル。
真ん中と一番下は同じ情報のはずです。
もっと拡大して塩基がずれていないか確認。
ずれていないようですね。
ちなみに、BEDファイルとGFFファイルは、IGVに取り込む前に、File>Run igvtoolsでIGVtoolsを開き、Indexを付けてあげる作業が必要かもしれません。

さて、最初に戻り、なんでこんな、わざわざBEDで書いてあるアノテーションをGFFにしたか、という理由をお話します。
あるソフト、CLC Genomics Workbenchでは、リファレンス配列にアノテーションを追加する機能がありますが、現バージョン4.9ではBEDファイルを取り込めないのです。
GFFならOK、ということで、わざわざ同じ情報をGFFにしたのでした。
こうすると、リファレンスゲノムにSureSelectのキャプチャー領域がアノテーションされるので、Exome実験のデータをマッピングするときに、SureSelectキャプチャー領域のみに、マップすることが可能になるのです。

もちろんSureSelectだけでなく、TruSeqやSeqCapなどでキャプチャーしても同じです。 BEDファイルがあればGFFに変換してCLCに取り込めば、キャプチャー領域だけにマッピングすることができます。
それがやりたかったのでした。






2011年12月26日月曜日

SureSelect のBEDファイル取得方法

Exome解析については、以前ここでも書きましたが、ワークフローは大体出来上がっています。
  1. リードをゲノムにマッピングし (BWA)
  2. 冗長性のあるリード・Duplicateを除去し (SamtoolsやPicard)
  3. キャプチャーしたExon領域だけを取り出し (Bedtools)
  4. SamtoolsでSNVを抽出し
  5. SNVにアノテーションをつける non-synonymous SNV, missense, frame-shift など
こんな感じ。
NGS Surfer's Wiki のリシークエンス
BioStar を参照

このうち、3の、キャプチャーした領域だけを取り出す、という所は、キャプチャー領域を定義したファイルが必要です。 
このファイル、BEDフォーマットであることが普通(Bedtoolsを使うときは)です。
UCSCなどの公共DBから落とすことも可能でしょうが、メーカーももちろん提供しています。

Agilent社のSureSelect Human Whole Exon 50MのBEDファイルをダウンロードして、実際にどの場所をキャプチャーしているのか、見てみましょう。


Agilent社のアレイ情報は、eArray というサイトで得ることができます。 登録が必要ですが、無料なので是非ユーザー登録しましょう!
ログイン画面はこんな感じ
ちょっと重いサイトですが、気にせずに。
右上の、Switch Application Type をクリックして、
SureSelect Target Enrichment を選びます。
Human All Exon 50Mb Kit というのが欲しいアレイ情報です。
これをダウンロードしましょう!
ゲノムバージョンを確認して、ダウンロード画面へ
BEDだけをダウンロードするのではなく、ここでは全部選択します。
欲しいのは、実は一番上のSureSelect_All_Exon・・・というファイルなのです。
後で中身を比較してみると良いでしょう。

ダウンロードが終わったら、ファイルを解凍して、さらにSureSelect_All_Exon・・・.zipを解凍して、.bedファイルを得ます。 このBedファイルはキャプチャー領域を定義しています。
先のBEDフォルダに入っているBedファイルは、プローブの設定領域を定義しているようです。

Bedファイルの中を開くとこんな感じ

これをIGV (Integrative Genomics Viewer http://www.broadinstitute.org/igv/ )上で見てみましょう!
先ず、IGVtools でインデックスを付ける必要があります。
(File > Run igvtools... でBedファイルを指定し、Indexを選択)

これをインポートすればOK!

画像は次回、このBedファイルと、BedファイルをGalaxyというフリーツールを使ってGFFファイルに変換する方法を説明するときに合わせてお見せします。

では。

2011年12月20日火曜日

キメラRNAの検出

NGSでキメラRNAの検出に挑戦した論文

Kannal et al. Recurrent chimeric RNAs enriched in human prostate cancer identified by deep sequencing PubMed

Q: Chimeric RNAって、Fusion Geneのことでしょうか?

A: もっと広い概念です。 Chimeric RNAのうち、Chromosomal Rearrangementsによって作られる複合遺伝子のことを、Fusion Geneと定義するそうです。

染色体リアレンジメント以外の原因で、転写が原因で作られるキメリックな転写産物のことも、Chimeric RNAと呼ぶそうです。

転写が原因で起こる? 
  • 隣の下流遺伝子まで、転写されてしまうことで作られる、Read-through/splicing 型Chimeric RNA
  • 転写された異なるRNA分子が同時にスプライシングされて、ひとつのRNA分子になる、Transsplicing 型Chimeric RNA
このような種類のChimeric RNAがあるそうです。
そのうち、前立腺癌に特徴的なキメラRNAを見つけよう!という論文です。

NGSはスクリーニングに使う、というスタンスです。
いくつもフィルタリングを重ねて、キメラRNAの候補を絞り込んでいます。
イルミナGAIIの36bpペアエンドリードを使っています。
  
  1. クオリティフィルター: リード単位でクオリティが悪いもの(イルミナパイプラインのデフォルト)を除きます
  2. ユニークネスフィルター: リードマッピングの後、マッパブルなペアエンドリードのうち、ペアとして、ゲノムまたはTranscriptに複数個所マップするものを除きます。 これによって、ペアリードの両方とも、ゲノム上またはTranscript上に1か所だけマッピングするものだけが残ります(2塩基のミスマッチはゆるしています)。  
  3. Entrez Gene IDフィルター: ゲノムやTranscriptにユニークにヒットすると言っても、遺伝子単位でユニークかどうか。 彼らは、Entrez Gene ID単位で遺伝子を定義しています(Gene IDが無い配列は遺伝子としない)。 ペアとして複数のGene IDにマップされるリードは除かれます。  この2と3のフィルタリングは、ユニークマッピングするペアリードだけを残すので、Gene Family(Homolog)などを間違ってキメラRNA候補としてしまうのを避けることができます。 しかし、逆に、Homologのどれかがキメラっている場合のRNAは検出できません。 実際、CLC Genomics Workbench でも経験があるのですが、Fusion Geneを検出してもHomologにばかりヒットして、擬陽性ばかりということがありました。 ユニークヒットに限ることは良いかもしれません。
  4. Gene ID キメラフィルター: キメラRNAを見つけるのが目的なので、同じ遺伝子上にペアの両方ともマップされているリードは除きます。 異なる遺伝子をまたいでマップされているリードだけに絞っています。  イメージでは、こんな感じ(Fusion Geneと書いていますがキメラRNAと置き換えてください) 

ペアの片方が、偶然GeneAとGeneBの結合部位(ジャンクション)に合った場合、片方のペアの6塩基が完全ヒットであれば、ジャンクションにヒットしたと、見なしていました。
個人的にはもう少し長い塩基の条件にした方が良いのでは、と。

彼らは、少なくとも3本のペアリードが、同じキメラRNAの相手にマップされていた、という条件で、 6,163ものキメラ候補を3人の患者サンプルから得ました。
そのうち、後に検証しにくいKLK2またはKLK3を含むキメラを除くと、2,369にまで減りました。
20人の患者中10人に共通していたキメラは46と、ウェットで検証可能な数になりました。


世の中には、TopHat Fusionというツールがありますが、この論文では使われていないようです。






2011年12月15日木曜日

分子生物学会 in 横浜

例年通り、分子生物学会に来ています。
展示会のブースに立っていて、色んな人と話をしました。

やっぱり次世代関係の質問は多いです。
昨年に比べて3、4倍くらい、質問がきます。
やってみたい、というひとを入れると10倍くらいに増えているような感じです。

私のブログを見てくれているひともいました。
「もしかしてブログの・・・」 って言ってくれたひとも。 うれしい。

ポスターも、NGS関連が多くなってきたと実感します。


来年の、「NGS現場の会 第二回研究会」のチラシです。
行かれる方も多いのではないでしょうか?
この分野はまだ始まったばかりですので、手探り状態で実験・解析をしている方が多いのではないかと思います。
「現場の会」のようなところで、意見交換、質問、発表をすることは良いでしょうね。
NGS専門の学会が、日本にはありませんから。
私も来年、行きます。


それにしても横浜は疲れる。
私の家は東京の板橋区なんですが、三田線、東横線、みなとみらい線と乗り継いで、会場のパシフィコ横浜までドア・トゥー・ドアで約2時間。
往復4時間はしんどいです。

神戸が会場の去年は、泊まりだったから、ホテルに帰ってもまだまだ元気だったのに・・・。