2011年7月27日水曜日

Exome 解析 non-synonymous SNVを見つけた後は・・・

Agilent社のSureSelect、Illumina社のTruSeq、NimbleGen社のSeqCap といえば、最近盛んに宣伝されているExomeの実験用キットです。
Exomeというのは、ゲノム全体ではなく、その中のExon、実際はExon+α の配列のみを選択してシーケンスする解析方法です。
原理はまず、Exonの部分配列DNA(プローブ)が用意されていて、断片化されたゲノムと、溶液中またはアレイ上でハイブリし、Exonプローブにハイブリされた(キャプチャーされた)ゲノム断片だけを抽出します。
そのExon部分配列のみをシーケンスするというわけです。
実際Exonの上を何塩基ごとにプローブが設定されているのか、という情報は非公開ですが、Exon全てをキャプチャーできるようには設計されているそうです。

このキットが普及されるにつれ、Exome、特にヒトExomeの研究が盛んになってきました。
それまでは1000GenomeやCancer Genome Instituteのようなゲノムセンターでの研究が一般的でしたが、昨年末ごろから一般の大学の研究室レベルでも、ヒトExome実験が行われるようになってきたようです。

実験プロトコールもいろいろ大変なのでしょうが、私はデータ解析屋なので、データが出てからの料理に興味があります。

世の中に、フリーツールはたくさんありますが、Exome解析は、それらをいくつも組み合わせていく、一見面倒くさいけれどもエレガントなワークフローです。

ちょっと検索すると、
NGS Surfer's Wiki のリシークエンス
BioStar
などにパイプライン(ワークフロー)が出てきます。

まとめると、
  1. リードをゲノムにマッピングし (BWA)
  2. 冗長性のあるリード・Duplicateを除去し (SamtoolsやPicard)
  3. キャプチャーしたExon領域だけを取り出し (Bedtools)
  4. SamtoolsでSNVを抽出し
  5. SNVにアノテーションをつける non-synonymous SNV, missense, frame-shift など
というところまでを行っています。
SNVというのはSNPとほぼ同意語で、変異か多型かの違いです。厳密には異なりますが、ここでは同じ意味とします。

さて、Exomeの論文はたくさんありますが、その中でいいな、と思ったものを3つ
  1. Vissers et al. A de novo paradigm for mental retardation. Nature Genetics 42, 1109-12 (2010).
  2. Timmermann et al. Somatic mutation profiles of MSI and MSS colorectal cancer identified by whole exome next generation sequencing and bioinformatics analysis. PLoS One 22, e15661 (2010).
  3. Ng et al. Exome sequencing identifies MLL2 mutations as a cause of Kabuki syndrome. Nature Genetics 42, 790-3 (2010).
 3のKabukiシンドロームは、10人の患者データセットがあるのですが、10人全部に共通する新規レアSNVを見つけようとしたらうまくいかなかったのですね。 そこで10人全員ではなく9人に共通、8人に共通、7人に共通というふうにレベルを下げていったのです。
そうするとNonsense置換またはフレームシフトを起こしていたMLL2遺伝子上の変異が、10人中7人に見つかったのです。
後はちゃんとCGHアレイとサンガーシーケンスで確認しています。

2のMSI/MSSは、直腸癌の種類(microsatellite instable / stable)が違う6人の患者サンプルで、MSIとMSSとで見つかった変異にどう違いがあるか、を見ています。
それぞれのサンプルで55,000程のSNVをリストした後、遺伝子の中にあるか、タンパクコード領域にあるか、dbSNP/1000Genomeに登録されていないか、カバレージは十分にあるか、Somaticな変異かどうか、とフィルタリングしていき、最終的に「タンパク質の機能を変化させる変異であるか」というところまで行き、数十程のSNVまで絞り込んでいます。
せっかくタンパク質の3D立体構造まで表示しているので、もう少しここから先が欲しかったです。

1、2、3、共通するのが de novo SNVを見つけた後にその変異が引き起こすであろうアミノ酸置換またはフレームシフトが、タンパク質の機能にどのような影響を及ぼすか、をスコア化していることです。

1はPhyloPとGrantham、2はPolyPhen(Polymorphism Phenotyping)とMutation Taster、3はGERP というプログラムを使ってスコアを計算しています。
このような潜在的なnon-synonymous SNVの機能予測プログラムは他にも、SIFT(Sorting Intolerant from Tolerant)、PolyPhen‐2などがあります。
私も全部を知っているわけではないので(知っていなくてはいけないのでしょうが)、これらのうちの
 いくつか、多分PolyPhenとGranthamを、SeattleSeq というWebツールと一緒に紹介します。

0 件のコメント:

コメントを投稿