2011年3月26日土曜日

Accelrys Partners with Oxford Nanopore

Accelrys といえば、バイオの研究者よりもケミカルの研究者に良く知られているかもしれませんね。
Pipeline Pilot というソフトウェアが有名です。 画面(デフォルト)はこんな感じです。

このソフトは、パイプラインと呼んでいる通り、解析の流れを先ず作ります。 GUIで作ります。
「解析の流れ」は様々なパーツ(コンポーネント)を組み合わせて作るのですが、一度作ってしまえば何度も解析のバッチ処理ができ、同じ作業を何十回もやらなければいけない時などに便利です。
で、このパイプラインにはオプションで、シーケンス解析のパーツがあるのです!! 

このAccelrys社と、1分子シーケンサーのOxford Nanopore社が、パートナーシップを結んだそうです。
http://ir.accelrys.com/releasedetail.cfm?ReleaseID=557883

Oxford Nanopore社のテクノロジーは、他のどのシーケンサーとも変わっていて、ナノポア(小さい穴)の中を分子が通過するときの電荷を検出して、1分子単位で物を測るというものです。
今はNGS、DNAシーケンサーとして開発しているようですが、分子は何もヌクレオチドである必要は無いわけで、タンパク質でも化合物でも可能でしょう。
そんな将来性の高さが、Accelrysとのパートナーシップにつながったのではないでしょうか、というのは私の勝手な想像です。

Nanoporeシーケンサーは、まだリリースされていないようですが、技術は期待大ですね。

さて、最近、Accelrys社のWebinarがありました。
日本時間の24日深夜0時半から、でしたが、内容はずばりPipeline PilotのNGS Collection

今日はこれを紹介します。  
Pipeline Pilot NGS Collection 

NGS Collection は、アセンブル、マッピング、SNP/InDel/CNV検出、アノテーション、RNA-Seq、ChIP-Seqといったメジャーな解析機能はあるようです。
これらの解析機能を並列に実行できて、例えばマッピングなら異なるアルゴリズムを並列に実行し、結果を比較することができます。
アノテーションDBと連携させて、検出したSNPがどの遺伝子にあるのかわかります。
ビューワーはGBrowse2で見ることも、リストでみることもできます。
SAM/BAM, GFF3/Tabix, XML で出力できます。

リードを取り込んで、マッピングして、SNP検出して、それぞれでレポートして、SNPがあれば遺伝子のどこにあるか、それをGFFで出力、またはHTMLで表示、・・・ などという一連の流れ(パイプライン)を設計して実行! 
そんな説明とデモを見ました。

パイプラインの様子(MAQとSOAP SNPを並列処理)
SNPのリスト表示
ベン図で表示

私の印象では、ありきたりの有名なアルゴリズムはメニューにあるものの、マイナーな、というか
難しい、転座解析やバイサル解析はどうだろう? もっと見てみたい。
リスト表示やエクセルでできるような統計は簡単にできそうですね。
レポート表示は充実しているようです。

今度、トライアルをする予定なので、またご報告を。

参考資料です。 興味のある方はどうぞ。

Next Generation Sequencing Collection Overview: http://accelrys.com/products/datasheets/next-generation-sequencing.pdf
Building Novel Applications with Pipeline Pilot to Drive Next Generation Sequencing: http://accelrys.com/resource-center/case-studies/pdf/oxford-nanopore-case-study.pdf

2011年3月14日月曜日

半導体シーケンサ Ion Torrent PGM™

東日本大震災で被災された方には、心からお見舞い申し上げます。
私はその時、東京オフィスで仕事中でした。 職場のビルはかなり揺れ、ロッカーは倒れ書類が散乱しました。 
その後、都内の電車が全部ストップしたため、19kmを4時間かけて歩いて帰宅しました。 寒かった。
東京は、震度5でしたが、インフラがやられると大変だとつくづく実感しました。

その日の午前中は、ライフテクノロジーズ社の、半導体シーケンサIon Torrent PGMのショートセミナーに参加していましたので、今日はそれについてご紹介します。 

PGMPersonal Genome Machine)は、DNA合成時に放出される水素イオン(プロトン)をモニタリングして、配列を読みます。 
詳しくはこちらのサイトを見るのが良いでしょう。 カタログもダウンロードできます。

簡単にまとめると、200bpに断片化されたDNAは、SOLiDと同じように直径0.8ミクロンのビーズに吸着され、エマルジョンPCRで増幅されます。 
半導体上のウェルの表面には小さな穴が無数にあり、その中にビーズが入ります。
プライマーとDNAポリメラーゼによって、その穴の中でDNA合成反応が進むのです。
その時に一度に一種類のdNTPが流され、一塩基合成、プロトン検出の後、Washされます。次に別の種類のdNTPが流され、一塩基合成、プロトン検出の後、Washされます。

同時に反応に使われるのは一種類の塩基のみ、というのが重要です。
私も最初、プロトンの検出では塩基の種類がわからないじゃないか、と思ってました。
でも、一度にAだけを流すと、鋳型のDNAAがくるべき時は反応が進み、プロトンが放出されます。つまり、今プロトンが検出されたビーズのDNAの塩基は、Aであるとわかります。 TGCがくるべきDNAテンプレートではDNAは合成されないのでプロトン放出は起こりません。
そして、きれいにWashされます。
次に、一度にTだけを流すと、同じくプロトンが放出されたビーズのDNAの塩基は、Tだということがわかります。T以外ではプロトン放出は起こりません。
Tが2つとりこまれたときは、電荷が2倍となるため、Tが2つあるとわかります。 
言葉で書くと回りくどいですが、先のサイトを見れば一目了然でしょう。
シーケンスはこれを数百回繰り返し、塩基を読みます。 
ちょっと、Rocheのパイロシーケンスと似ています。 (開発者は454の開発者でもあるそうです)
でも、違う点は、パイロシーケンスは、プロトンではなくPPの放出とその蛍光を読んで塩基を特定するところです。

さて、DNAを最初にフラグメント化するときの、長さは現状200塩基で固定です。 これ以上の配列は今は読めません。 将来的には、ソフトウェアの向上などにより400まで読めるようになるそうです。

装置は61 cm x 51 cm x 53 cm、のベンチトップ型で、とても小さい印象です。 プリンターほど?
装置価格 998万円 (←1000万円を切る)
1ランあたりのコスト 約6万円 (今のバージョン314のチップ価格)

チップを交換することでバージョンアップ!
現バージョンのチップの名前は314チップと言います。
平均リード長は100 bp、出力は10万リード、反応は2時間くらいかかります。

次期バージョン316チップ:平均リード長100 bp100万リード、反応2時間半くらい
来年バージョン318チップ:平均リード長400bp500万リード

これらのチップを交換することで、装置の買い替えはすること無しに、バージョンアップが可能です。
ちなみにこれらチップは使い捨てです。 

出力データは塩基のテキストデータ
Torrent Suitというベースコールマシンによって、最初1ランあたり53GBDATデータは、180MB程度のsff、または60MB程度のfastqフォーマットで出力されます。
このマシンは、1台で複数のPGMのデータを処理できるそうです。
塩基配列で出てきます。 カラースペースではありません。

今後の予定
現在は微生物、ウイルスのデノボまたはターゲットリシーケンスや、アンプリコンシーケンスに用いられているそうです。
また、現在はシングルリードのみに対応ですが、今年中にはペアエンドに対応予定です。
そのうちバーコードサンプルにも対応するそうです。

ケーススタディの紹介では、ピロリ菌のゲノムシーケンスにて、GC%が高いところもちゃんと読めるらしいことがわかりました。
また、ホモポリマーが長くても、その数まで正確に読めるらしいです。
スタート時に必要なゲノム量は5マイクログラム、と結構多い?ですかね。

将来的には、1Gbのゲノムも読めるようになるので、他のシーケンサーとの差がますます小さくなりますね。
注目です。