2015年9月23日水曜日

超高速でNGS解析 DRAGEN(3)

皆さんはHudsonAlphaという研究機関をご存知でしょうか?
え? 知ってて常識?
私もそんなに詳しくは知らないし、知り合いもいないのですが、色んな意味ですごいところだそうです。
2008年にアメリカ・アラバマ州に設立された、非営利のバイテク専門研究機関。
現在のプレジデントは、スタンフォード大学・Human Genome Centerの部長だった、Richard M. Myers博士。
そこのシークエンスセンターには、HiSeq Xが8台、HiSeq2500が7台、HiSeq2000が5台、MiSeqが少々、それとNextSeqがあるそうです。
まさに、イルミナオールスターズ!
これらの機械を動かし、データを処理している職員が何と、たった10人(うち1人は事務)!
ここは受託機関のようなところなので、顧客は全世界に約700箇所あり、製薬会社やバイオテック企業が含まれているとのこと。
クリニカルシーケンスのブームもあってか、今年は15,200~15,500ゲノムを読むことになるだろうと予測しているらしい。

さて、そんなところで解析はどうやっているのかというと、超高速ゲノム解析パイプライン、DRAGENを使用しているとのこと。

記事の原文はここ
この中に、DRAGENをカードと表現しているところがあります。
そしてこんなくだりも
 “As it comes from Edico, it’s just an appliance,” Levy notes. “It doesn’t have any front end in front of it that actually feeds it. It’s like if you thought you were buying a car, but the car manufacturer delivered you an engine.”
(Levyさんはこのシークエンスセンターのひとです)
つまり、このときは、DRAGENのボードだけを販売していたので、「車(サーバ)買ったのにエンジン(ボード)が送られてきたようなもの」と表現しているのです。

私もそのころ(今年上半期まで)を知っているのですが、ボードだけを売るのは無理がある。
これはアメリカでもそうだったのでしょう。
今は、サーバにボードを組み込んで、サーバごと販売する方式に変わりました。
日本でもサーバセットで販売します。

HudsonAlphaでは、このGenomic Service Laboratoryのほかにも、患者さんの全ゲノムシークエンスをしている、CLIA認定のClinical Services Laboratoryにて、DRAGENが導入されているそうです。
ヒトゲノム30xの、FASTQ→VCFまでが28分でできる。
これは結構、解析スピードにインパクトを与えるのではないでしょうか?

さて、日本でも、いよいよ超高速ゲノム解析が必要となる時代が来ます。

前回に引き続き、
価格とかトライアルとかについて知りたい! という方は是非、ご連絡下さい。
まだ弊社のホームページは準備されていないので、私宛のメール宛てにお願いします。

ken_osakiあdigital-biology.co.jp 「あ」を@に変えて下さい

トライアルは無料ですよ!
速さ、精度、まずはやってみるに限ります。
お問い合わせはお気軽に。



2015年9月8日火曜日

超高速でNGS解析 DRAGEN(2)

DRAGENという製品は、アメリカ・サンディエゴに本社を置く、Edico Genome Inc.という会社が開発しました。
この会社、2014年のThe Scientist Top 10 Innovations の1位に輝いたベンチャーです。




DRAGENサーバの速さの秘密は、FPGAにあります。
ん? なんのこっちゃ?

FPGAとは、field-programmable gate array
直訳すると、「現場でプログラム書き換えできる集積回路」
「現場」って何?
簡単に言うと、「後でハードウェアを書き換えることが可能な集積回路」

ICやLSI(大規模集積回路)は後で書き換えができない集積回路ですが、一般に半導体というとこれらを連想する方が多いのではないでしょうか?
私も小学生の頃、欲しかったパソコン(結局高価すぎて買えませんでしたが)の雑誌を読んでいて、ICとかLSIとかの名前を知った記憶があります。
トランジスタがたくさん集まって小型化したのがIC、さらにたくさんのIC回路を集積して、高度な計算に使用されるのがLSI、そんな説明だったと思います。
配線が固定なのは当たり前なので、後で回路をプログラムで書き換えることができるチップがあるなんて、知らなかった、というかたもいるでしょう。

LSIなどとは別に、ハードを作った後に、回路を自由に書き換えできるのがFPGAです。
歴史的には1970年代からPLD(Programmable Logic Device)というものがあったそうで、主に製品開発途中で回路を書き換えするのに広く使われていたそうです。
今では、製品を出荷した後でも、回路の書き換え(バージョンアップなど)ができるように、書き換え可能な集積回路が多く使われているとのこと。
このサイトに歴史から原理・応用まで詳しく説明されています。 
開発者向けではありますが、こういうサイトもFPGAに詳しいです。

私はこの辺、全然素人なので、FPGAについてはこれくらいにしておきます。
ま、要するに、DRAGENサーバとは、「FPGAを使ってNGS解析専用に回路を書き換え、また後で書き換えも可能にした大規模集積回路と、専用に作られたソフトウェアが乗っかった、NGS解析サーバ」
です。


EdicoGenome社が提供するDRAGENボード
これがDRAGENボードです。

真ん中にあるDRAGENと書かれたプロセッサが、書き換え可能なFPGAプロセッサ。
両サイドにある4枚のメモリに、リファレンス配列をハッシュ化して記憶します。
プログラムがハードウェアに直接書かれているので、通常9時間かかる解析が、たった20分で終わる、というふうに超高速に解析を行なうことができるのです。

ゲノムパイプライン(リシークエンス&変異解析)の場合、マッピングはbwaと同じ、smith-watermanアルゴリズムを使用、変異解析はGATK-HCと同じ、隠れマルコフモデルを使用。
詳細は間もなく論文で明らかになるはずです。

海外では既に実績があります。
例として、
  • Children’s Mercy Hospital of Kansas City;遺伝病を抱えて生まれてきた赤ちゃんのゲノム診断には、スピードと精度が必要。DRAGENサーバにより、これまでの解析パイプラインと比べて飛躍的に速く、そして正確にタイピングすることができるようになった。 このお話は、来月のアメリカ人類遺伝学会の、Edico Genome社のセミナーにて聞けますよ。 もちろん私も聞いてきます!
  • CDC(Centers for Disease Control and Prevention)では、Edico Genome社との共同研究を通じて、微生物ゲノムの研究に使用されているそうです。また、
  • PerkinElmer社のNGS解析パイプラインに採用されたり(この記事参照)、
  • Harvard大学やStanford大学では、300カバレッジのヒトリシークエンス解析を10分の1の時間(60時間→6時間)で完了したり(このニュース参照)、
と、まだこれからですが、ゲノムシークエンスの解析の分野で、久々にすごい技術革新が登場したという印象があります。

興味ありませんか?


解析サーバは前回のブログ記事のスペックです。
このサーバでMiSeqからHiSeqXまで対応できるとのこと。こちらのサーバは買取り。
これにボードが付いてきて、ボードは年間レンタル。
解析するデータ量に従って課金されるランクが変わるシステムです。
携帯電話みたいな感じですね。 一応、「パケ放題」も対応してますがX10システムでもない限り必要ないでしょう。

興味ありませんか?

無料トライアルもできます。
データを送って、解析結果を返却、のような流れです。
これでは速さが実感できませんが、タイムスタンプを信じて下さいね。

もう一度、

興味ありませんか?(しつこい)

価格とかトライアルとかについて知りたい! という方は是非、ご連絡下さい。
まだ弊社のホームページは準備されていないので、私宛のメール宛てにお願いします。

ken_osakiあdigital-biology.co.jp 「あ」を@に変えて下さい

gmail, hotmail 以外のメーラーで送って下さいね。
ホームページ準備されたらそのリンクに書き換えます。

もちろんこのブログにコメントでもOKです。

アメリカ人類遺伝学会の後に、もっと情報アップデートできると思います。
楽しみにしていてください!

2015年9月7日月曜日

超高速でNGS解析 DRAGEN(1)

NGS解析で一番困っていることは何ですか?
データの量が多すぎ? 解析サーバが非力? ゆえに結果が出るまでのスピードが遅い?
良く引き合いに出される、「ムーアの法則以上に、NGSのスループット革新は速い」というのは、解析するほうにとっては頭の痛い問題。

じゃあどうするか?
仕方が無いので解析サーバを増強したり、スパコン借りたり(操作できるひとは限られるでしょうが)、外注に出したり。
でもやっぱり行き着くところは、大量のデータ解析をするには、それなりの計算サーバが必要だということ。
日本にも、ライフサイエンス関連でいうと、何社かありますよね、NGS解析環境を作ってくれるサーバ屋さん。学会展示会場で良く見かけます。
彼らに共通するのは、汎用サーバを、NGS解析用に適した環境にカスタマイズしてくれるということ。
汎用サーバの中にNGS解析ソフトウェアをインストールして、メモリをうんと積んだり、ディスクをいいもの使ったり、I/Oを速くしたりしていると思います。
なので、同じソフトウェアを使っている限り、劇的にスピードがアップするということは無い。

でも、もし、ハードウェアからNGS解析用にチューニング・設計して、それに合ったソフトウェアを乗っけたNGS専用サーバがあったらどうでしょう?

あるんです!


今年(2015年)の「NGS現場の会・つくば大会」で、私の発表を聞いた方はご存知かもしれませんが、すごいNGS解析サーバが日本にやってきました。

その名も DRAGEN: Dynamic Read Analysis for GENomics

これが超速解析サーバなんです。
例えばショートリードでヒト全ゲノムをリシークエンスして変異解析をするとき、基本的に以下の順序で行います。
  1. BCL→FASTQ変換
  2. FASTQクオリティフィルタリング
  3. リファレンスマッピング(BWA)
  4. マッピングポジションをソーティング
  5. ダブっているマッピングを除去(リピート部分など)
  6. BAMファイル圧縮出力
  7. バリアント検出(GATK)
  8. VCFファイルの出力
このパイプラインを、ヒトゲノム30xのデータで行なった場合、皆さん、どれくらいの時間で終了していますか?

サンプルデータはSRA056922(NA12878の、全ゲノムリシークエンス)
101bpのペアエンドリード(平均距離410bp ± 14bp)が10億8000万本(ヒトゲノム30カバレッジ)
これを、
CPU: Intel Xeon E5-2697v2、2.7GHz、12コア
Memory: 128GB

Disk Controller: 6 GB/s; Support for JBOD (pass through); Support for TRIM commands
Stagind Disk: 8 x 400 GB RAID-0 SSD (High Endurance Intel SSDs)
OS Disk: 2 x 120GBSSD in HW RAID 1 configuration
のサーバ
ふつーのワークステーションサイズ
で、やったとします。
BWA-MEM 0.7.9a/GATK-HC 3.1.1でデフォルトで解析したとき、BCLからVCFまで、かかった時間は約9時間
同じ解析を、DRAGEN Genome Pipeline 1.3 でランすると、何と、20分弱で終了!

9時間が20分ですよ。すごいでしょ。
説明を追加

速く解析が終わるということは、精度を犠牲にしているのでは?

いえいえ、そんなことはありません。
以下のテーブルを見て下さい。

真陽性はBWAパイプラインとほとんど変わらず。
擬陽性はDRAGENの方が勝っています。
SNPのROCカーブも、BWA-GATK、DRAGEN共にほとんど変わりません。

DRAGENパイプラインは、マッパーやバリアントコーラーに、独自のものを使っています。
BWAと全く同じでは無いですが、原理は同じようなものだそうです。
バリアントコーラーも、HMMを用いた検出アルゴリズムを使っています。
まもなく論文にそのあたりが明らかになる予定です。

でも、なんでそんなに速いのでしょう?
その秘密は次回のお楽しみ





2015年9月5日土曜日

久しぶりにこちらも更新!

ご無沙汰しています!
最後に「ショートリードの憂鬱」を更新したのが2012年なので、もうすぐ4年になりますか。
4年前まであんなにショートカットの彼女に想いを寄せていたのに、急にロングヘアの彼女に浮気して、気がついたらやっぱり昔のショート彼女も、手がかかったけど良かったなあ、って戻ってきた感じでしょうか。
あー、例え悪いですね。女子からは引かれそう。

冗談はそのくらいにして、もちろん最近までロングリードに夢中になっていたのですが、やっぱり気になっていたというか、最近はクリニカルシークエンスなどが熱いですよね。
これはやっぱり現在はショートリードの独壇場。
もちろんロングも頑張っていますが、もう少し時間がかかるかな。

で、「憂鬱」だった4年前のショートリード解析も、今やどんどん進化して、「快適」とまでは言わないまでも、「たまに若干憂鬱」くらいにはなってきたんでは無いでしょうか?
いやいや、まだすごい大変だよ!
という声が聞こえてきそうですが、その大変さというのも、4年前とはレベルが違うでしょう。

NGSが一般のライフサイエンスの現場に浸透していくにつれ、必ずしもインフォマティシャンではない研究者でも扱える機器になりました。
どんな分野でもそうですが、最先端の研究・誰もやったことの無い研究、パイオニア的な研究者は自分でツールを作らないといけません。
技術が汎用的になって、ある程度原理を理解した研究者が自分の研究にその技術を応用しようとするときは、優れた汎用ソフトウェアが必要になります。
汎用ソフトウェアでは自分のやりたいことができない、あるいは自分で解析する時間が無い、というかたは、受託解析を外注するでしょう。

私もかつて前職で、ちょうどNGSが日本に広まりつつある時期、汎用ソフトウェアを売ってサポートしていたり、受託解析サービスをしていました。
お客さんが100人いれば、100通りの質問、要望をします。
大変でしたが、本当に革命的な技術が広がるときの、ダイナミックな動きを肌で実感することができました。

今も、よりメーカーサイドに身を置きましたが、刺激的なのは変わりません。
むしろ、ロングリードの質問は、ショート側にいたときからは想像がつかないもの。
海外に出張すると、日本にはまだ入ってきていないビジネスや技術と触れることも多いです。
カリフォルニアという場所柄、競合企業にいたひとが会社を離れて新しいビジネスを始める、なんて普通。
ひとの動きは日本とは比べ物にならないですからねえ。


さて、しばらくロングヘアの彼女に浮気していたわけですが、この業界にいると、ショートヘア彼女の周りが騒がしくなっているのがよーくわかるのです。
ショートヘア彼女はモテるんですよ。
いろんな奴が周りにいる。
私もそんな状態を放っておくわけがない!

と、いうわけで、ショートリードについてのネタ、ちょっと紹介します。

  1. NGS解析を超高速にするサーバ「DRAGEN」について
  2. クラウドでの解析「DNAnexus」「iOMICs」について
  3. SalesForceを使ったLIMS「Third Wave Analytics」について
  4. そのほか、クリニカルシークエンス について
お楽しみに!