2015年9月7日月曜日

超高速でNGS解析 DRAGEN(1)

NGS解析で一番困っていることは何ですか?
データの量が多すぎ? 解析サーバが非力? ゆえに結果が出るまでのスピードが遅い?
良く引き合いに出される、「ムーアの法則以上に、NGSのスループット革新は速い」というのは、解析するほうにとっては頭の痛い問題。

じゃあどうするか?
仕方が無いので解析サーバを増強したり、スパコン借りたり(操作できるひとは限られるでしょうが)、外注に出したり。
でもやっぱり行き着くところは、大量のデータ解析をするには、それなりの計算サーバが必要だということ。
日本にも、ライフサイエンス関連でいうと、何社かありますよね、NGS解析環境を作ってくれるサーバ屋さん。学会展示会場で良く見かけます。
彼らに共通するのは、汎用サーバを、NGS解析用に適した環境にカスタマイズしてくれるということ。
汎用サーバの中にNGS解析ソフトウェアをインストールして、メモリをうんと積んだり、ディスクをいいもの使ったり、I/Oを速くしたりしていると思います。
なので、同じソフトウェアを使っている限り、劇的にスピードがアップするということは無い。

でも、もし、ハードウェアからNGS解析用にチューニング・設計して、それに合ったソフトウェアを乗っけたNGS専用サーバがあったらどうでしょう?

あるんです!


今年(2015年)の「NGS現場の会・つくば大会」で、私の発表を聞いた方はご存知かもしれませんが、すごいNGS解析サーバが日本にやってきました。

その名も DRAGEN: Dynamic Read Analysis for GENomics

これが超速解析サーバなんです。
例えばショートリードでヒト全ゲノムをリシークエンスして変異解析をするとき、基本的に以下の順序で行います。
  1. BCL→FASTQ変換
  2. FASTQクオリティフィルタリング
  3. リファレンスマッピング(BWA)
  4. マッピングポジションをソーティング
  5. ダブっているマッピングを除去(リピート部分など)
  6. BAMファイル圧縮出力
  7. バリアント検出(GATK)
  8. VCFファイルの出力
このパイプラインを、ヒトゲノム30xのデータで行なった場合、皆さん、どれくらいの時間で終了していますか?

サンプルデータはSRA056922(NA12878の、全ゲノムリシークエンス)
101bpのペアエンドリード(平均距離410bp ± 14bp)が10億8000万本(ヒトゲノム30カバレッジ)
これを、
CPU: Intel Xeon E5-2697v2、2.7GHz、12コア
Memory: 128GB

Disk Controller: 6 GB/s; Support for JBOD (pass through); Support for TRIM commands
Stagind Disk: 8 x 400 GB RAID-0 SSD (High Endurance Intel SSDs)
OS Disk: 2 x 120GBSSD in HW RAID 1 configuration
のサーバ
ふつーのワークステーションサイズ
で、やったとします。
BWA-MEM 0.7.9a/GATK-HC 3.1.1でデフォルトで解析したとき、BCLからVCFまで、かかった時間は約9時間
同じ解析を、DRAGEN Genome Pipeline 1.3 でランすると、何と、20分弱で終了!

9時間が20分ですよ。すごいでしょ。
説明を追加

速く解析が終わるということは、精度を犠牲にしているのでは?

いえいえ、そんなことはありません。
以下のテーブルを見て下さい。

真陽性はBWAパイプラインとほとんど変わらず。
擬陽性はDRAGENの方が勝っています。
SNPのROCカーブも、BWA-GATK、DRAGEN共にほとんど変わりません。

DRAGENパイプラインは、マッパーやバリアントコーラーに、独自のものを使っています。
BWAと全く同じでは無いですが、原理は同じようなものだそうです。
バリアントコーラーも、HMMを用いた検出アルゴリズムを使っています。
まもなく論文にそのあたりが明らかになる予定です。

でも、なんでそんなに速いのでしょう?
その秘密は次回のお楽しみ





0 件のコメント:

コメントを投稿