2018年7月30日月曜日

10X Genomicsラブのブログ開始(ちょっと更新)

PacBioのブログの姉妹版、くろみうんの冒険を始めました。
ゲノムとシングルセル解析のグローバルリーダー、10X Genomics をもっともっと知ってもらうために、頑張って続けていこうと思います。
くろみうんというのは、10xの装置、Chromiumをカッコ良く発音するとそう聞こえるからです。

あー、7年ぶりにショートリードの世界に戻ってきました。
こっちは憂鬱、なんていうタイトルをつけてしまいましたが、10Xの方は憂鬱にならないように、明るいタイトルにしました。

みなさんどうぞ宜しくお願いしまっす!
あ、そうだ、10xではアプリケーションのテクニカルサポートを募集中(2018年8月現在)です。
結構やりがいがあると思います。自由度高いです。英語できる人歓迎します。オフィスに通う必要ありません。ストックオプションもらえます。出張多いです。そんな働き方が好きな方はぜひお知らせ下さい! 詳細はこちら



2018年2月12日月曜日

クリニカルシークエンスの知識シェアリングは日本で流行るか? SOPHiA Genetics

皆さん、SOPHiA GENETICSという会社、ご存じですか?
スイスに本社があり、ヨーロッパとアメリカ大陸を中心に、55か国にビジネスを拡大したクリニカルシークエンスのベンチャー企業です。

ITのスペシャリストを集めて始めたこの会社は、最初は他の多くの解析ベンチャーと同じく、NGSのデータをマッピング⇒SNPコーリング⇒変異解析、そしてアノテーションという解析パイプラインをクラウド上で行うシステムを作っていました。

この会社がわずか3年で400の病院にシステムを導入し、クラウド上で登録している患者さんのサンプル数は約17万人分に達した理由は、他の企業にはあり得ない、データシェアリングというアイデアをシークエンス解析に応用していること!

なんと‼ データシェアリング⁉ を、クリニカルシークエンスに応用⁉

データシェアリングといっても配列ファイルをシェアするわけではありません。
このクラウド上の解析パイプラインは、SOPHiA DDM (Data Driven Medicine)と呼ばれます。

ユーザはFastqファイルをSOPHiA DDMクラウドにアップします。
するとアライメント、SNVs検出、変異解析は自動で行われます。

変異解析に必要なのは、見つけた変異に疾患関連性があるか無いか?ですよね。 pathogenic, begin, unknown significance とか、聞いたことがあるひともいると思います。
この疾患関連性のアノテーションは普通、健常人でも見られるSNVsをフィルタリングした後、世界中の「変異と疾患の関連性」データベースに照らし合わせて行われます。
一般的なのは、ClinVarなど信頼ある公共データベースをもとに、既知のPathogenicisty情報をアノテーションする方法。

今までの考え方では、他のユーザがアノテーションしたSNVs情報は、そのユーザまたは共同研究機関の内部だけでシェアされるのが普通でした。
ところがSOPHiA DDMの中では、全世界のほかのユーザがアノテーションし、判断したPathogenicistyの情報をシェアできるのです!

ACCESS TO CLINICAL GENOMICS COMMUNITY
SOPHiA GENETICS has built the World's Largest Clinical Genomics Community with hundreds of institutions worldwide participating in the democratization of Data-Driven medicine. Through SOPHiA DDM, thousands of experts can easily interpret the variants and flag them with the appropriate level of pathogenicity. This highly valuable information feeds the variant knowledge base and is anonymously and safely shared among the members of the community.

もちろん、ユーザがアップロードしたサンプルの配列情報や、患者情報、疾患情報はシャアされません。
シェアされるのは、「遺伝子Aの変異Vが、疾患などのフェノタイプDと関連する」というアノテーション情報のみ。
この情報と数多くの公共DB情報、さらに日々追加される膨大なNGSデータ、これらを今はやりのAIで解析し最高精度のアノテーションを行うのが、SOPHiA DDMです。

そうなってくるとデータのセキュリティが心配になりますよね。
でもそこは心配ご無用! 世界で最も厳しい、EUの一般データ保護規則(GDPR: General Data Protection Regulation)に準拠しているそうです。
さらにISO 13485(医療機器・体外診断用医薬品)、ISO/IEC 27001(情報セキュリティ)も取得済み。

このビジネスモデルは、ヨーロッパやアメリカではかなり受け入れられており、今イケイケの成長企業です。
ビジネスの範囲もデータ解析だけでなく、上流の疾患遺伝子パネルの開発や、トレーニングの実施、顧客ラボのISO取得コンサルティングなど多岐にわたっています。
ちなみに2017年の50 SMARTEST COMPANIESで見事30位になっていますよ!
(テスラモーターが31位、オックスフォードナノポアが32位、マイクロソフトが27位)

クラウドでのクリニカルNGSデータ解析ということと、変異解釈のデータシェアリングというアイデアが、日本ですぐに受け入れられるかどうかはわかりません。
ですが世界では確実に主流になっていくような気がしました。私の勘ですが。

2017年11月4日土曜日

DRAGEN 名実共に世界最速のNGSサーバに! ギネスブックに載ったぜい!

今気付いたんですが、このブログの前回の記事が昨年のASHGだったんですね。
それもEdicogeonme社、DRAGENの話。
偶然ですが今回の記事もASHG、それもDRAGENの話!


ついに、ギネスブックに載ったぜ!

このニュースはすごいと思いません?
真ん中にいるジャケット来たかたがギネスのおっさんです。

どういうことでギネスに載ったのか、というと、1000人分のヒトゲノムを最高スピードで解析するシステム、ということらしいです。
私もちゃっかり記念撮影

Edicoの夜のパーティにはたくさんひとが集まり、盛り上がりました。
昨年はバンクーバーで、今年はオーランド。
バンドの生演奏やもちろんタダ飯&タダビール。もちろんプレゼンもこんな感じに、真面目にやってました。


さて、Edicogenome社のホームページに行ったかたは気づいたかも知れませんが、Dragenがクラウドサービスを始めました。
具体的にはDNA Nexusのパイプラインを使っていて、DNA NexusはAWSを使っている、というわけですが、現在はアメリカだけのサービスです。
残念ながら、AWSとの大人の事情で、日本ではクラウドサービスの予定は未定なんです。

というわけで日本ではハードウェアがありますのでどうぞ宜しくお願いします!

このギネスの話を拡散したら、問い合わせがあちこちから来ました。
日本のクリニカルシークエンスにも、Dragenサーバが使われる日も近い、かな。


2016年10月21日金曜日

アメリカ人類遺伝学会 ASHG Edicogenomeの日

2016年10月19日、バンクーバーにて

今日はEdicogenomeの日。というのは私が勝手につけたのですが、朝7時からのモーニングセッションに始まり、昼間は展示会場のブース、夜7時からのパーティーに至るまで、Edico社にかかりっきりな1日だったので。

Edico社といえば、あの、超高速NGS解析サーバ・Dragenを売っている会社。
何といっても、FPGA、集積回路に直接「マッピング→変異解析パイプライン」を書き込んでいるから、文字通り超高速で解析ができる。

モーニングセッションでは、Hudson AlphaやBaylerなどから一線の研究者が集まり、Precision Medicineに超高速NGS解析はどう貢献するか、というテーマでディスカッションされました。

パネルディスカッションの様子
朝7時ですよ。
こんな早いモーニングセッションは初めて

個人的には、Dragenサーバは、クリニカルシークエンス時代の解析プラットフォームの標準となる、可能性は高いと思います。
FDAの認証を受ける働きをしている各研究機関では、解析パイプラインの中に、Dragenサーバを組み込んでいました。(Edico社主催のセミナーだからリップサービスはあると思いますが、客観的な立場でもDragenを褒めていました)
Edico社も当然、Precision Medicine時代にDragenサーバが採用されるべく、着々と準備を重ねているようです。

演者のひとり、Ray氏が言っていた、「Focus on science, Not infrastructure 」というのが印象的でした。
Dragenは一種のインフラです。解析インフラです。
大掛かりなクラスターサーバをそろえて、メンテナンスすることに巨額な予算を振り分けるより、その分をサイエンスに与えるべきだ。という主張です。
医者や研究者が多いこの学会では「受ける」言葉ですね。

あえて付け足すとすれば、現代のゲノミクスはテラバイト、ペタバイトの規模。
でもエクサバイトの時代がすぐそこまできていることを想定すると、DragenがあってもITエンジニアは必要で、それなりに予算を振り分ける必要はあると思いますけどね。

Dragenサーバは、たった1つのブレードなので、単純な作りです。
ハードなのでいつか壊れますが、その時は部品を交換するだけ。
既存のGATKパイプラインの結果に合わせたければ、そのようにチューニングできます。
Edico社の経験豊富なエンジニアに頼んで、いくらでもカスタマイズできます。
実際、Hudson Alphaでは、自分たちに使いやすいようににカスタマイズしているそうです。

そうやって精度を合わせれば、あとはスピードの勝負。
30xのヒト全ゲノム解析が20分、Exomeが1分、で完了という世界です。

夜のパーティでは、場所を旧Bank of Canadaの建物に移し、クラウドサービスの発表がありました。
壁に映してのプレゼン
Edico社のCEO
まだクラウドサービスの開始時期は未定ですが、IBM社と組んでいますので、本気です。

GUIもまもなく出来上がります。これは結構使いやすくなる感じ

名前にちなんだ、Dragon Breathという、スペシャルカクテルがこちら
ドライアイス入りの強めカクテル
長い1日でした・・・。



2016年7月11日月曜日

2016年7月、NGSマシンの比較


私がお勧めするNGS関係のブログに、今年2016年7月版の、NGS比較が載っていました。
全文はこちら

おそらく皆さんも、いろんなNGS関係のスライドでこのようなグラフを見たことがあるでしょう。
横軸がリード長、縦軸がランあたりデータスループットのグラフです。
私も個人で作ったことがあります。

さて、このブログでは、PacBioのSequelについて抜けています。


その通り、Sequelについてのデータはまだ「公開」されていません。
データはあります。
2kbラムダ、6kb、10kb、15kbライブラリの大腸菌、
データはあります。
お見せすることは全くかまわないのですが、ウェブにアップはまだ許されていないので、残念ながらオフィシャルに公開できないのです。
何事にも順序があるのでしょうね

PacBio社の予定では、まもなくSequelのデータが「公開」されます。
それは大腸菌のデータになると思います。
シークエンス配列なのに、BAMファイルです。

ま、お楽しみに。

2016年7月10日日曜日

NGS10年の軌跡 NGSの初心者向けに最適なレビューの紹介


このブログ、ショートリードの憂鬱で、初期の頃に、NGSテクノロジーについて紹介しました。
日本にNGSが入っていたのはいつ頃でしょう?
正確には覚えていないですが、2008年ごろでしょうか?
その頃の分生で、SolexaやSOLiDの説明を聞いた気がします。
すごい時代が来るなあ、って思った記憶が。
シークエンスのそれまでの概念が、がらっと変わりましたね。
だって、たった数十塩基(当時)でシークエンスと呼んでいたんですから!!
それより前から454があったって? それはひとまずおいといて。

しかし、それから数年後、ショートリードの長さは100bp~200bp余りに伸び、PacBioのロングリードが現れ、データ量はムーアの法則を超え、ラボ単位でも買える小型マシンも現れ、買収されたり、ディスコンされたり、マーケットは大きく変化しました。

そこで、2016年、NGSとNGS関連技術の紹介レビューがでました。

ここでは、既にディスコンになってしまった技術も、また、これから日本に来るであろう(アメリカではリリースしている)マシンも、シークエンサーでは無いけれどNGS関連機器も、合わせて紹介されている。

Must Readレビューです!!








2016年3月6日日曜日

DRAGENサーバ とりあえず動かしてみた(1)

この間、秋葉原で「第二回PacBio現場の会」という、PacBio Specificのセミナーをやりました。
その中で余興として、例の超高速NGSサーバ「DRAGEN」のデモをやるはずでした・・・。

まあ、いろいろあって、23日には間に合わなくて、うちの同僚Dにはプレゼンで乗り切ってもらいましたが。

そんな中、ついに、先週我がオフィスに到着したDRAGEN君。
オフィスについて早速ケースを脱がされ、裸のハードを横から見られているDragen君。かわいそうなので写真は前から

同僚Dは早速セットアップ、ヒトゲノムリファレンスを入れて、ハッシュテーブルを作って、HiSeq2000のサンプルデータを流してくれた。
20Xの全ゲノムシークエンスデータ。

パイプラインは、
  1. fastqのgzを入力データに
  2. リファレンスマッピング
  3. Bamファイルを書き出して
  4. Variant Callingして
  5. VCFを出力
という至ってベーシックなもの


で、速さなんですが、

笑ってしまうくらい速い!

Time loading reference:              00:00:00.000
Time aligning reads:                 00:07:06.006
Time sorting and marking duplicates: 00:09:37.107
Time saving map/align output:        00:09:43.040
Time partial reconfiguration:        00:00:06.019
Time variant calling:                00:09:51.977
Total runtime:                       00:17:13.450

20カバレッジヒトゲノムのマッピングからSNPコールまでが17分?
もう一度、今度は私が別のデータ(同じく約20X)でトライ

Time loading reference:              00:00:20.827
Time aligning reads:                 00:06:59.932
Time sorting and marking duplicates: 00:09:01.473
Time saving map/align output:        00:09:06.573
Time partial reconfiguration:        00:00:05.873
Time variant calling:                00:09:17.615
Total runtime:                       00:16:59.875

えっ、17分?速っ!
20Xの全ゲノムマッピングですよ!

何でこんなに速いのかは、FPGA使ってます、以外に正直説明できないのですが、とにかく速いのは確かです。

コマンドラインなんで、デモをやったとしても、はっきり言って、地味です。
ターミナル眺めているだけになるので、これなら「現場の会」で見せるとしても工夫が必要だったなーと、いまさらながら思います。


今日は、「とりあえず動かしてみたら、やっぱり速かった」という報告です。
本当はもっと大きなデータ、それもBCLから試すべきでしたけれども、手元にBCLが無かったので断念。
BCL→fastq変換も、確か10分程度で終わるはずです。
これもすごい速いですよね!!

まあ今回は、fastq.gzからの入力でも十分速いことが実感できたのでこれで良しとします。
次回は、BCLからの変換速度、いくつか解析メニューの紹介、になるかな。


というわけで皆さん、DRAGENに興味があるならば、もう日本でトライアル可能です!

一番簡単なのは、ハードディスクでHiSeqのデータを送ってもらうことでしょうか。
オフィスに到着したら、DRAGENサーバにコピーして、解析します。
(もしお客さんが解析の様子を実感したければ、ウェブミーティングなどで生中継することも可能かな?)
そして結果とログファイルを全部お返しする。という流れ。
興味がある方は、こちらからカタログ請求の下の備考欄に、「DRAGENトライアルしたい!」と書いて送ればOK!
「このサーバ、いくらですか?」 という質問にも、丁寧にお答えします。

データを外に出せない!という方は、その旨書いてくれれば、サーバ本体を貸し出すことも条件付きですが可能です。