2011年5月28日土曜日

PacBio ついに一分子シーケンサーを正式リリース!

真の第三世代シーケンサー(1分子シーケンサー)として期待の高かった、Pacific Biosciences社 (http://www.pacificbiosciences.com/)のシーケンサーが、ついに正式リリースしたそうです。
ドキュメントはこちら

PacBioのシーケンサーは、今までβバージョンをThe Wellcome Trust Sanger Instituteや、Cold Spring Harbor Laboratoryなど、全世界11か所の研究所に特別に出荷していました。
それが今回、正式にリリースされたということです。

PacBioといえば、昨年、ハイチのコレラ菌をシーケンスして、それが東南アジアと近縁だということを示した論文が出ていました。(こちら

PacBioのシーケンサーは、他のシーケンサーと異なりDNA増幅を行わないので、1分子から読むことが可能です。 
そして何と言ってもその特徴は、
リードの本数は少ないが、長く読めて、ランにかかる時間が短い
ということでしょう。

およそ35,000本のリードを出力し、リードの長さは平均850~1,500塩基、ランタイムは40分

1ランあたりのコストは$100程度と言われています。
SOLiDやHiSeq等と比べると、1ランあたりのコストは安いですが、1塩基あたりのコストは高いと言えるでしょう。
しかし、一分子で読めるということ、そして理論的には1,500塩基以上の長配列も読めるというということは、今後大きなブレークスルーになることは間違いありません。
結構 でかっ !  重量800kg だそうです。

これは私の想像ですが、今や世界一多くの次世代シーケンサーを保有する中国のBGI(深)と、アジアのバイオ・ハブを狙うシンガポールのゲノムセンターは、この新型シーケンサーをすでに持っているか、近々持つことになるでしょう。 
日本では、私は、そういう噂はまだ聞いたことがありません。

PacBioは、機械だけをつくってはいおしまい、というのではなく、ちゃんと解析アルゴリズムも用意しているそうです。
PacBioデータ特有のLong Readに対応した、アセンブリ、マッピングアルゴリズム、SNP検出アルゴリズム、等々。
私はまだ試していませんが、プログラムを公開しています。デモデータ(E.coli)付きです。
DevNetサイト(登録必要)から落とせます。

PacBioは、私がいま一番気になっている会社のひとつですね(別に株式を持っているわけではありませんが)。

2011年5月23日月曜日

笑える比較CMシリーズ Ion Torrent

比較CMと言って、M.Cハマーが出ていたペプシとコカ・コーラのCMを思い浮かべたあなた! 少なくとも30代半ばですね?
僕もそのひとりですが、比較CMは大好きです。
最近では、MacとWindowsで、ビル・ゲイツ似の退屈なおじさんが、ファッショナブルな若者(Mac)と話していてついていけず、頻繁にフリーズしてしまう、そんな比較CMがありました。

ここ、NGSの業界でも、PGM:Ion Torrent社のパーソナルゲノムマシーン のYou Tube CMは、なかなか風刺が効いています。
イルミナのMiSeqをターゲットにしていて、イルミナの方には悪いですが、結構面白い!
今は、エピソード1から4までありますが、よう作ったなあって感じ。




さすが!

2011年5月9日月曜日

NGS解析有償ソフト: 買う価値はあるか (後編)

・・・中編からの続き

有償ソフトの中でも、Pipeline Pilot NGS Collection - これは以前このブログでもちょっと紹介したソフトですが- を最後に挙げたいと思います。

CLCやPartek、NextGENe、Avadis NGS、といった多くの有償ソフトが、ウェットの研究者向けに、最低限のドライの知識でも、簡単に解析を実行できる、よう設計されています。
これに対し、Pipeline Pilot NGS Collection は、大規模な研究施設向けに、同じ解析フローを何回も繰り返し行うような環境を想定して作られている気がします。
サーバー(64bit Linux)・クライアント(Windows OK)型のアプリケーションです。
デスクトップ一体型のソフトとは異なり、PP(Pipeline Pilot)では先ず、自分で解析フローを作ります。
マップしたリードはこちら、しなかったリードはこちら、という具合にフローチャートを作っていくような感じです。
これはコンピューター言語によく登場する if/else文 のような考え方を持った方なら得意でしょうが、最初からこれを作るのは・・・
というひと向けに、フローチャートの例もいくつか用意されていますので、最初はこの例を元に、コピーしてから自分用に改造していくのが良いのでしょう。

RNA-Seqの例を以下に示します。
PPをインストールすると用意されるデモデータです。 

1.NCBIからマウスゲノム配列をダウンロードして、GFF3ファイルでアノテーションを付け、リファレンス配列データベースを作る


2.2種類のサンプルの、ペアエンドのFastqファイルをインポートして、サンプルごとにTopHatを実行し、結果をデータベースに格納する 
対象配列は、先にダウンロードした配列セットです。 TopHatのパラメータは下画面で自由に設定できます。
 

3.TopHatの2つのサンプル結果別々にCufflinksを実行、注目している遺伝子の領域だけを抽出して、カバレージ等を表示する。



4.最後に、TopHatとCufflinks結果から、2つのサンプルそれぞれの、2種類のアイソフォームの発現差を検出して、表示する

いかがでしょうか。 データさえそろえば、途中のフローから開始することも可能です。
私も最初は、このフローのひとつひとつのノードに当たる、コンポーネントを自分で改造して、別のコンポーネントと「パイプライン」でつなぎ合わせていきました。
ちなみにコンポーネントには、HTMLブラウザで表示する、テーブルを作る、ゲノムブラウザにリンクする、などのレポート機能もあります。
もちろん、マッピングやSNP-InDel検出、ChIP検出、などの基本は押さえています。

つまり、他のソフトで良くある解析機能メニューを、自分で作っていくのです。
良く言えば、解析の自由度はとても高いのですが、慣れるまで時間がかかるでしょう。
できれば、PPのユーザーや前ユーザーでコンポーネント作成に詳しい人がいる環境がベストでしょう。 (幸い私の会社の席のすぐ後ろに、そんな人がいます) 

解析パイプラインの改造の自由度に魅力を感じ、コンピューターサイエンスの思考が得意な人、やってみるという意欲の高い人に向いています。
繰り返しますが、このソフトは同じ作業を何度も繰り返すような、あるいは全行程の一部を何度も繰り返すような、そんな解析を効率良く行うのに向いています
他のNGS有償ソフトとは、目的、というか設計思想が異なることがわかります。

まとめます。
有償ソフトを買おうか迷っている場合、注意すること
  1. 有償ソフトの配列解析アルゴリズムは、一般的なものが搭載されている
  2. 配列解析機能も、一般的なものから搭載されていく
  3. 使い方、データの見せ方、などのソフトとしての基本機能で差別化している
  4. 3次解析以降の、遺伝子機能解析、統計解析、外部リンクなどで差別化している
  5. 個人で使うウェット研究者向けのものがほとんどだが、中には大規模センター向けのサーバー型のものがある
最後に・・・
今回のシリーズで、私はWebアクセスのソフトや、クラウドを使ったソフトは含めませんでした。
海外では有名なGeospizaという会社が、全転写解析やSmall RNA解析などをクラウド上で行うサービスを行っています。http://www.geospiza.com/Products/WTA.shtml
日本ではまだクラウド上にデータを上げることに拒否感を示す所が多いせいか、あまり普及していない気がしますが、いずれこのようなサービスも日本で広がってくるのではないかと思います。

2011年5月6日金曜日

NGS解析有償ソフト: 買う価値はあるか (中編)

Avadis NGSというソフトは、Strand Life Sciences社(http://www.strandls.com/Home)というインドのBio-IT企業が開発元です。
Avadisという名前は、もともとマイクロアレイの解析ソフトを作っていたAvadis社という会社名です。
日本ではAgilent社がAvadis NGSを販売していますが、3社の関係はここではさておき・・・。

このソフトは、RNA-Seq、ChIP-Seq、SNV-InDel Variation、という3つのアプリケーションに絞っています。
この3つはたいていどの有償ソフトでも備わっている機能です。
http://www.avadis-ngs.com/features/introduction
先日Webセミナーをやっていたので参加しました。 (日本時間の深夜0時でしたが)
差別化は、やはり、データの見せ方と3次解析以降の機能だと実感しました。

以下の画像はその時のWebセミナーのスクリーンショットです。

Agilent社から出されているマイクロアレイ解析ソフトのGene Springを使った経験がある方なら、なんとなく似ている、と感じるのではないでしょうか?
ということは、RNA-Seqなどの発現解析に向いているのでは?と思ってしまいますが、まだ実データで試していないので何とも言えません。
Alternative Splicingなども検出して表示できるそうなので、今度試しに使ってみたいです。

このソフトのもうひとつの特徴は、マッピングまでは他でやってくれ!という心意気でしょうか。
インポートファイルは、SAM、BAM、BED、Eland出力、です。
確かにマッピングは単純作業。 シーケンサー付属のソフトが勝手に(というか自動で)やってくれますので、その結果を取り込んで3次解析を行い、その後の比較や統計計算、アノテーション付加などを行ってレポートにする機能を充実させる、というのは良い戦略です。 

ウェブセミナーでやっていた例を紹介します。SNP‐Detectionです(予定ではRNA-SeqだったのですがなぜかSNPに変わっていました。残念)。
1.マッピングファイルをインポートする
2.リードのQCでフィルタリングする
3.SNPを見つける
4.結果をテーブルとゲノムビュー上に表示する
5.複数サンプル間のSNPを比較する (癌とノーマル、N=3)
6.DB SNPにあるかないか、見つかったSNPの種類を分ける

ちょっとインパクトの無い例ですみません。
私の仕事の都合上、これ以上詳しくは書けませんので、もっと知りたい方は、デモプログラムを試すか、Agilent社が行っているセミナーに参加されると良いでしょう。

実は私の勤め先であるワールドフュージョン社では、これとは多分競合になるCLC-Bio社のGenomics Workbench/Server、を紹介しています。 過去に何度かこのブログでも書いてきました。 

CLCは、トータルソリューションと銘打ち、何でも来い!のスタンスで開発している、というと語弊がありますが、Avadis NGSより、解析メニューは豊富です。 
de novo Assembly、Hybrid Mapping、RNA-Seq、ChIP-Seq、SNP-InDel、Target Re-Sequencing、(Methylationはありませんが)、関連解析ツールとしてBLAST、ORF検索、発現比較/統計、などなどなど。
とはいっても、実際使ってみると、もう少しここから進めたら良いのに! なぜこれができない! と思いたくなる場面も多々あります。 ← どんなソフトでもそうですが 
しかしCLCの良い所は、頻繁にアップデートをしていますので、リクエストを投げれば改善される可能性があること、でしょうか。
あまりこれ以上書くとCLC贔屓になり中立性が無くなりますので、詳しくはこちら(http://www.w-fusion.com/J/CLC_wb.html)にお問い合わせください。

ところで、以前少し紹介した有償ソフト、Pipeline Pilot NGS Collection を試用してしばらく経ちました。

→ 後編へ続く

2011年5月5日木曜日

NGS解析有償ソフト: 買う価値はあるか (前編)

「無い!」
と自信を持って言った方は、相当バイオインフォに強いか、フリーツールを熟知しているか、そういうツール自体が大好きか、あるいは前に痛い思いをしたか、でしょう。

 
私は立場上、「無い」とは言えませんし、実際お金で解決できることもあるのは事実です。
大抵の有償ソフトはGUI、つまりグラフィカルに操作でき、難しいコマンドラインは必要ありません。
NGS解析は面倒で大掛かりだ、という先入観を見事に打ち砕いてくれます。
ドライの研究者向けではなく、ウェットの研究者向けに設計されているからです。

 
フリーのツールはLinux、コマンドライン、自己責任、といういばらの道が存在し、慣れればそれで楽しいのですが、ウェット研究者にとって敷居は決して低くありません。
そんな時にふと出会った有償ソフトは、その昔、Windows95が登場したときのような、NGS解析でのPlug and Playを見事に実現してくれる! ように映るのです。

 
しかし、です。
NGS有償ソフトは、全てのNGSウェット研究者に普及させるため、わかりやすく、使いやすい機能を載せました。
当然ながら、NGS有償ソフトは売って利益を出さなければいけませんから、最も良く使われるであろう機能から順番に、製品開発リストに取り入れてきました。
できるだけ多くの顧客を獲得するため、できるだけ多くの解析手法は取り入れたい。
しかし開発コストとの兼ね合いから優先度を付け、有名な解析手法は必須とし、マイナーなもの、解析手法が複数あるもの、まだ新しくて一般的では無いもの、は後回しにする。

 
そうすると、どのソフトも皆、RNA-Seq、ChIP-Seq、SNV-InDel、という良く使われるアプリケーションを搭載することが大事になります。
他社との差別化には、ビューワーや、外部データとのリンク、関連遺伝子の機能検索、フリーツールとの融合、という、NGS解析の本筋とは別のプラスαで勝負することになります。

 
誤解の無きように言うと、有償ソフトでは、NGS解析の本筋でも差はあります。マッピングの速さとか、SNP検索のアルゴリズムの違い、の違いなどです。
しかし、他社製品との大きな差は、今やアルゴリズムというよりも、
  1. 解析の進め方や見せ方、結果出力の簡単さ
  2. マイクロアレイなど他の実験結果との統合
  3. 検出した発現量やChIP-PeakやSNPなどからバイオロジカルな意味づけ

 
といった、3次解析以降の部分に開発力を注いでいるように思います。
有償ソフトの購入を検討されている方は、RNA-Seqができる、ChIP-Seqができる、という謳い文句ではなく、どう表示されるのか、その後は何ができるのか、プラスαの解析にはどんなものがあるか、という点に最大の関心を持って頂けると判断しやすいと思います。 
これだけ研究目的が多岐に渡るNGS解析は、自分の目的に合わなければ買う価値はありませんが、ぴったり合うのもまた無いと思った方が良いでしょう。

 
そんな有償ソフトで最近、気になっているものがあります。
偶然私の知り合いが米国でセールスをやっていることを知ったのですが、日本ではAgilent社がAvadis NGSという名前で取り扱っています。

 
http://www.avadis-ngs.com/features/introduction

 
中編につづく・・・