・・・中編からの続き
有償ソフトの中でも、Pipeline Pilot NGS Collection - これは以前このブログでも
ちょっと紹介したソフトですが- を最後に挙げたいと思います。
CLCやPartek、NextGENe、Avadis NGS、といった多くの有償ソフトが、ウェットの研究者向けに、最低限のドライの知識でも、簡単に解析を実行できる、よう設計されています。
これに対し、Pipeline Pilot NGS Collection は、
大規模な研究施設向けに、同じ解析フローを何回も繰り返し行うような環境を想定して作られている気がします。
サーバー(64bit Linux)・クライアント(Windows OK)型のアプリケーションです。
デスクトップ一体型のソフトとは異なり、PP(Pipeline Pilot)では先ず、自分で解析フローを作ります。
マップしたリードはこちら、しなかったリードはこちら、という具合にフローチャートを作っていくような感じです。
これはコンピューター言語によく登場する if/else文 のような考え方を持った方なら得意でしょうが、最初からこれを作るのは・・・
というひと向けに、フローチャートの例もいくつか用意されていますので、最初はこの例を元に、コピーしてから自分用に改造していくのが良いのでしょう。
RNA-Seqの例を以下に示します。
PPをインストールすると用意されるデモデータです。
1.NCBIからマウスゲノム配列をダウンロードして、GFF3ファイルでアノテーションを付け、リファレンス配列データベースを作る
2.2種類のサンプルの、ペアエンドのFastqファイルをインポートして、サンプルごとにTopHatを実行し、結果をデータベースに格納する
対象配列は、先にダウンロードした配列セットです。 TopHatのパラメータは下画面で自由に設定できます。
3.TopHatの2つのサンプル結果別々にCufflinksを実行、注目している遺伝子の領域だけを抽出して、カバレージ等を表示する。
4.最後に、TopHatとCufflinks結果から、2つのサンプルそれぞれの、2種類のアイソフォームの発現差を検出して、表示する
いかがでしょうか。 データさえそろえば、途中のフローから開始することも可能です。
私も最初は、このフローのひとつひとつのノードに当たる、
コンポーネントを自分で改造して、別のコンポーネントと「
パイプライン」でつなぎ合わせていきました。
ちなみにコンポーネントには、HTMLブラウザで表示する、テーブルを作る、ゲノムブラウザにリンクする、などのレポート機能もあります。
もちろん、マッピングやSNP-InDel検出、ChIP検出、などの
基本は押さえています。
つまり、他のソフトで良くある解析機能メニューを、自分で作っていくのです。
良く言えば、解析の自由度はとても高いのですが、慣れるまで時間がかかるでしょう。
できれば、PPのユーザーや前ユーザーでコンポーネント作成に詳しい人がいる環境がベストでしょう。 (幸い私の会社の席のすぐ後ろに、そんな人がいます)
解析パイプラインの改造の自由度に魅力を感じ、コンピューターサイエンスの思考が得意な人、やってみるという意欲の高い人に向いています。
繰り返しますが、
このソフトは同じ作業を何度も繰り返すような、あるいは全行程の一部を何度も繰り返すような、そんな解析を効率良く行うのに向いています。
他のNGS有償ソフトとは、目的、というか設計思想が異なることがわかります。
まとめます。
有償ソフトを買おうか迷っている場合、注意すること
- 有償ソフトの配列解析アルゴリズムは、一般的なものが搭載されている
- 配列解析機能も、一般的なものから搭載されていく
- 使い方、データの見せ方、などのソフトとしての基本機能で差別化している
- 3次解析以降の、遺伝子機能解析、統計解析、外部リンクなどで差別化している
- 個人で使うウェット研究者向けのものがほとんどだが、中には大規模センター向けのサーバー型のものがある
最後に・・・
今回のシリーズで、私はWebアクセスのソフトや、クラウドを使ったソフトは含めませんでした。
海外では有名なGeospizaという会社が、全転写解析やSmall RNA解析などをクラウド上で行うサービスを行っています。
http://www.geospiza.com/Products/WTA.shtml
日本ではまだクラウド上にデータを上げることに拒否感を示す所が多いせいか、あまり普及していない気がしますが、いずれこのようなサービスも日本で広がってくるのではないかと思います。