ショートリードの憂鬱 - 次世代シーケンサー

第2世代高速シーケンサー（Illumina, SOLiD, 454）とそのアプリケーションについて。できるだけ最新に近いことと、トレンド、面白いと思った論文やアプリケーションを書いています。シーケンサーに興味のあるひとは是非覗いていってください。コメントも大歓迎です。　一分子シーケンサー　PacBioについては、姉妹ブログ「パックマンの挑戦　http://pacbiobrothers.blogspot.com/　」　を、10X Genomicsについては「くろみうんの冒険」を覗いてみてください！

2011年6月3日金曜日

発現解析パイプラインを作るぞ！　その2：　TopHat　の使い方 2

さて、無事TopHatが終了し、下のような画面が出て、
accepted_hits.bam, junctions.bed, insertions.bed / deletions.bed　というファイルができたとしましょう。

この3ファイルが何かについては前回説明しました。

TopHatは、コマンド実行時に指定したgtfファイルを使って、gtfに書かれている既知の転写配列情報から、Exon Junction　を認識してマッピングしてくれるのです。

Exon Junctionを認識するということは、Fusion Geneも特定してくれそうです。

それは、Tophat-fusion というツールがあるのですが、また今度別のときに書きます。

さて、うまくマッピングされ、BAMファイルができました。

では次に、Samtools を使って、BAMファイルを染色体番号順にソートします。

これは後で必要になります。

samtools sort ./tophat_SRP003186_Control/accepted_hits.bam ./tophat_SRP003186_Control/sort_accepted_hits

samtools sort ./tophat_SRP003186_MCF7/accepted_hits.bam ./tophat_SRP003186_MCF7/sort_accepted_hits

samtools sort ./tophat_SRP003186_SKBR3/accepted_hits.bam ./tophat_SRP003186_SKBR3/sort_accepted_hits
最後のアウトプットに.bam と書くと、出力が.bam.bam と2重拡張子になるので注意！

次に、後でUCSCとかIGVとかのGenome Viewerで見るために、ソートしたBAMファイルにインデックスをつけておきます。
samtools index ./tophat_SRP003186_Control/sort_accepted_hits.bam
samtools index ./tophat_SRP003186_MCF7/sort_accepted_hits.bam
samtools index ./tophat_SRP003186_SKBR3/sort_accepted_hits.bam
拡張子.bai というファイルができるはずです。　これがインデックスです。

ついでにソートしたBAMファイルを、SAMフォーマットにしておきましょうか？　別に必要無いですけど、samtools に慣れていないひとは練習がてら。　

ちなみにIGVは、SAMファイルも取り込めます。その際には、IGV-toolsでインデックスをつけるひつようがあります。

また、以前紹介した、SAM-Mate　というWindows 対応のRNA-SEQ解析ツールは、SAMでないと受け付けてくれません、今のところ。　

samtools view ./tophat_SRP003186_Control/sort_accepted_hits.bam -o ./tophat_SRP003186_Control/Control_sort_accepted_hits.sam
samtools view ./tophat_SRP003186_MCF7/sort_accepted_hits.bam -o ./tophat_SRP003186_MCF7/MCF7_sort_accepted_hits.sam
samtools view ./tophat_SRP003186_SKBR3/sort_accepted_hits.bam -o ./tophat_SRP003186_SKBR3/SKBR3_sort_accepted_hits.sam

発現変動を見るには、Cufflinksのコマンドのひとつ、Cuffdiff　というものを実行します。

ソートしたBAMファイル、既知トランスクリプトのGTFファイルの2つを使います。

cuffdiff -p 4 -v /Path_to_gtf/refGene.gtf ./tophat_SRP003186_Control/sort_accepted_hits.bam ./tophat_SRP003186_MCF7/sort_accepted_hits.bam -o ./cuffdiff/MCF7

cuffdiff -p 4 -v /Path_to_gtf/refGene.gtf ./tophat_SRP003186_Control/sort_accepted_hits.bam ./tophat_SRP003186_SKBR3/sort_accepted_hits.bam -o ./cuffdiff/SKBR3

コントロール v.s. MCF-7、コントロール v.s. SK BR-3 の2つの比較ですね。

本当はリプリケートがあると良かったのですが、これはN=1です。

パラメータは単純にデフォルトで行っています。

唯一、CUPを　-p 4 にしたことくらいでしょうか。

Cuffdiffのアウトプットファイルは地味で、タブ区切りテキストファイルができるだけです。

もちろん加工すればGenome Viewer上でも表示できますが。

FPKM tracking ファイルと、Differential expression 結果ファイルの2種類があります。

1) FPKM tracking ファイル：　トランスクリプトごとのFPKMを出力し、各cuffdiffランごとに4ファイルできる
isoforms.fpkm_tracking：　Transcript FPKMs
genes.fpkm_tracking：　Gene FPKMs. 同じgene_idを持つトランスクリプトのFPKMの積算
（cds.fpkm_tracking：　Coding sequence FPKMs.）
（tss_groups.fpkm_tracking：　Primary transcript FPKMs）

2) Differential expression 結果ファイル：　　各cuffdiffランごとに4ファイル

isoform_exp.diff：　Transcript differential FPKM.
gene_exp.diff：　Gene differential FPKM.
（tss_group_exp.diff：　Primary transcript differential FPKM）
（cds_exp.diff：　Coding sequence differential FPKM）

このうち、発現変動の結果ファイル、isoform_exp.diff　をExcelで開いてみるとこんな感じです。

トランスクリプトのIDや名前、ポジション情報が先ずあり、そのあとHカラムくらいから、実際のカウンティングデータがきます。

FPKMx：　FPKM of the gene in sample x
FPKMy：　FPKM of the gene in sample y
ln(FPKMy/FPKMx)：The natural log (自然対数) of the fold change y/x
test stat：　FPKMの変動が有意であるかどうかの統計量
p value：　補正無しの p-value
q value：　FDR-adjusted p-value
significant："yes" or "no"　マルチサンプル比較の場合はBenjamini-Hochberg補正後、FDR-adjusted p-valueが、cuffdiffランのパラメータ --FDR （デフォルト：0.05）より小さい場合は、"Yes"　有意だとされる

Ratioは、自然対数のログ表記という点にご注意ください。

また、Excelはsignificant = Yes で絞り込んでいます。

こんな風にして、RNA-Seq　の実験データから、発現変動の有意な遺伝子を解析することができるのです。　

実際は、パラメータの調整などが必要ですが、感じはわかって頂けたと思います。

このあと考えられる操作は、

発現変動の有意だった遺伝子のポジション情報からBedファイルを作り、
先ほどソート済みのBAMファイルをGenome Viewerと一緒にとりこみ、
ゲノム上で発現の変動と、マッピングの様子を同時に見る

ことでしょうか。　これはまた、Viewerに関する書き込みのときに詳しく説明します。

つづく

2011年6月2日木曜日

発現解析パイプラインを作るぞ！　その1：　TopHat　の使い方

TopHatといえば、NGS発現解析で良く使われるツールです。
論文やポスターでも頻繁に見かけるので、一応、スタンダードなツールと見て良いでしょう。
TopHatと一緒にCufflinksという名前も、聞いたことがあるのではないでしょうか？
こちら、セットで使うと、RNA-Seqの解析にそこそこ威力を発揮します。

ちなみにこの写真は、エイブラハム・リンカーンが、実際に使っていたTopHatです。

スミソニアンのアメリカ史博物館での一枚です。

残念ながらCufflinks（カフスボタン）は、飾っていませんでした。

冗談はさておき、TopHatは、Exon-Intronのジャンクションを挟んでうまくアライメントするマッピングツールです。　Cufflinksは、そのマップされたフラグメント（リード）をカウントするツールです。

TopHatはこちら（http://tophat.cbcb.umd.edu/index.html）

Cufflinksはこちらから（http://cufflinks.cbcb.umd.edu/）

ダウンロードできます。　マニュアルもあります。　Cufflinksは最近頻繁にバージョンアップされています。
TopHatを使うには、Bowtie（高速マッピングツール、http://bowtie-bio.sourceforge.net/index.shtml）
と、Samtools （SAM<->BAMファイルの変換やSNP検出などをするツール、http://samtools.sourceforge.net/）も一緒にインストールしておくと便利です。

Bowtie、TopHat、Samtoolsは、インストールも比較的難なくできますが、Cufflinksはちょっと準備が必要（bjamとかいうエンジンを入れる必要）ですので、行き詰ったらLinuxに詳しい方に助けを乞いましょう。　

4つともうまく入ったら、どんな風に動くのか、早速試してみましょう。
デモデータは、SRAから落としてきたSRP003186のデータを使います。　乳がんサンプル、イルミナGAIIのペアエンドデータです。
そうそう、SRAのファイルは、そのままでは解凍できないので、SRAのサイトからSRA-TOOLSというものを落としてきて、Linuxマシンにインストールします。　詳しくは昨年12月の書き込み（サンプルデータの取得法　２　NCBI 、http://shortreadbrothers.blogspot.com/2010/12/ncbi.html）にあるが、ここでのコマンドはfastq-dump2 から現在 fastq-dump に変わっているので注意！

全体の流れを示します。既知トランスクリプトーム情報を使った、発現変動解析パイプラインの大まかな例です。　必要以外のジョブもありますが、そこはつっこまないで。

リファレンス配列Hg19を用意する
Hg19に対してBowtieのインデックスを貼る
TopHatを実行、リファレンスにマッピングする
できたBAMファイルをソートしておく
後でViewerで見やすいようにソート後のBAMファイルにインデックスを貼る
ついでにソートしたBAMファイルをSAMファイルにもしておく
そのまたついでにソートしたBAMファイルをもとに、リファレンス配列と比較して異なる塩基（変異）のポジションを見つける
さっき4でソートしたBAMファイルから、既知トランスクリプトのGTFファイルをもとに発現比較する ― Cuffdiff 実行

さて、リファレンス配列は、UCSCのFTPから適当なfa.gzをダウンロードしてきて、展開。
24本の染色体だったら、24個のファイルができるので、それを　cat *.fa > hg19.fa としてひとつのファイルにまとめる。
ついでに、UCSCから、好きなアノテーションファイル（GTFフォーマット）を落としてきます。
これについては、この画面を参照　

インデックスは、Bowtieのbuildコマンドで
bowtie-build /Path_to_reference/UCSC_hg19/hg19.fa ./bowtie_ref/hg19

いよいよTopHatの実行です。
先ほどのgtfファイルを用意して、以下のようなコマンドを流します。　3つのサンプルがあります。
コマンドは3行です。ペアエンドなので、それぞれ***_1.fastq ***_2.fastq　というファイル名です。

tophat -r 100 -p 4 -G /Path_to_gtf/refGene.gtf -o ./tophat_SRP003186_Control /Path_to_bowtie_ref/hg19 /Path_to_read_file/Control/SRR064437_1.fastq /Path_to_read_file/Control/SRR064437_2.fastq
tophat -r 0 -p 4 -G /Path_to_gtf/refGene.gtf -o ./tophat_SRP003186_MCF7/Path_to_bowtie_ref/hg19 /Path_to_read_file/MCF_7/SRR064286_1.fastq /Path_to_read_file/MCF_7/SRR064286_2.fastq
tophat -r 100 -p 4 -G /Path_to_gtf/refGene.gtf -o ./tophat_SRP003186_SKBR3 /Path_to_bowtie_ref/hg19 /Path_to_read_file/SK_BR_3/SRR064441_1.fastq /Path_to_read_file/SK_BR_3/SRR064441_2.fastq

パラメータについて

-r: 　inner mate distance 平均フラグメントの長さ－両側のリードの長さ。MCFの例の場合、フラグメント長は100塩基でリード長は50塩基なので、100-50x2=0

-p：　使用するCUP数（デフォルト：1）

-o：　アウトプットファイルを書き出すディレクトリ

-G：　gtfファイルの場所

このほかのパラメータについてはおいおい。　もちろんTopHatのウェブサイトにも情報はたくさんあります。

アウトプットファイルは、たくさんできるのですが、以下の3ファイルがとくに重要！というか、後はあまり見ません。

accepted_hits.bam：BAM フォーマットのアライメントファイル
junctions.bed：Exon Junction情報をまとめたファイルで、UCSC BED track フォーマット。ジャンクションは2つのBEDブロックから成り、"maximal overhang" で指定した数以上の塩基によって構成しているはず。スコアはアライメントの数を示す。UCSC ゲノムブラウザに表示できる
insertions.bed / deletions.bed：insertions/deletions情報をまとめたUCSC BED tracksファイル。
Insertions.bed の chromLeft は、Insertion直前の塩基を表し、
Deletions.bed の chromLeft は、Deletionする最初の塩基を表している、らしい

さて、ここまでいかがでしょうか？

つづく

2011年5月28日土曜日

PacBio　ついに一分子シーケンサーを正式リリース！

真の第三世代シーケンサー（1分子シーケンサー）として期待の高かった、Pacific Biosciences社（http://www.pacificbiosciences.com/）のシーケンサーが、ついに正式リリースしたそうです。

ドキュメントはこちら

PacBioのシーケンサーは、今までβバージョンをThe Wellcome Trust Sanger Instituteや、Cold Spring Harbor Laboratoryなど、全世界11か所の研究所に特別に出荷していました。

それが今回、正式にリリースされたということです。

PacBioといえば、昨年、ハイチのコレラ菌をシーケンスして、それが東南アジアと近縁だということを示した論文が出ていました。（こちら）

PacBioのシーケンサーは、他のシーケンサーと異なりDNA増幅を行わないので、1分子から読むことが可能です。　
そして何と言ってもその特徴は、
リードの本数は少ないが、長く読めて、ランにかかる時間が短い
ということでしょう。

およそ35,000本のリードを出力し、リードの長さは平均850～1,500塩基、ランタイムは40分

１ランあたりのコストは$100程度と言われています。
SOLiDやHiSeq等と比べると、1ランあたりのコストは安いですが、1塩基あたりのコストは高いと言えるでしょう。
しかし、一分子で読めるということ、そして理論的には1,500塩基以上の長配列も読めるというということは、今後大きなブレークスルーになることは間違いありません。

結構　でかっ　！　　重量800kg　だそうです。

これは私の想像ですが、今や世界一多くの次世代シーケンサーを保有する中国のBGI（深圳）と、アジアのバイオ・ハブを狙うシンガポールのゲノムセンターは、この新型シーケンサーをすでに持っているか、近々持つことになるでしょう。　
日本では、私は、そういう噂はまだ聞いたことがありません。

PacBioは、機械だけをつくってはいおしまい、というのではなく、ちゃんと解析アルゴリズムも用意しているそうです。
PacBioデータ特有のLong Readに対応した、アセンブリ、マッピングアルゴリズム、SNP検出アルゴリズム、等々。
私はまだ試していませんが、プログラムを公開しています。デモデータ（E.coli）付きです。
DevNetサイト（登録必要）から落とせます。

PacBioは、私がいま一番気になっている会社のひとつですね（別に株式を持っているわけではありませんが）。

2011年5月23日月曜日

笑える比較CMシリーズ Ion Torrent

比較CMと言って、M.Cハマーが出ていたペプシとコカ・コーラのCMを思い浮かべたあなた！　少なくとも30代半ばですね？
僕もそのひとりですが、比較CMは大好きです。
最近では、MacとWindowsで、ビル・ゲイツ似の退屈なおじさんが、ファッショナブルな若者（Mac）と話していてついていけず、頻繁にフリーズしてしまう、そんな比較CMがありました。

ここ、NGSの業界でも、PGM：Ion Torrent社のパーソナルゲノムマシーン　のYou Tube CMは、なかなか風刺が効いています。
イルミナのMiSeqをターゲットにしていて、イルミナの方には悪いですが、結構面白い！
今は、エピソード1から4までありますが、よう作ったなあって感じ。

さすが！

2011年5月9日月曜日

NGS解析有償ソフト：　買う価値はあるか　(後編)

・・・中編からの続き

有償ソフトの中でも、Pipeline Pilot NGS Collection - これは以前このブログでもちょっと紹介したソフトですが- を最後に挙げたいと思います。

CLCやPartek、NextGENe、Avadis NGS、といった多くの有償ソフトが、ウェットの研究者向けに、最低限のドライの知識でも、簡単に解析を実行できる、よう設計されています。
これに対し、Pipeline Pilot NGS Collection は、大規模な研究施設向けに、同じ解析フローを何回も繰り返し行うような環境を想定して作られている気がします。
サーバー(64bit Linux)・クライアント(Windows OK)型のアプリケーションです。
デスクトップ一体型のソフトとは異なり、PP(Pipeline Pilot)では先ず、自分で解析フローを作ります。
マップしたリードはこちら、しなかったリードはこちら、という具合にフローチャートを作っていくような感じです。
これはコンピューター言語によく登場する if/else文のような考え方を持った方なら得意でしょうが、最初からこれを作るのは・・・
というひと向けに、フローチャートの例もいくつか用意されていますので、最初はこの例を元に、コピーしてから自分用に改造していくのが良いのでしょう。

RNA-Seqの例を以下に示します。
PPをインストールすると用意されるデモデータです。　

1．NCBIからマウスゲノム配列をダウンロードして、GFF3ファイルでアノテーションを付け、リファレンス配列データベースを作る

2．2種類のサンプルの、ペアエンドのFastqファイルをインポートして、サンプルごとにTopHatを実行し、結果をデータベースに格納する　
対象配列は、先にダウンロードした配列セットです。　TopHatのパラメータは下画面で自由に設定できます。
　

3．TopHatの2つのサンプル結果別々にCufflinksを実行、注目している遺伝子の領域だけを抽出して、カバレージ等を表示する。

4．最後に、TopHatとCufflinks結果から、2つのサンプルそれぞれの、2種類のアイソフォームの発現差を検出して、表示する

いかがでしょうか。　データさえそろえば、途中のフローから開始することも可能です。
私も最初は、このフローのひとつひとつのノードに当たる、コンポーネントを自分で改造して、別のコンポーネントと「パイプライン」でつなぎ合わせていきました。
ちなみにコンポーネントには、HTMLブラウザで表示する、テーブルを作る、ゲノムブラウザにリンクする、などのレポート機能もあります。
もちろん、マッピングやSNP-InDel検出、ChIP検出、などの基本は押さえています。

つまり、他のソフトで良くある解析機能メニューを、自分で作っていくのです。
良く言えば、解析の自由度はとても高いのですが、慣れるまで時間がかかるでしょう。
できれば、PPのユーザーや前ユーザーでコンポーネント作成に詳しい人がいる環境がベストでしょう。　（幸い私の会社の席のすぐ後ろに、そんな人がいます）　

解析パイプラインの改造の自由度に魅力を感じ、コンピューターサイエンスの思考が得意な人、やってみるという意欲の高い人に向いています。
繰り返しますが、このソフトは同じ作業を何度も繰り返すような、あるいは全行程の一部を何度も繰り返すような、そんな解析を効率良く行うのに向いています。
他のNGS有償ソフトとは、目的、というか設計思想が異なることがわかります。

まとめます。
有償ソフトを買おうか迷っている場合、注意すること

有償ソフトの配列解析アルゴリズムは、一般的なものが搭載されている
配列解析機能も、一般的なものから搭載されていく
使い方、データの見せ方、などのソフトとしての基本機能で差別化している
3次解析以降の、遺伝子機能解析、統計解析、外部リンクなどで差別化している
個人で使うウェット研究者向けのものがほとんどだが、中には大規模センター向けのサーバー型のものがある

最後に・・・
今回のシリーズで、私はWebアクセスのソフトや、クラウドを使ったソフトは含めませんでした。
海外では有名なGeospizaという会社が、全転写解析やSmall RNA解析などをクラウド上で行うサービスを行っています。http://www.geospiza.com/Products/WTA.shtml
日本ではまだクラウド上にデータを上げることに拒否感を示す所が多いせいか、あまり普及していない気がしますが、いずれこのようなサービスも日本で広がってくるのではないかと思います。

2011年5月6日金曜日

NGS解析有償ソフト：　買う価値はあるか　(中編)

Avadis NGSというソフトは、Strand Life Sciences社（http://www.strandls.com/Home）というインドのBio-IT企業が開発元です。
Avadisという名前は、もともとマイクロアレイの解析ソフトを作っていたAvadis社という会社名です。
日本ではAgilent社がAvadis NGSを販売していますが、3社の関係はここではさておき・・・。

このソフトは、RNA-Seq、ChIP-Seq、SNV-InDel Variation、という3つのアプリケーションに絞っています。
この3つはたいていどの有償ソフトでも備わっている機能です。
http://www.avadis-ngs.com/features/introduction
先日Webセミナーをやっていたので参加しました。　（日本時間の深夜0時でしたが）
差別化は、やはり、データの見せ方と3次解析以降の機能だと実感しました。

以下の画像はその時のWebセミナーのスクリーンショットです。

Agilent社から出されているマイクロアレイ解析ソフトのGene Springを使った経験がある方なら、なんとなく似ている、と感じるのではないでしょうか？
ということは、RNA-Seqなどの発現解析に向いているのでは？と思ってしまいますが、まだ実データで試していないので何とも言えません。
Alternative Splicingなども検出して表示できるそうなので、今度試しに使ってみたいです。

このソフトのもうひとつの特徴は、マッピングまでは他でやってくれ！という心意気でしょうか。
インポートファイルは、SAM、BAM、BED、Eland出力、です。
確かにマッピングは単純作業。　シーケンサー付属のソフトが勝手に（というか自動で）やってくれますので、その結果を取り込んで3次解析を行い、その後の比較や統計計算、アノテーション付加などを行ってレポートにする機能を充実させる、というのは良い戦略です。　

ウェブセミナーでやっていた例を紹介します。SNP‐Detectionです（予定ではRNA-SeqだったのですがなぜかSNPに変わっていました。残念）。
1．マッピングファイルをインポートする
2．リードのQCでフィルタリングする
3．SNPを見つける
4．結果をテーブルとゲノムビュー上に表示する
5．複数サンプル間のSNPを比較する　（癌とノーマル、N＝3）
6．DB SNPにあるかないか、見つかったSNPの種類を分ける

ちょっとインパクトの無い例ですみません。
私の仕事の都合上、これ以上詳しくは書けませんので、もっと知りたい方は、デモプログラムを試すか、Agilent社が行っているセミナーに参加されると良いでしょう。

実は私の勤め先であるワールドフュージョン社では、これとは多分競合になるCLC-Bio社のGenomics Workbench/Server、を紹介しています。　過去に何度かこのブログでも書いてきました。　

CLCは、トータルソリューションと銘打ち、何でも来い！のスタンスで開発している、というと語弊がありますが、Avadis NGSより、解析メニューは豊富です。　
de novo Assembly、Hybrid Mapping、RNA-Seq、ChIP-Seq、SNP-InDel、Target Re-Sequencing、（Methylationはありませんが）、関連解析ツールとしてBLAST、ORF検索、発現比較/統計、などなどなど。
とはいっても、実際使ってみると、もう少しここから進めたら良いのに！　なぜこれができない！　と思いたくなる場面も多々あります。　←　どんなソフトでもそうですが　
しかしCLCの良い所は、頻繁にアップデートをしていますので、リクエストを投げれば改善される可能性があること、でしょうか。
あまりこれ以上書くとCLC贔屓になり中立性が無くなりますので、詳しくはこちら（http://www.w-fusion.com/J/CLC_wb.html）にお問い合わせください。

ところで、以前少し紹介した有償ソフト、Pipeline Pilot NGS Collection を試用してしばらく経ちました。

→　後編へ続く

2011年5月5日木曜日

NGS解析有償ソフト：　買う価値はあるか　(前編)

「無い！」
と自信を持って言った方は、相当バイオインフォに強いか、フリーツールを熟知しているか、そういうツール自体が大好きか、あるいは前に痛い思いをしたか、でしょう。

私は立場上、「無い」とは言えませんし、実際お金で解決できることもあるのは事実です。
大抵の有償ソフトはGUI、つまりグラフィカルに操作でき、難しいコマンドラインは必要ありません。
NGS解析は面倒で大掛かりだ、という先入観を見事に打ち砕いてくれます。
ドライの研究者向けではなく、ウェットの研究者向けに設計されているからです。

フリーのツールはLinux、コマンドライン、自己責任、といういばらの道が存在し、慣れればそれで楽しいのですが、ウェット研究者にとって敷居は決して低くありません。
そんな時にふと出会った有償ソフトは、その昔、Windows95が登場したときのような、NGS解析でのPlug and Playを見事に実現してくれる！　ように映るのです。

しかし、です。
NGS有償ソフトは、全てのNGSウェット研究者に普及させるため、わかりやすく、使いやすい機能を載せました。
当然ながら、NGS有償ソフトは売って利益を出さなければいけませんから、最も良く使われるであろう機能から順番に、製品開発リストに取り入れてきました。
できるだけ多くの顧客を獲得するため、できるだけ多くの解析手法は取り入れたい。
しかし開発コストとの兼ね合いから優先度を付け、有名な解析手法は必須とし、マイナーなもの、解析手法が複数あるもの、まだ新しくて一般的では無いもの、は後回しにする。

そうすると、どのソフトも皆、RNA-Seq、ChIP-Seq、SNV-InDel、という良く使われるアプリケーションを搭載することが大事になります。
他社との差別化には、ビューワーや、外部データとのリンク、関連遺伝子の機能検索、フリーツールとの融合、という、NGS解析の本筋とは別のプラスαで勝負することになります。

誤解の無きように言うと、有償ソフトでは、NGS解析の本筋でも差はあります。マッピングの速さとか、SNP検索のアルゴリズムの違い、の違いなどです。
しかし、他社製品との大きな差は、今やアルゴリズムというよりも、

解析の進め方や見せ方、結果出力の簡単さ
マイクロアレイなど他の実験結果との統合
検出した発現量やChIP-PeakやSNPなどからバイオロジカルな意味づけ

といった、3次解析以降の部分に開発力を注いでいるように思います。
有償ソフトの購入を検討されている方は、RNA-Seqができる、ChIP-Seqができる、という謳い文句ではなく、どう表示されるのか、その後は何ができるのか、プラスαの解析にはどんなものがあるか、という点に最大の関心を持って頂けると判断しやすいと思います。　
これだけ研究目的が多岐に渡るNGS解析は、自分の目的に合わなければ買う価値はありませんが、ぴったり合うのもまた無いと思った方が良いでしょう。

そんな有償ソフトで最近、気になっているものがあります。
偶然私の知り合いが米国でセールスをやっていることを知ったのですが、日本ではAgilent社がAvadis NGSという名前で取り扱っています。

http://www.avadis-ngs.com/features/introduction

中編につづく・・・

登録: 投稿 (Atom)