高速シーケンサーのデータ解析には、言うまでもなくバイオインフォマティクスの助けが必要だ。 マイクロアレイならエクセルで全データを表示できなくもないが、リード配列(シーケンサーから出力されるデータ配列)はそうはいかない。
大きく分けて、
1)デノボアセンブリ
2)リファレンスマッピング後の解析
に分かれるかと思う。 デノボアセンブリはゲノムプロジェクトに代表されるように、新規にゲノム配列を決定するようなもの。
リファレンス(参照)配列がわかっていれば、その配列に対してリード配列をマッピングする(アライメントする)ことで、リシーケンス、SNP探索、発現解析、エピゲノム解析、などができる。
このように、高速シーケンサーがあれば色んな解析ができるわけで、すべての解析メニューを網羅するオールインワンのソフトはあるのだろうか?
ユーザーが試すソフトは次の3種類だ。
1)シーケンサー機器に付属するソフト
2)Rや、アカデミアが開発したフリーのソフト
3)コマーシャル開発の有償ソフト
1)は、454ならアセンブラーのNewbler, IlluminaはCasavaやEland, SOLiDはBioScopeなど、メーカーが提供するソフトは、そのメーカーのデータに最適に作られている。が、別メーカーのデータには対応しない。というか保証しない。 ちなみに僕の経験では、454のアセンブルはNewblerに勝るアセンブラーは無い。
2)は、次にユーザーが試すだろう。 そして挫折するだろう。
今、シーケンサーの解析はとてもユーザーフレンドリーとは言えない。
先ず、高性能マシンやクラスターサーバーが必要、そしてLinuxをインストールした後、そのツールをインストール(大抵ここで躓く)、そのあとコマンドラインの習得、そしてやっと結果を出力。 ここまで一研究者にどれくらいの壁があることか。
でも、もしあなたがバイオインフォマティシャンだったら、もちろん挑戦したくなるだろう。
僕もそんな一人だ。
フリーのツールは、解析の種類ごとにかなりユニークなものがあるので、試してみると面白い。
3)は、バイオインフォマティシャンがいなく、自分もITに弱い、という研究室の先生、あるいはバイオインフォマティシャンはいるけれど、フリーのツールは使いづらい、と実感している先生や製薬会社の研究員、が選ぶだろう。
製薬会社が好きなのは、カスタマイズができる有償ソフトだ。 自社のデータベースにアクセスしたり、自社で開発したツールにデータを流せたり、そういう自由度が高いソフトなら、数百万出しても買うだろう。
大学はそこまでしないかもしれない。 人を新たに雇うより、ある程度やってくれるソフトを買ったほうが安く済む。 アカデミック価格も魅力かもしれない。
さて、そんな有償ソフトで良く使われているのは何か? ここに記事があった。
有名どころはCLC-Bio(商品名:GenomicsWorkbench), Geospiza(GeneSifter), SoftGenetics(NextGene)。これらはどれも試してみたが、一長一短という感じ。
もちろん完璧なソフトウェアなど無い。 でもトライアルは無料なので、自分のやりたい解析の費用対効果を考えて、一度使ってみることをお勧めする。
僕も今は1つを使っている。
およそ15年前、Windows3.1から95になった時、その使いやすさに驚いた記憶がある。
CLC-BioやGeneSifter、NextGeneに最初に触れた時も、これに近い感覚があった。と言えば大げさか。 プラグアンドプレイですぐシーケンサーデータの解析ができるのがフリーツールとの大きな違い。 当たり前かも知れないけど。
シーケンサーの有償解析ソフトは、突きつめると
1)アセンブリ
2)リファレンスマッピング
3)リファレンスマッピング後のリードカウンティングと統計計算
4)遺伝子のアノテーションやGO解析
のメニューに分かれるのだが、はっきり言ってアルゴリズムに差はほとんどなく、使い勝手で差をつけているのが現実。
また、最新の研究テーマに即した解析メニューは、まだ無いことが多い。 バージョンアップに期待しよう。
上記1から4までの解析メニューをすべて網羅するのは難しいか。 CLC-Bio, GeneSifter, NextGene もそれぞれ、このうち3つくらいをカバーする。
さて話は変わるが、データをクラウド(ネット上のソフト)で処理しようという話も最近出てきた。
まだ確かではないが、Google、IBM、Oracleなどがこの分野に進出しようとしているらしい。 将来のパーソナルゲノム時代を見据えた、データストレージの重要をカバーしようとしているのだろう。 日本企業にも是非、頑張ってもらいたい。
0 件のコメント:
コメントを投稿