2010年9月19日日曜日

高速シーケンサーの使われ方 2

現在の高速シーケンサーは、単にシーケンス(配列)を読むだけの機械にとどまらない。
ひとつの同じ機械を使って、発現の情報、タンパク質―DNAの結合情報、ゲノム配列の詳細情報を観測することができる。

発現の情報とは、たとえば
1)これまでマイクロアレイで行われてきたような発現量の観測
2)ジャンクションアレイやエキソンアレイで行われているようなエキソンスプライシングの観測
3)CAGEのような転写開始点の量的観測
4)異なる染色体をまたぐような転写産物・Fusion Transcriptsの観測
5)遺伝学的なAllelic Imbalanceと、発現量の関係を観測
などがある。

タンパク-DNA結合情報は、
1)ChIP-on-Chipなどで行われてきたような転写因子の結合領域の観測
2)ゲノムのメチレーションアセチレーション箇所の観測
(実は、僕はこの辺はあまり詳しくない。)

ゲノムの詳細解析については、リシーケンスがまず挙げられる。これは既知のゲノムに対してもう一度自分のサンプルを読んでみて、リファレンスゲノムというものとどれくらい差異があるかを見ているのだ。
1)人種間や個人間のゲノム上の、ごくわずかな差を検出するSNPInDel解析
2)遺伝子のコピー数を検出するCNV解析
3)特定の配列の正確な数を検出するDNA頻度解析

こういった解析方法を組み合わせて、実験によっては一度にいくつものことが同時に検出できる所に、高速シーケンサーの魅力がある。

しかし当然、新しい技術の導入には、困難が立ちはだかる。

学会などで、教授や所長といった肩書の偉ーい先生方の講演を聞くと、必ずと言っていいほど、高速シーケンサーのデータ解析の難しさが話題に出る。
でも、実際に手を動かしているのは、ポスドクや助手クラスの人間なんだろうから、どれほど「難しさ」を実感しているかは怪しい。
まさか、Linuxコマンドを使うことを「難しい」と言っているのではあるまい。そんなんだったら日本のアカデミアのレベルを疑われるので、絶対に国際学会では言わないで!

こういう偉ーい先生方は、過去に偉業を成した大先生で、予算がガッポリ付いているのでシーケンスし放題だ。
ここから先は想像だが、こういう先生方は、聴衆に「俺らのやってる研究は、生半可な技術ではできないぞ! 高額な機器があっても、ノウハウが無いと解析できないぞ!」と訴えて、聞いている人、これからシーケンスをやろうとしている人に、「俺らに聞きに来れば教えてやるけどな」という風に持っていきたいのかも知れないーー というのは冗談、冗談!

データ量が半端でないのは確かだが、イコール解析が大変・難しいということにはならない。
古い考え?の大先生には、出したデータは必ず何らかの意味があり、意味が無いデータを出すことを許さない方がいらっしゃるかもしれない。 が、それは高速シーケンサーにおいては間違っている。 マイクロアレイでもそうだろうが、ノイズは思い切って捨てる。
高速シーケンサーでも、使えるデータが10分の1にも満たないことは良くあるゾ。
解析手段も、こうした大先生に良くあるのが、フリーのソフトにこだわることだ。
フリーのソフトは、ほとんどが海外のアカデミア機関によって開発されており、Linuxベースであることが多い。 権威に弱いのか、MITとかSanger研究所とか、そういう所の開発したフリーソフトを使いたがる。 
なぜか、市販のソフトを買うことはしない。 なぜだ? サポートも付いてるし、WindowsのGUIも良くできているのに。 価格だって高くても100万円くらいだ。 シーケンサーの数千万―数億に比べれば大したことない。
まあ、市販のソフトは解析にいろいろ限界があって、やりたいこと全部はできないのかも知れないけど。

本題からずれてきたので、この辺で止める。
実際、バイオインフォマティシャンが2、3人いれば大体の解析はできる。
これから、そういうケースを紹介していこうと思う。

0 件のコメント:

コメントを投稿