データ解析をやっていると、時折ふっと思うことがある。
これはそもそも何を見ているのだろう?
自分の研究ならいざ知らず、他人から預かったデータで解析だけを頼まれた場合、実態が分からないことほど、気持が悪いことは無い。
これはドライを専門にやっているひと一般に言える。
実験の本質を知らずに、出されたデータだけをいじくっても良い結果は生まれない。
そこで、実験プロトコールを知っておくことが大事だと思うのだ。
シーケンスでは、例えば全転写解析のデータの場合、Whole transcriptome protocol filetype:pdf などでGoogleれば、SOLiDのプロトコールが簡単に見つかるだろう。
これを読まなくとも、絵を見れば、サマリーをつかむことができる。
先ず、抽出したRNAは、市販のキットを使ってpoly-A付きのメッセンジャーか、リボゾーマルRNAを除いた残りのRNAのいずれかに精製される。
その後の流れは、
RNAを酵素を使って断片化し、サイズを量を測った後、RNAの両端にアダプター配列をライゲーションする。 アダプター配列はプライマーの役割も果たし、そのまま逆転写されて、RNAはcDNAになる。 cDNAは、ゲルに流してサイズが約150-250baseのところで切り取られ、PCR増幅される。 増幅されたcDNAはまたサイズを測って確認、OKなら、このフラグメントをSOLiDのシーケンスプロトコールにのせて読む。
これを知っているのといないのとでは、データ解析に向かう姿勢が全く違う、と思うのは僕だけではないと思う。 「ドライの奴らは実験なんて知らなくても、データを言われた通りに解析すればいいのだ。」と言う、ウェットの連中がたまにいるが、それは違う。 ドライの解析は、特に新しい分野では、実験過程を考慮しながら、解析手順をそれに合わせて変えていく想像力が必要だからだ。 コマンドラインのパラメータ設定のことを言っている。
実験結果は常に、バイオロジカルなものであれ、テクニカルなものであれ、何らかのかたよりが伴う。 またドライの人間の先入観が、解析過程をじゃまするときもある。 例えば de novo assembleでは、Contigを作るのが目的だから、できるだけ長いContigを作ろうとする。 ずっとゲノムのアセンブルをやっていたドライの担当者が、ある日転写産物のアセンブルを頼まれたらどうだろう。 つい、いつものように長いContigをたくさん作ろうとするかもしれない。 N50を気にして、この値が例えば500を超えるまで、あるいは推定遺伝子数と同じだけのContigができるまで試行錯誤するかもしれない。 転写されていないメッセンジャーは決してContigにならないことに気づくまで。
実験プロトコールを知ることは、ウェットの世界を覗く一番簡単な方法だ。
わからなかったら聞けばよい。 もちろん生化学のバックグラウンドも必要だ。 そしてシーケンスを正しく理解するには、遺伝学、分子生物学、の基礎はしっかりと勉強してキープアップしていかなければだめだ。
ドライの解析なんて、大部分はコンピュータがやってくれるのだから、あわてることは無い。
ウェットの部分をしっかり理解して、それに合ったコマンドのパラメータを選べるようになったら、一人前だと思う。
やたらめったらパラメータを変えて、いい結果がでたらOKというのは、最初の確認ならばいざ知らず、2回目からは止めた方がいい。
0 件のコメント:
コメントを投稿