SEQanswers で面白いトピックがあったので紹介します。
ChIP-Seqをやったとき、例えばChIPを2つの異なるセルタイプで行って、マッピング後、FindPeaks等のPeak Detectionソフトを使ってそれぞれPeakを検出したとします。
InPutも2つのセルサンプルに対して使用しています。
結果、2つのサンプル(AとB)に対してそれぞれ、Peakがたくさんある状態です。
さて、サンプルAでは、ゲノムのある場所で、100リードからなるPeakが検出されました。
サンプルBも、Aとまったく同じゲノムの場所に、200リードからなるPeakが検出されました。
FDR、p-value等の条件は、ほぼ同じです。
このとき、サンプルBのこの場所は、サンプルAより2倍、タンパク質がDNAに結合しやすい、と言えるでしょうか?
テストの問題にいいですね。
ちょっと考えてみましょう。
リードの本数は、タンパク質の結合しやすさに関係するのでしょうか?
そもそもリードの本数は、実験によって異なります。
RNA-Seqの場合、発現量を計算するとき、実験で得たリード本数全体を考慮してノーマライズする方法があります。 マイクロアレイでも発現値をグローバルノーマライズやMedianノーマライズをしますよね。 全体の発現量が大きいアレイと、小さいアレイとを、同等に比較するためです。 テクニカルな、実験的なアーティファクトを除去するのです。
話を戻すと、出力されるリードの本数の総数は、サンプルAとサンプルBで異なるはずです。
もし、サンプルAからは1000万本のリードが出力され、サンプルBでは4000万本のリードが出力されていたとします。極端な例ですが。
では、ゲノムの同じポジションで検出されたPeakを構成するリードの本数、A: 100本、B: 200本に、どれだけの差があるでしょうか。
Bのほうが、このPeakあたりのリードの本数率(というのをあえて計算するならば)は低くなりますね。
A: 100/1000万、B: 200/4000万
実はこれはナンセンス、だと思います。
だって、検出されるPeakの数は普通、同じじゃないから。
この実験で用いたタンパク質は、サンプルAではゲノムの1000箇所に結合し、サンプルBでは2000箇所に結合したとします。
実験で得たリードの総本数は1000万本で同じとしましょう。
ほかの条件も同じと仮定すると、Aの1Peakあたりのリード本数は、Bの1Peakあたりのリード本数より、多くて普通と想像できませんか?
では、このタンパク質が、サンプルAでゲノムの1000箇所に結合し、同じくサンプルBでも1000箇所に結合した、とします。
その1000箇所がまったく同じであることはまず無いでしょうが、500くらいは同じ場所に結合するかもしれません。
リードの総本数も、ABともにほぼ1000万本で同じとします。
さて、この場合、500の箇所に関しては、Peak構成リードの本数で比較ができそうです。
Aの500箇所は平均100本のリードによってPeakが作られている。
Bの500箇所は平均200本のリードによってPeakが作られている。
よって、Bのサンプルでは、Aより2倍、タンパクが結合しやすい。
うーむ・・・。
なんかしっくりきません。
500箇所全部ではなく個別で見ても同じでしょう。
500箇所のある場所 A:100リード、B: 200リード (Bが2倍結合しやすい)
また別のある場所 A: 200リード、B: 50リード (Aが4倍結合しやすい) … 続く
こんな風に、Binding箇所を個別に見て、AとBのリード数を比較してタンパク質の結合のしやすさを判断することが可能でしょうか?
いいえ。共通する500以外の、共通しない500のPeakを考慮していません。どれだけの本数のリードが、共通しない500Peakに使われているでしょうか。
私が知る限り、現在のChIP-SeqのPeak検出アルゴリズムでは、異なるサンプル間のタンパク結合のしやすさを評価することはできません。
少なくとも、今のアルゴリズムで検出されたPeakを、リードの本数をもとに比較することはできないと思います。
近い将来、2つ以上のサンプルで検出したChIP-Peakから、何らかの量的解析をするアルゴリズムが出てくるかもしれませんね。
0 件のコメント:
コメントを投稿