FPKM、RPKM

FPKMとRPKM、似ているようだが一体何なのか。

TopHat-Cufflinks の発現解析パイプラインでは、発現量をFPKMという方法で表していました。
もともとこれと似たようなものに、RPKMがあります。

FPKMは、Fragments Per Kilobase of exon per Million mapped fragments の略、
RPKMは、Reads Per Kilobase of exon per Million mapped reads の略です。
FragmentsかReadsかの違いだけですね。　言わんとすることは殆ど同じです。

つまり、ノーマライズした発現量　です。

もうちょっと詳しく言うと、例えば、

SAMPLE1とSAMPLE2、という、別のレーンでランをしたサンプルがあるとします。
Sample1では、リファレンス全体にマップされたリードが1000万本、Sample2では2000万本、ありました。
ここでGeneAに注目すると、Sample1では200本、Sample2では400本のReadが、GeneAにマップされていました。
リファレンス全体にマップされたリードの本数を無視すると、GeneAの発現量は、Sample1：Sample2 = 200 : 400 = 1 : 2 となりますが、これは全体の発現量でノーマライズするべきですね。
マイクロアレイでも、各プローブのシグナルを、全プローブのシグナルの中央値で割って、ノーマライズ（Median Normalize）することがありますが、あれと同じような考え方です。

リファレンス全体にマップされたReadの本数が、仮に100万本だったとき（i.e. 基準を100万本に揃えてノーマライズ）、各々の遺伝子にマップされたReadは何本に相当するか、と。　
これが100万本でノーマライズしたときの、RPM　(read per million) です。

さらに、RNA-Seqの場合、各々の転写産物の長さも考慮に入れなければいけません。
長い転写産物はそれだけ多くのReadがマップされるからです。
転写産物の長さは遺伝子によって様々、一方Readの長さは50 baseなら50 baseで一定ですから、長い遺伝子が多くマップされるのは当たり前ですね。
これも仮に、全ての転写産物が1,000 base 長としたとき、マップされたRead本数はいくつに相当するか、を算出することができます。
これが、転写産物1000塩基長でノーマライズしたときの、RPKM (read per kilobase / million)です。
異なる遺伝子間の発現量を比較するときは必須です。

RPKMはReadを単位にしていました。シングルリードで読んだ時はこちら。
FPKMはFragment、ペアエンドで読んだときの2つのReadを1組としたfragment、を単位としています。

尤も、RPKMやFPKMなどでノーマライズしたとしても、Read/fragment のカウンティングの方法によって、発現量の多い転写産物は実際よりもずっと多くカウントされてしまう、などのノイズ・バイアスがかかってくることもありますので、万能ではありません。
最近はそれらノイズを補正するアルゴリズムも公開されていますが、これらについてはまた。
（私も他人に説明できるレベルまで理解しきれていないので、こう言って逃げることをお許し下さい）

RPKMについて: Mortazavi et al. (2008). Mapping and quantifying mammalian transcriptomes by rna-seq. Nat Methods, 5(7):621--628.

FPKMについてはCufflinks等のサイト参照

ショートリードの憂鬱 - 次世代シーケンサー

2011年6月14日火曜日

FPKM、RPKM

1 件のコメント: