2010年10月31日日曜日

BOWTIE マッピングツール の使い方 2

Bowtie がインストールできてちゃんと動くことを確認した。

マッピングには、インデックスをつけた参照配列が必要だ。
実はBowtieのサイトから、インデックスを付けたゲノム配列を、ダウンロードすることができる。
塩基配列用のインデックス済みゲノムファイルと、カラースペース用のインデックス済みゲノムファイルの2種類ある。 ファイルサイズが大きいから注意!
ダウンロードしたファイルは圧縮されているから、bowtie のプログラムがあるディレクトリの、indexes ディレクトリの中で解凍しよう。 そうすると.ebwt拡張子のファイルが6つできる。
これがインデックス済みのゲノム配列ファイルだ。

さて、indexes ディレクトリにインデックス済みゲノム配列ができた。
いよいよbowtieによるマッピングだ。 コマンドはbowtie
すべてのパラメータはマニュアルに書いてあるけど、初心者は、
-p CPUのコア数
-C color spaceのとき(デフォルトはfastq)
csfastaファイルの時は、-f でcsfasta、-Qでクオリティファイルを指定する
--sam SAMのフォーマットで出力する
--best 見つかったたくさんのマッチの中で一番ミスマッチが小さいアライメントだけを出す
-1,-2 ペアエンドの時のファイル
これだけ覚えれば大丈夫。

例えば、
bowtie -p 4 --sam -C --best hg19_c -f /(Readファイルがある場所)/val_20090928_2_Agilent_6_Exome_F3.csfasta -Q /(Readファイルがある場所)/val_20090928_2_Agilent_6_Exome_F3_QV.qual ./work/SD_Agilent_Exome_F3.sam

これは、SOLiDのウェブサイトから頂戴したサンプルデータ
val_20090928_2_Agilent_6_Exome_F3.csfasta と
val_20090928_2_Agilent_6_Exome_F3_QV.qual を、リードファイルとして、
ダウンロードしてきたインデックスファイル hg19_c をリファレンスに使って、
workディレクトリの下に、SAMファイルで出力するコマンド。
インデックスファイルのパスは指定する必要ない。

ちなみにbowtieのウェブサイトからダウンロードできるインデックス済みリファレンスゲノムは、ミトコンドリアのゲノムが含まれている。
染色体の名前は、chr1, chr2,.... となっている。 僕はそれだと使った染色体のアクセッションがわからないので、NCBIから落としてきたゲノム配列を元に、bowtie-build コマンドでインデックスを付けて、リファレンスに使っている。

そう、bowtie には、用意されたインデックス済みゲノム配列を使う以外にも、自分で集めた配列にインデックスを付けて参照配列にすることもできる。
NCBIのゲノムはここ。 ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/Assembled_chromosomes/ ヒトの場合、hg19 は GRCh37なので、
hs_ref_GRCh37_chr1.fa.gz
とかを、1~X,Yまで、落としてきた。
24本全部のファイルを、1つのFASTAファイルに結合して、参照ゲノムファイルを作った。
そして、例えば
bowtie-build -C /(fastaファイルがある場所)/hs_ref_GRCh37_all.fasta ./indexes/hs_ref_GRCh37_c
(カラースペース用の参照配列をつくるときは bowtie-build -C  って、-C を付ければOK! ヌクレオチド用なら -Cはいらない)
reference_name のところは、インデックス済み参照配列の名前になるので任意の名前を付ける。 とにかく、インデックスを付けるのには数時間かかるときもあるので、オーバーナイトで流すのがいい。

hg19 のインデックスファイルでも最初はいいので、自分のデータ、またはNCBIのSRAから落としてきたfastq ファイルなどをとりあえずマッピングしてみよう!
SAMファイルができるはず。
そのSAMファイルは、そのままでは面白くも何ともない。
ここから先は、3次解析になる。
でも、3次解析に移る前に、SAMファイルをちょっといじってみよう。 ・・・つづく

2010年10月29日金曜日

BOWTIE マッピングツール の使い方 1

次世代シーケンサーのデータ解析は、発現解析、メチレーション解析、変異解析、などなどたくさんある。 
良く言われる、1次解析、2次解析、3次解析という定義は、以下の通りだ。
1次解析: ベースコールなどのリード自体のクオリティチェック。 シーケンサーに付属するソフトが自動的にやってくれることが多い。 デフォルトでOK
2次解析: リード配列の、参照配列に対してのマッピング。 参照配列は例えばゲノム配列。
3次解析: マッピングされた情報を元に行う、発現量推定や、メチル化部位の特定、SNPのDetectionなどの解析。
ちなみにデノボアセンブリは参照配列が無いので、1次解析以降のリード配列を使ってアセンブルする。

さて、では、デノボアセンブリ以外の場合、リード配列ファイルを手にしたら先ず行うべきはマッピングだ。 マッピングソフトはここhttp://seqanswers.com/forums/showthread.php?t=43にリストされているように、たくさんある。
有名なフリーのソフトでは、MAQ、Bowtie、BWA、ELAND
ELANDはイルミナシーケンサーのソフトに付属されている。 
Bowtieはカラースペースの配列もヌクレオチド配列も、ペアエンドもマッピングできて、とにかく速い。
MAQはSNP/DIPの検出に優れているらしい。
BWAも引用文献が多いのでそれなりに評価が高い。

結果を比べてみたことは無いけど、僕はBowtieに今はまっているので、今日はそれについて書く。 ちなみに、Bowtieはボウタイと発音する。

Bowtieの文献はここ http://genomebiology.com/2009/10/3/R25 
ウェブサイトはここ http://bowtie-bio.sourceforge.net/tutorial.shtml

先ずはプログラムをダウンロード
Latest Release で問題ないと思う。
僕は64Bit Linuxのサーバーに入れたので、Linux用のバイナリ(上から4つ目)を落としてきた。
インストールは特に問題なく終わると思う。 
Windows版でもインストールは問題なかった。 (僕が64bit Linux に入れた理由は、Human Genomeなどの大きなサイズのデータを扱うからである。 Windowsではどれくらいのサイズのファイルがマッピングできるか、今度試してみる)

さて、インストールができた。
Bowtieのディレクトリには、bowtie プログラムとともに、index フォルダ、genome フォルダ、などがあると思う。
ここで mkdir work などでワークディレクトリを作っておいて、その中にマッピング結果を入れるようにすると便利だ。

Bowtieがちゃんと動くかどうか、先ずチェックをしよう。
bowtie e_coli reads/e_coli_1000.fq
これをコピペしてエンターすると、ずらずらっとリードファイルが表示される これでOK
bowtie -t e_coli reads/e_coli_1000.fq e_coli.map
これの結果は、こんな感じ
ここに書いてあるのと同じ http://bowtie-bio.sourceforge.net/tutorial.shtml 

さて次は、いよいよBowtieを使ってマッピングする。 手順は、

1.ゲノム配列をもとにインデックスファイルを作る
2.インデックスファイルに対してマッピングをする
3.SAMファイルができるので、これを編集する

になる。 … BOWTIE マッピングツール の使い方 2へつづく

2010年10月23日土曜日

サンプルデータの取得法

次世代シーケンサーの解析を始めたいひとなら、まずサンプルデータを取得することから、始めるかもしれない。 自分の実験データがあるひとでも、解析方法が正しいのか、を確かめるためにはサンプルデータがあると便利だ。

ドライの解析でも「ポジコン」が必要だし、マッピングなどを初めてやるひとも、誰かが出したデータ、それも文献になっている元データがあると便利だろう。 あるいはデータ解析をサービスとしてやるひとなら、色々なフォーマットの配列データをテスト解析してみることは必須になってくると思う。

サンプルデータはどこから取得したら良いか?
NCBIのSRA、Sequence Read Archive からか? ここは最も有名な、配列デポジットデータベース、だ。 
マイクロアレイのデータを集めたGEO、Gene Expression Omnibus にもシーケンスデータはある。 初めてここを使うひとは、日本語の目次を利用すると良いだろう。 遺伝子発現バンク(GEO)目次はLSDBという文科省傘下の組織?が我々日本人のためにキュレートしてくれている。
ここには、HT (High Throughput)データというタブを開くと、シーケンスデータがある。
さて、GEOは、一番下のSupplementary fileというところ、SRPとかから始まるアクセッションがそのままSRAで使われているアクセッションになるので、GEOから検索してもデータは結局SRAからダウンロードすることになるのだ。

じゃあ、SRAで、試しにSRA008367と検索してみよう。

サンプルごとの名前は、SRXから始まるIDでまとめられている。
Summaryをクリックすると、実験のサマリーが参照できる。これはSRPというIDで管理されている。
1サンプルの中で使われたランはSRRから始まるIDで、右側に見えるのがそうだ。
データはSRRごとにダウンロードされる。
これはペアーエンドのデータなので、ダウンロードは同じSRR IDが2つあるので、2つで1セットだ。

SRAで落とせるデータは全部、bz2という圧縮ファイルで、解凍するとできるのはfastq フォーマット。 
fastqフォーマットは、ほとんどの解析ツールで取り込むことができて、ワールドスタンダードフォーマットと言っても良いだろう。
実際、論文で引用される公共データも、解析ソフトメーカーがデモデータとして使うのも、このSRAから落としてきたfastqフォーマットがほとんど。

で は 、 
fastq以外の生データはどこから取得したら良いのか?
僕が知っている限り、
1.メーカーのWebSite
2.文献のオーサーが公開している場合
3.メーカーに問い合わせ (問い合わせればもらえることが結構ある)
の方法がある。 

 ここから先は、SOLiDとIlluminaのデータについて、僕が今知っている生データのソースを書く。
新しいのがわかったら随時、追加していきたい。

SOLiDデータのサンプルデータは、旧アプライドバイオシステムズのサイトから取得できる
http://solidsoftwaretools.com/gf/project/から、~data とか、~dataset とかいう名前をクリックすると、データのダウンロードページにリンクする。
これらのデータは基本的にはメーカーのサポート外なので、使うときは心得ておこう。

Mate-Pairのデータセットが欲しければ「E.Coli DH10B 2X50 Mate-Pair Data Set」
csfastaやqualファイルはもちろん、カバレージファイルやStatsファイル、マッチングファイルは.maとgffなど、BioScopeから出力される必要なデータは全部そろっている。
データ量はそれなりに大きいので注意。
small RNAのデータ「Human Small RNA Data Set」は比較的小さい。といっても解凍すると1GB以上は普通にある。
そのほかにも、Humanのゲノムデータが欲しければ「Human (Yoruban) Data Set」、BiSulfiteの実験データが欲しければ「Bisulfite Data Set」http://solidsoftwaretools.com/gf/project/bisulfite/

そんな中でも注目しているのが、AgilentのSure SelectというEnrichmentキットを使ってHumanのExon部分のみをセレクションし、シーケンスしたという「Targeted Resequencing data set for barcoded samples enriched with Agilent SureSelect 38MB Human All Exon Kit」データセットhttp://solidsoftwaretools.com/gf/project/agilentexome/
ゲノムの中でも遺伝子、さらにメッセンジャーの部位となると、わずか1%のみ。Exonをターゲットにして発現やSNPなどを観測したい場合は、残り99%の場所は無駄なわけで、この1%のExonだけをシーケンスできるようにしたのが、Sure Selectというテクノロジー。単純計算でもカバレージが100倍になるので効率よく複数のサンプルをリシーケンスすることができるのだ。

さて、早速チェックした方の中には、これらのデータの中に、リンク先が無いものがあるのに気づいたかもしれない。
http://solidsoftwaretools.com/gf/project/bisulfite/によれば、以下のFTPから取得できるらしい。
Server ftp1.solidsoftwaretools.com
Username solidanon
Password solidanon1mmoorex
File anonymous/bisulfite/
が、しかし、このフォルダのリンク先は正しくない。データは別のところにある。
僕は見つけたが、メーカーは公表していないのでここに書くことはやめる。でもフォルダをひとつずつ探せば簡単に見つかるだろう。
イルミナデータの場合
イルミナのデータは、メーカーのサイトには見つからない。 ユーザーサイトにはあるかも知れないが、公開サイトにはない。でも、パブリッシュされているものを見つけた。

Targeted next-generation sequencing of a cancer transcriptome enhances detection of sequence variants and novel fusion transcripts (http://genomebiology.com/2009/10/10/R115)
という文献に使われたデータは、引用32に記載されているWebサイト(Broad Institute)から、アライメント前のSRFフォーマットでダウンロードできる。
これもサイズが結構大きい。 10ギガ、20ギガは余裕で行く。
このデータも、先のAgilent Sure Selectと同様、ターゲットリシーケンスの結果だ。 僕もこれを勉強になるかと思い、利用している。 

別のデータは… また今度の機会に。 

2010年10月18日月曜日

Genome Analyzer II & HiSeq 2000

イルミナ社の次世代シーケンサーは4種類ある。
世界で一番使われている型の Genome Analyzer IIx (GAIIx)
汎用型を目指したGAIIx よりちょっと安い Genome Analyzer IIe
最も高性能ハイスループットのHiSeq2000
マイクロアレイのスキャナーと一体型の HiScanSQ

イルミナ社の思想は、「シーケンサーをどのラボでも使えるように」 なので、使いやすさを優先しているようだ。 
できるだけ簡単な操作性、これは正しいと思う。 出てくるデータも塩基配列なので直観的に扱いやすい。 SOLiDのカラースペースと比べるとここは大きい。

Genome Analyzerは世界で最も使われている高速シーケンサーだ。
当然論文数も多いので、この辺はアカデミアの人間には嬉しい、というか安心できるところ。
もともとのテクノロジーはSolexaという会社が考えたもので、フローセル上に固定したフラグメントDNAを、1塩基ずつポリメラーゼ伸長していく。 このときA,T,C,Gの4種類のヌクレオチドとそれぞれ4種類の蛍光色素が1つ、取り込まれ、それ以上は取り込まれない。
リバーシブルターミネーションと言われるその方法で、1つずつポリメラーゼ反応を進めては止め、また進めては止める。 一度の反応で4種類の蛍光=塩基がCCDカメラで観測される。 (ロッシュ454の場合は1度に1種類の蛍光を観測する) つまり、50塩基の読み取りには50回の反応が必要になる。

シーケンスとポリメラーゼ反応を同時に行う。 そこで Seqencing by Synthesis と呼ばれることもある。 ポリメラーゼ反応というわりには、ライゲーション反応のSOLiDと比べると試薬コストが高いように思う。

イルミナのシーケンサーはショートリードであるので、ライバルはSOLiDだ。
リードの精度はどちらも高い。
スループットはSOLiDに軍配が上がるが、どちらも十分高い。
こうなってくるとユーザはどこを基準に選択したら良いのか?
自分で実験するなら、使いやすいかどうか、操作性、ランニングコスト、メーカーサポートの質、を基準にすると思う。 イルミナはこの点に加え、世界中にユーザーが多い、という優位性があるので選ぶ人も多いだろう。

僕の印象だが、イルミナ社はライバルメーカーと比べて若干閉鎖的。 
ユーザーミーティング以外にも、まだユーザーでない一般のひとに対して、あるいはシーケンサーを持っていないのだがプロジェクトの一員であるひとに対して、もう少しオープンにしてくれればうれしい。

なので、僕は必要な情報はWikiなどで得ている。たとえばここ。
http://seqanswers.com/
結構スレッドを立てると、誰か答えてくれるので、不満はない。
ここでも、イルミナのユーザが圧倒的に多いふうに思う。

2010年10月9日土曜日

シーケンサーの種類 - SOLiD

SOLiD ‐ そのままググると、ビジネスコンサル会社とかCAD設計ソフトだとかがひっかかってきてなかなかシーケンサーにはいかない。 SOLiD ABI で引くといい。

Sequence by Oligo Ligation and Detection というユニークな手法のシーケンサーを初めて見たのが2007年の分子生物学会だった。 最初、本当にこんな方法で配列が読めるのかな、って疑問に思ったひとは多かっただろう。 そして、何度聞いても、ツーベースエンコーディングの仕組みを忘れてしまう。
僕が学生の時は、シーケンスといえばサンガー。 これだけ覚えればゲルもキャピラリーも同じだった。 ところが今や、PyrosequenceからSequence by Synthesis、SOLiDと、次々に増えて、そのうち第3世代、第4世代と…ああ、覚えられないよー!

さて、今日はSOLiDに絞る。 理由は、僕が最初に見た第2世代シーケンサーだから。

2010年10月現在の最新機種はSOLiD 4 hq
この表はSOLiD4のもの。 SOLiD4のリンク先
hgはこのバージョンアップ版で、驚くべきはそのスループットで、この表の3倍、最高300ギガベースが1ランで出せるらしい。
ヒトゲノムが30億塩基対、つまり3ギガ。 その100倍だ!!
ついでにライバルのイルミナHighSeq2000はこの通り
最高200ギガを可能にしている。

SOLiD4hqとHighSeq2000、どちらもこれ以上スループットを上げることは厳しいか? 
違いはサンプル調整の最後、DNAフラグメントの増幅方法にある。
SOLiDはエマルジョンPCRといって、ビーズにフラグメントを結合させてPCR増幅を行い、そのビーズごとガラススライドの穴に固定させる。 (引用:Metzker (2010) Nature Reviews Genetics v11, 31)
これはロッシュの454と同じ方法だ。 SOLiDはこのスライドの穴をより高密度にすることで、スループットを上げてきた。

イルミナのGenome Analyzer、HighSeq2000はPCRをスライドの上で行う。 ブリッジ増幅というこの方法が特徴だが、この方法は物理的にスライド上に結合できるフラグメントの数が制限されてしまう。 そこでHighSeq2000では、スライドを2枚に増やし、上下に配置することでスループットを上げた。

さて、話をSOLiDに戻す。 ライフテクノロジーズ社、旧アプライドバイオ社のホームページは、情報の宝庫だ。 ほとんどの資料が無料で手に入る。 たとえ顧客で無くてもだ。
ここから先もそんなものから引用し、編集している。

SOLiDの一番の特徴は、そのシーケンスの方法だ。 ポリメラーゼを用いないとは!
(以下、ライフテック社のホワイトペーパーを元にコメント)



詳細は、メーカーのこのホワイトペーパー をご覧いただきたい。 ひじょうに細かく、かつ分かりやすく書かれている。
想像するに、SOLiDの方法は発売当初、なかなか世間に受け入れなかったのだろう。 何しろデータがATGCの塩基配列ではなくて、0123の数字なのだから!!  研究者にとっては扱いにくいことこの上ない。

2年前、ある学会でSOLiDのデータを「信頼に足らない」と言っていたある人がいた。 2年前と言えばまだソフトウェアも未熟で、PCのスペックも低く、そもそもSOLiDの特徴を完全に理解している研究者もいなかったのかもしれない。 その先生の発言力は国内ではそこそこ大きかったので、SOLiDがいまいち使いにくい、という評判が広まってしまった感がある。 しかし、僕の感じる限り、データ解析に関してはそんなことはない。 精度は高いし、スループットも十分だ。 
今はカラースペースの0123情報でも十分扱えるソフトウェアがある。 PCのスペックも上がった。
それに、ここが一番大事だが、ライフテクノロジーズジャパン社の社員は、顧客満足度を上げようと態度で示している。 営業、マーケティング、サポート、と皆、お客さん以外にも親切で、情報公開をしている。 もし、旧アプライドバイオ社にあまりいい印象をもっていないひとがいたら、過去のことは水に流して欲しい。 あまり贔屓にすると関係者じゃあないかと疑われるのでこの辺に。

あと、SOLiDの利点は、ランニングコストが安いこと。 なぜって、インビトロジェン社と合併したおかげで試薬代がほとんどタダになったから。 
今や、ギガベース当たりいくら、っていう価格で比較するとSOLiDがダントツ安い。 パーソナル1000ドルゲノムに達するのもSOLiDが一番かもしれない。

 


2010年10月5日火曜日

実験プロトコルを知る必要性

データ解析をやっていると、時折ふっと思うことがある。
これはそもそも何を見ているのだろう?
自分の研究ならいざ知らず、他人から預かったデータで解析だけを頼まれた場合、実態が分からないことほど、気持が悪いことは無い。

これはドライを専門にやっているひと一般に言える。
実験の本質を知らずに、出されたデータだけをいじくっても良い結果は生まれない。

そこで、実験プロトコールを知っておくことが大事だと思うのだ。
シーケンスでは、例えば全転写解析のデータの場合、Whole transcriptome protocol filetype:pdf などでGoogleれば、SOLiDのプロトコールが簡単に見つかるだろう。
これを読まなくとも、絵を見れば、サマリーをつかむことができる。
先ず、抽出したRNAは、市販のキットを使ってpoly-A付きのメッセンジャーか、リボゾーマルRNAを除いた残りのRNAのいずれかに精製される。
その後の流れは、
RNAを酵素を使って断片化し、サイズを量を測った後、RNAの両端にアダプター配列をライゲーションする。 アダプター配列はプライマーの役割も果たし、そのまま逆転写されて、RNAはcDNAになる。 cDNAは、ゲルに流してサイズが約150-250baseのところで切り取られ、PCR増幅される。 増幅されたcDNAはまたサイズを測って確認、OKなら、このフラグメントをSOLiDのシーケンスプロトコールにのせて読む。

これを知っているのといないのとでは、データ解析に向かう姿勢が全く違う、と思うのは僕だけではないと思う。 「ドライの奴らは実験なんて知らなくても、データを言われた通りに解析すればいいのだ。」と言う、ウェットの連中がたまにいるが、それは違う。 ドライの解析は、特に新しい分野では、実験過程を考慮しながら、解析手順をそれに合わせて変えていく想像力が必要だからだ。 コマンドラインのパラメータ設定のことを言っている。 

実験結果は常に、バイオロジカルなものであれ、テクニカルなものであれ、何らかのかたよりが伴う。 またドライの人間の先入観が、解析過程をじゃまするときもある。 例えば de novo assembleでは、Contigを作るのが目的だから、できるだけ長いContigを作ろうとする。 ずっとゲノムのアセンブルをやっていたドライの担当者が、ある日転写産物のアセンブルを頼まれたらどうだろう。 つい、いつものように長いContigをたくさん作ろうとするかもしれない。 N50を気にして、この値が例えば500を超えるまで、あるいは推定遺伝子数と同じだけのContigができるまで試行錯誤するかもしれない。 転写されていないメッセンジャーは決してContigにならないことに気づくまで。

実験プロトコールを知ることは、ウェットの世界を覗く一番簡単な方法だ。
わからなかったら聞けばよい。 もちろん生化学のバックグラウンドも必要だ。 そしてシーケンスを正しく理解するには、遺伝学、分子生物学、の基礎はしっかりと勉強してキープアップしていかなければだめだ。
ドライの解析なんて、大部分はコンピュータがやってくれるのだから、あわてることは無い。
ウェットの部分をしっかり理解して、それに合ったコマンドのパラメータを選べるようになったら、一人前だと思う。
やたらめったらパラメータを変えて、いい結果がでたらOKというのは、最初の確認ならばいざ知らず、2回目からは止めた方がいい。 

2010年10月3日日曜日

de novo transcriptome という分野

NGSの使われ方のひとつに、de novo transcriptome という分野がある。 これは何かと言うと、リファレンス配列が全く未知の生物の発現解析である。
普通、RNA-Seqは、リファレンス配列(ゲノム配列またはRefSeq配列)があって、これに対してリード配列をマッピングしていく。 そのうえで、マッピングされたリード配列の数を数えて、発現量を推定する。

余談だが「リード配列の数=発現量」というのは、正確に言うと違う。 リードの数は、転写産物の長さや、シーケンサーから出力された全リード数で補正(Normalize)する必要がある。 RPKMという補正値が、遺伝子ごとの発現量としては一般的で、SOLiDやGAIIに付属するソフトでもこの値で出力することができる。 でも、ディスカバリー目的、例えばエキソンのスプライシングや、未知エキソンの検出、などにはリード数そのものを比較することもある。 むしろ補正はしない方がいいと思う。

さて、話題に戻って de novo transcriptome の話をすると、これはさっきも言った通りリファレンスが無い。 ということは、出てくるデータは転写産物のショートフラグメントだけ! なので、まず、
1) リードをアセンブルしてContigを作る
2) できたContigを転写産物と仮定して、リードをContigにマッピングする
3) 後は普通のRNA-Seqと同じ
という順序になると思う。

データが出てきた後の話だ。
アセンブルは色々あるが、454ならNewbler、SOLiDやGAIIならVelvetのようなアセンブラーを使って行うだろう。
その時のTipは、ミトコンドリアやクロロプラスト由来のRNAが混ざっている場合、その配列にヒットするリードをあらかじめ除いておくと、ゲノム由来のRNAにコンタミするのを防ぐことができる。 

数時間後、めでたくContigができた。 100-mer以上の長さが数百本ある。 これは信じていいのか。 Contigはたくさんできても、それが本当に転写産物なのかは、リファレンス配列が無い時は確かめようがない。 なので、Contigを既知のタンパク質配列に対してBLASTxし、Contigがどれだけ既知の転写産物らしいか、を確かめると良いと思う。
真核生物、哺乳類、植物、など大きなくくりでタンパク質配列を用意して、それに対してBLASTxする。 さて、ここで遺伝子に紐付いたものの中に、保存性が高くてかつ塩基配列が長いものはあるか? 植物ならBIG(binding / ubiquitin-protein ligase/ zinc ion binding)などの遺伝子配列がある程度の長さで取れているか? これは、アセンブルの精度の基準なると思う。 

この De novo transcriptomeをする場合、使うべきは454のロングリードシーケンサーだろう。 実際に454を使っている文献はいくつかある。
1.Parchman TL. BMC Genomics. 2010 Mar 16;11:180. PMID: 20233449
2.Elmer KR. Mol Ecol. 2010 Mar;19 Suppl 1:197-211. PMID: 20331780
3.Kristiansson E. BMC Genomics. 2009 Jul 31;10:345. PMID: 19646242
どれもモデル生物ではない生物で、発現を見ている。
このうち面白いのが、1の文献で、これはLodgepole pine (P. contorta) のde novo transcriptomeをしている。 このケースでは、先ず464,896本のリードを、すでにゲノム配列がだいたいわかっている近縁種P.taeda の、18,921本のUnigene配列と共にアッセンブルして、めでたく6,601本のContigを得ていた。 近縁種のUnigeneと実験データのリードを混ぜてアセンブルしているのだ! これはびっくり。 これにより、P.contortaとP.taeda の間で保存されている配列を先に同定できる。 Contigに加わらなかったリードで再びde novo assembleを行い、最終的に57,086本のContigと、およそ24万本のsingletonを得ている。 24万本のSingletonって…、という突っ込みはさておき、この方法は近縁種の遺伝子がある程度分かっているときに有効な手法だろう。

http://atgc-illumina.googlecode.com/...k_090910_D.pdf
をGoogleで検索すると、トップに出てくるのが、レタスのde novo transcriptome
これはIlluminaのGAを使用している。
残念ながらSOLiDでの例はまだ出会っていない。 454と組み合わせての使用例は今後出てくるかもしれないが。

僕の経験では、当たり前かもしれないがショートリードだけでなく、ロングリードと一緒にアセンブルした方が長いContigが多くできやすい。
transcriptomeに関しては、そもそも発現していない遺伝子はリード数が少なく、アセンブルされにくいだろう。 つまりゲノムのアセンブルと違ってContigの数が多ければ良いというわけでもない。

未知の転写産物を調べるというのは、高速シーケンサーならではの使い方なので、今後増えてくると思う。 第3世代なら問題ないかもしれないが、第2世代の機械ではアセンブルという必要があるので、ここは難しくもあり、また僕みたいなデータ解析屋にとってはチャレンジングなテーマでもある。