ショートリードの憂鬱 - 次世代シーケンサー

第2世代高速シーケンサー（Illumina, SOLiD, 454）とそのアプリケーションについて。できるだけ最新に近いことと、トレンド、面白いと思った論文やアプリケーションを書いています。シーケンサーに興味のあるひとは是非覗いていってください。コメントも大歓迎です。　一分子シーケンサー　PacBioについては、姉妹ブログ「パックマンの挑戦　http://pacbiobrothers.blogspot.com/　」　を、10X Genomicsについては「くろみうんの冒険」を覗いてみてください！

2010年12月31日金曜日

今年の終わりに

今年の秋から始めたブログですが、私の思っていた以上に見ている方がいらっしゃるようで。
ありがたいことです。

第二世代シーケンサーがようやく日本でも本格的に使われるようになって、来年はきっとどこかで第三世代を使った結果がでてくるんでしょうね。
結果といっても、「やってみた」程度かもしれませんが。
かく言う私も、大いに興味があります。
来年は忙しくなりそう。

さて、今年を締める軽い話題として、日本で次世代シーケンサーの３強のノベルティグッズについて。
セミナーとかに行くと、たいてい、ボールペンやノートがもらえる。　

上から、ロッシュ、ライフテック、イルミナ　のボールペン。

ロッシュのは2色プラスシャーペンで便利そう。　ライフテックのは金属性で高級感あり。　イルミナのは軽くて持ち運びやすい。　

ライフテックのは実は今年のものでは無い。2年くらい前にもらったやつだ。

イルミナのは実はもう一種類あって、そっちはボディが透明で、これもプラスチック製のやつ。　いずれもインクの色は黒のみ。

ちなみに、アフィメトリクス社のボールペンは黒・赤・青の3色。　僕はこれが一番好き。

できればみんな、3色か4色ボールペンにして欲しい。

さて、ノートは最近は少なくなった。ロッシュだけが今年配っていた。

それ以外のグッズとして、ライフテックはアプライドバイオの時代からぬいぐるみ系が多い。

右のくまさんは、2年前にSOLiDセミナーで全員に配っていたもの。
左の犬くんは、今年配っていたもの。
犬以外にもいろいろな動物があった気がする。
いずれにしても、ぬいぐるみ系はおじさんがたがもらってもどうかな～って気がするけど、みんな喜んでもらっていた。　子供や孫にあげるのかな。

さてさて、来年はどんなグッズがもらえるか？　
こんなことも楽しみのひとつ。

ではみなさん、良いお年を！

2010年12月28日火曜日

BWA マッピングツール

BWA，Burrows-Wheeler Alignment Tool　を、ひとから勧められたので試してみた。
このアライメント（マッピング）ツールは、ギャップを許してアライメントすることができる。
また、リード配列は全部が同じ長さである必要が無い。
ということで、SNPなどのバリアントを見つけるにはいいと、そのひとは言っていたのだが、ここは議論の余地が残るところだ。

さて、そんなことはさておき、さっそく実行ファイルをダウンロード
http://sourceforge.net/projects/bio-bwa/
http://sourceforge.net/projects/bio-bwa/files/

インストールするマシンはLinuxの64ビット。
ダウンロードしたら、以下のコマンドを投げていこう！
$ bunzip2 bwa-0.5.9rc1.tar.bz2　これは解凍ね
$ tar xvf bwa-0.5.9rc1.tar
$ cd bwa-0.5.9rc1/　ディレクトリに移動して、
$ make　メークして、
$ sudo apt-get install bwa　スーパーユーザー権限でインストール！

だ、だ、だ、、、、ってインストールが完了したら、準備OK

失敗したら、近くのLinuxマニアに助けを呼ぼう。

ここからが本題。

BWAはBurrows-Wheeler Transform (BWT)を基本としているアライメントツールで、ショートリード向けのものと、ロングリード向けのものの2種類がある。
ショートリード向けは200塩基未満のリード長を3%未満のエラー率で、ギャップを許すグローバルアライメントを行い、ペアエンドにも対応している。
ロングリード向けのものはBWA-SWといい、Smith-Watermanアルゴリズムに似たヒューリステッィクなアルゴリズムで高いスコアを見つけながらローカルアライメントを行う。　

ショートリードでもこのBWA-SWを実行できなくはないが、エラーは多くなる。

・・・なんて、いかにも前から知っていたような書き方をしたが、ここに書いてあるのを訳しただけ。

もっと詳しく知りたいひとは文献までさかのぼってみよう。

さて、ランの流れだ。　こんな感じで進む。

1．データを用意する
リファレンス配列はFASTAフォーマット
リード配列はFASTQフォーマット　今回は例としてイルミナ・ペアエンドのショートリードを使う。

ほかのフォーマットに対応しているかは？

2．リファレンスデータベースの作成
リファレンス配列のデータベースを先に作る必要があり、FASTAファイルに、indexコマンドを使ってインデックスを貼る。

3．アライメントコマンド実行
アライメントはalnコマンドで実行する。Suffix Arrayという検索アルゴリズムの原理を使ってひとつひとつのリードのベストヒットを検索するらしい。

4．SAMファイルへ出力
alnコマンドで作成したsaiファイルを基に、マッピングファイルSAMを作成する。
samse/sampeコマンドはSuffix Arrayのインデックスを染色体の位置情報に変換する。
シングルリードならsamse、ペアエンドリードなら、sampeを実行。

sampeだよ。sampleと打ってしまいそうなので注意！

それでは実例を

まず、リファレンスに対し、インデックスを貼る（ヒト染色体1番のみを例に）
$ bwa index -p ./work/humanCh1 -a is ./Path_to_directory/hs_ref_GRCh37_chr1.fa

重要パラメータ
-p: アウトプットするリファレンスデータベースの名前
-a: インデックスの種類を指定　-a is または -a bwtsw
isは簡単で速い。ただしリファレンス塩基数の5.37倍のメモリを必要とし、2GB以上のサイズのデータベースは作れない。
bwtswは、BWT-SWのため。2GBの制限が無いので、ヒトの全ゲノムでデータベースを作ることができる。ただし10MB未満のデータベースは作れないし、速度もISに比べて遅い。

こんなインデックスファイルができたかな？

リファレンスデータセットの名前をhumanCh1にしたので、以下、alnの後のデータベース名はhumanCh1 になる。

リードファイルは、SRR027863_1.fastqとSRR027863_2.fastqで、これはペアエンドのファイルだ。

ひとつずつ、アラインさせる。

$ bwa aln ./work/humanCh1 ./work/SRR027863_1.fastq > ./work/SRR027863_1.sai
$ bwa aln ./work/humanCh1 ./work/SRR027863_2.fastq > ./work/SRR027863_2.sai

アラインして、拡張子saiのファイルができたら、いよいよマッピングファイルSAMの作成。
これはペアエンドなので、sampe

$ bwa sampe ./work/humanCh1 ./work/SRR027863_1.sai ./work/SRR027863_2.sai ./work/SRR027863_1.fastq ./work/SRR027863_2.fastq > ./work/SRR027863_Ch1.sam

ちゃんとパスを通しておけば、もっとすっきりするけどね。
基本は、
$ bwa sampe 「インデックスデータベース」「アラインファイル1.sai」「アラインファイル2.sai」「リードファイル1.fastq」「リードファイル2.fastq」 > 「マッピングファイル.sam」

これでSAMファイルは出来上がる。1.26Gくらいのでかいファイル。

今回は、シンプルにデフォルトで行った。

全部通しでも1時間くらいで終わった。

気をつけるとしたら、ショートリード用のリファレンスインデックスをつくるには、2GBのサイズ制限があるので、そのままヒト全ゲノムは使えないということ。

染色体ごとに分けるか、目的に応じて、いらない配列を削るかする必要があるかな。

2010年12月18日土曜日

サンプルデータの取得法　２　NCBI

以前、「サンプルデータの取得法」というタイトルで書いた。
その後すぐに、NCBIのSRA（ここ）にて、データのフォーマットが変更されたので記しておく。

NCBIのSRAに行ってみて、何か検索してみると、例えばSRP000698を検索してみると、右にランの名前がリストされている。

以前はここから、FTPにリンクされて、そこからbzip2で圧縮されたリードファイルがダウンロードできた。
今はちょっと違う。
まず、FTPからは、sraまたはsra-liteという2種類のデータがダウンロードできる。
fastqファイルが欲しければsra-liteで良い。
Rocheの波形データを含むsffフォーマットが必要なら、sraから取得する。

さて、僕はsffはいらない。　fastqフォーマットが欲しい。
ということで、sra-lite　からファイルをダウンロードした。

ところが、このファイルを解凍するには、SRA Toolkit という特別なツールが必要だ。
こちらを参照する　http://www.ncbi.nlm.nih.gov/books/NBK49294/　と、Linux System上で動くとあるが最近Windows版も出たらしい。
ツール自体は、
http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software
からダウンロードできる。

僕は64-bit Linux版を落としてきた。
次に、これを展開する。　
$ tar xvfz sratoolkit.2.0b4-3-centos_linux64.tar

ダーっと展開された。

実行コマンドはfastq-dump.2 らしいのでヘルプを見てみよう。

$ ./fastq-dump.2 -h

よくわからない。
さっきのNCBIのSRA　TOOLKITのサイトを見てみる。

早速試してみた。
基本コマンドは　$ ./fastq-dump.2 -A (OutPut fastqファイル名) -D (Downloadした.lite.sraファイル)　なので、
$ ./fastq-dump.2 -A SRR027865 -D /opt/(Downloadしてきた場所)/SRR027865.lite.sra

しばらくして、SRR027865_1.fastqとSRR027865_2.fastqというファイルができるはず。
このSRR027865はペアエンドのリードファイルなので、2つのfastqファイルができるのだ。
シングルエンドのファイルなら、1つのfastqが作成されるはず。

sra-liteからfastqへ変換完了！
ちょっと面倒くさくなった。　慣れればどうってことないが。
データ量が増えたから仕方ないか。
DDBJもいずれこうなるのかな？

2010年12月10日金曜日

BMB2010

分子生物学会が終わり、今年も終わりに近づいてきた。
暮れのこのイベントが、仲間の生存を確認するいい機会になっている。
今年も懐かしい顔に会えて、ほっとした。

昨年と比べ、次世代シーケンサーの結果を披露しているポスターが多かった。
と言っても全体に比べるとごくごく少数だが。　（全体数が多すぎるのか？）

種類別で言えば、まだまだ解析の方法論を述べているものが多い。
アンプリコンのシーケンスで特定配列のタイピングをしたもの。
2種類の生物のゲノムを読んでSNPを比べたもの。
エキソンスプライシングの差を特定していたもの。

個人的には、ゲノム構造（ヒストン構造などのエピゲノム）と遺伝子発現との関連をテーマにしている発表が興味深かった。　何十年も前から関連性は示唆されていたものの、これまでの技術では解明できなかった。　高速シーケンサー技術がこれを可能にするかもしれない。
僕は、1分子シーケンサーの登場こそが、真にシーケンサーによる解析のブレークスルーをもたらすと思う。
これについては、後日、ちゃんとまとめる。

さて、先日の書き込み、マッピングのところ、大切なことを忘れていたことに気が付いた。
僕はそれほど気にしていなかったのだが、ある方と話していて、気が付いた。

マッピングには、Gapを許すアルゴリズムと、Gapを許さないアルゴリズムがある。
Gapを許す方が、計算時間はかかるが、Insertion / Deletion の検出に向いている。
Gapを許さない方は、InDel検出には向いていないが、その分計算時間が短い。
フリーのツールでは、Bowtie、Soapが、Gapを許さない。
BWAがGapを許す。

また、リードをマッピングするときは、マッピングの前に、クオリティでトリミングすることがある。
塩基のクオリティは、リードの後ろほど低い。
50塩基のリードなら、ある程度、例えば40塩基まではクオリティが高くても、その後ガクンと落ちることがままある。
だから、マッピング前に、リードの後ろの方を削り落すことが大事なのだ。
大抵の有償ソフトには、デフォルトでその機能が付いているが、フリーのツールでは自分でパラメータを追加しないといけないことが多い。

一律に、後方10塩基を落とす、という方法なら、全部のリード長は同じになる。
でも、クオリティがXX未満の塩基があったらその後ろを落とす、という方法なら、リード長はまちまちだ。
そんなとき、リード長がまちまちでもマッピングできるのが、BWA。
BowtieとSoapは、リード長が全部同じでないとマッピングできない。
もちろん有償のソフトなら、リード長がまちまちでも問題無い。

さあ、ここまでが、マッピングで書き忘れていた大事なこと。

ところでDDBJ(http://www.ddbj.nig.ac.jp/)でも、シーケンスの登録データベースがあるのをご存じだろうか？
そこの担当者とも話す機会があった。
DDBJにシーケンスデータをアップして、そのまま解析ができるパイプライン(ここ)を作ったそうだ。
今は、マッピングとアセンブルの機能はあるらしい。
もっと広く認知されれば、徐々にサーバーのスペックも上げていくらしい。今はまだ、同時アクセスを制限している状態、ら　し　い。

2010年12月7日火曜日

マッピング、マッピング、マッピング

しつこいけれどまたマッピングの話。

ショートリードをリファレンス配列に対して貼り付けることを、マッピングと呼ぼう。
単に言葉の違いだと思うが、これをアライメントと呼ぶこともある。
はたまた、アセンブルと呼んでいる文献もある。

えっ!?　ショートリードを貼り付けることがアセンブルだって!?

と驚いた方もいるかと思うが、2つ以上の配列の一致する箇所を並べて長いコンセンサス配列を作ることがアセンブル。なら、ショートリードと、リファレンス配列をアラインさせることだって、広い意味でアセンブルだ。　というひともいるのだ。　

ま、それはさておいて、ここではマッピングと呼ぶ。　
正確には、「リファレンスへのショートリードのマッピング」

で、デノボアセンブルを除くと、マッピングが全ての出発点なのだが、このマッピングのアルゴリズム、一体どれだけ正確なのだろうか？
というか、ショートリードのマッピングって、どれだけ信頼できるのだろう。

Illumina社の付属ソフトCasavaで使われているELANDv2にしろ、CLC-BioやNextGENet等有償ソフトにしろ、良く使われているアルゴリズムは、クオリティの高い塩基を十分に含むリード i.e. ちゃんと読めているリード　を、リファレンス配列とのギャップがいくつ以上、ミスマッチがいくつ以上あるものを除いて、残りをマッピングしているに過ぎない。
つまり、ギャップがいくつあったらいけないよ。ミスマッチがいくつあったら同じと認めないよ。という決め事を先に設定し、それに沿ってショートリードの塩基配列がどこにヒットするかを求めているのである。

実に単純なアルゴリズムである！　
というか、これくらい単純にしないと数千万、数億のリード配列を今のコンピュータでは手軽にマッピングできない。
宿命ではあるが、その単純さゆえに、ミスアラインもあるだろう。　
本来マッピングされるべきでない場所にマッピングされる現象は、起こりうる。
それを防ぐには、Paired Endで読むのが良いとか言われるが、これは実験レベルの解決法だ。

ちなみにロッシュ454のロングリードは、僕は経験がないが、聞いた話ではBLATでもマッピングできるそうだ。　BLASTは時間がかかるという。　これは想像がつく。

ショートリードに話を戻すと、ミスアラインの問題は、実はそれほど気にしていない。
ショートリードのマッピングなんてそんなものだ、と思っている。
実験には、そういう覚悟も必要である。
パラメータをいくらいじったところで、ミスアラインが全く無くなることはありえなく、現在のショートリードのマッピングアルゴリズムが単純である限り、その信頼性はBLASTのe-valueほどはっきりと提示してくれない。
ショートリードのマッピングなんてそんなものだ。その代わり、大量のデータをParied Endで出力することで、ミスアラインの可能性を低くする。
しかしデータが大量になればなるほど、マッピングアルゴリズムは単純である必要があるのだ。
堂々巡りになってしまった。

このあたり、ロングリードのロッシュの担当者、ショートリードのライフテクノロジーズ担当者、イルミナ担当者と話をすると、それぞれ全く異なる見解が聞けて面白いと思う。

2010年11月28日日曜日

こんなブログでも・・・

毎日50人くらいが訪れている。
そしてその数は右肩上がりで増えている。
話題はかなりマニアックなのに。　画像も少ないし。

これからももっと続けようと感じている。
ターゲットは　「次世代シーケンサーを学び始めた学生」　を意識して、わかりやすく書こうと思う。
だから、厳密には正しくない　ところもあるかと思う。
ご了承願いたい。
コメント・意見も歓迎する。

　

2010年11月26日金曜日

マッピングツールの種類

ショートリードの解析は、つまるところ
1．リファレンスが無いデノボアセンブリ　と
2．リファレンスがあるそれ以外
に分かれる。
1は、シーケンサー本来の使い方であり、王道なのだが、僕はちょっと退屈だ。　いまいちゲノムプロジェクトの魅力が感じられないのは、僕がまだ半人前の証拠か。

それ以外の解析、トランスクリプトームやエピゲノム、SNPやAllelic Imbalance などの方が興味を惹かれる。
これらの解析では通常リファレンスがあるので、マッピングが行われる。以前紹介したBowtieは、僕のお気に入りのマッピングツールだが、それ以外にも、BFASTやSOAPなどが良く論文に現れる。
けれどもやっぱり、ユーザーが最初に使ってみようと思うのは、シーケンサーについているソフトのマッピングツールではないだろうか。

SOLiDなら付属ソフト「BioScope」のGUIから選べる "Map Data" とか "bFast Map Data"
Illuminaなら同じく付属ソフト「CASAVA(キャッサバと発音)」の "Eland"

シーケンサーについているソフトなので、配列データをベースコールした後、そのままマッピングできるのが便利…だろう。　いずれにせよ、マッピングは精度と速さ、目的に応じた使い勝手、で選ぶべきなので、
1．シーケンサー付属のマッピングツール
2．Bowtieなどのフリーのマッピングツール
3．CLC-BioやNextGeneなどの有償パッケージソフトのマッピングツール

を試すのが最も良いと思う。
マッピングのアルゴリズムは、今やどれも遜色ない。というか、精度の差は優越付けがたい。
僕の場合、マッピングの目的は、短い配列をできるだけユニークにアラインさせることにある。
大抵の場合、ヒトゲノムに対して、なので、リファレンス情報に不自由はない。
ターゲットを決めたディープシーケンスのときがほとんどだが、たまにホールゲノムに対しての時もある。　
マッピングの後の解析は、SNPやInDelの検出、新規転写産物の検出、たまにChIP-Seqやメチレーション、だ。
転座解析は、まだやってないが、興味はある。

これらに必要なマッピングアルゴリズムは何だろう？
短い配列だから、ユニークにアラインさせることは難しいか？

短いと言っても、リード長、今や40、50は当たり前。　Pair Endで実験すればForwardとReverseの間のフラグメントの長さが決まっているから、その情報を頼りにユニークにアラインさせることは難くない。　以前、メーカーの人に聞いてみたが同じような答えだった。

読んだ配列に、ギャップがあった場合、リファレンス配列にちゃんとマッピングされるか？
大丈夫、短いInDelならほとんどのツールが判別してくれる。
短いInDelとは例えば、IlluminaのCASAVAのEland v2 では20塩基未満のギャップなら認識してくれる。v2 以前はギャップは見落としていたらしい。

短い配列のマッピングには、ローカルアライメントが使われ、例えば連続する12塩基が完全に一致する箇所をリードの中に先ず見つけ、その後両端を伸長してアライメントさせるアルゴリズムがある。　
この方法は昔からよくChIP-Seqの論文で見つけた。　
伸長していくとき、同時に、ミスマッチの箇所、1塩基ギャップの箇所を見つけ、あればこれらでアライメントの精度を評価する。
評価にはスコアリングが使われる。　わかりやすく例えると、最初、50ベースのリードが、50点持っていたとする。　ミスマッチがあればマイナス3点、ギャップスがあればマイナス1点、などと50から減点していく。　ある程度の点数以下になればこのリードは信用なし、としてアライメントに使われない。　
正しくはツールによってスコアの種類も異なり、最初の12塩基完全一致という前提も異なり、計算式もそれぞれだ。　でもわかりやすく言うとこんな感じで、スコアリングについては、どのマッピングツールも大体似たような考えを用いて精度を上げている。

速度はどうか？　僕の体感ということを断わっておくと、
Bowtieはダントツに速い。
次にCLC-Bioが速い。
もちろん、他のフリーソフトも、条件を最適にすればそれなりなのだろうが、それを怠っているせいで、あまり速くは感じない。　
シーケンサー付属ツールは、実はガッツリ使っているわけではないのでわからない。

使い勝手はどうか？
これはその人それぞれ。
シーケンサーが外部のラボにあって、実際に触れない人なら、シーケンサー付属のソフトという選択肢は先ず消える。ということなら、フリーツールか有償パッケージソフトになる。
有償パッケージソフトが安定しているのは当然だ。
コマンドラインに格闘する楽しさは味わえないかもしれないが、SAMファイルを出してくる所までは簡単にできる。　パラメータ設定も十分種類がそろっている。　アルゴリズムもほとんど世界共通なものを使用しているので、心配はいらないと思う。
フリーツールも、コマンドラインを使って見せて、頭よさそーに自己陶酔できる、という利点もさることながら、SAMファイルまではちゃんと出してくれるだろう。　Linuxに詳しければシェルを組んでバッチで流すということもできるツールが多い（つまりマッピングの自動化）。

SAMファイルまたはBAMファイルまで出てくれば、マッピングツールとしての役割は終わりだ。
このファイルはその後のトランスクリプトーム解析、SNP解析、エピゲノム解析のスタートポイントになる。　まさに、マイクロアレイで言えば、ノーマライズ後のデータ、に似てはいないか。

2010年11月19日金曜日

情報革命

今日、夜テレビを付けたらソフトバンクの孫さんが出ずっぱりだった。
なんでも、ＮＴＴの光回線部門の別会社化案を総務省が見送る判断を示したらしく、その反論と自身の経営者としての考えを述べていた。

さっきもWBSで、「これから10年20年後、携帯端末の性能は今の100万倍になる。　想像もつかないほどの情報革命、通信革命が起こり、それは体感しないとわからない。」と言っていた。
孫さんの言うことは正しいと思う。
携帯端末の性能は、その心臓部、エンジンであったりメモリであったりオペレーションソフトであったりするのだが、これが20年後には今の100万倍になるという。

DNAシーケンサーの性能は、シーケンスの読み取り技術と、計算機の性能と、ベースコール解析ソフトによって出される、配列の長さと数とコストで計算できると思う。
ほんの10年前、国際ゲノムプロジェクトV.S.セレラジェノミクスとの10年にも及ぶ熾烈な競争の結果、ヒトゲノムがなんとか読まれた。　この時使われたテクノロジーはサンガーキャピラリーシーケンサー。　使われた資源はどれだけのものだったのか。

キャピラリーで読める長さは大体500塩基としよう。16本キャピラリーだと、1ランで8000塩基。
SOLiD 5500xlのアップグレード版は、ショートリードとはいえ、1ランで300ギガ＝3000億塩基
その差なんと　3750万倍　！！
そしてスループットはまだまだ上昇の余地があるという。

孫さんが情報革命に興奮しているのと同様、ライフサイエンスをかじっている僕も、現在のシーケンス革命に興奮せざるを得・・・　っていうのは言いすぎか。
でも、将来、個人ゲノムが診断目的に読まれるようになって、そのシーケンス情報をケータイできるようになって、それらが世界的につながって、自分と同じジェノタイプを持つひとがどれくらいいるかとかがわかるようになって、どんな病気に気を付けたらいいかとか、この薬は合わないとか、そんなことが瞬時にわかるような時代がすぐそこに来ている気がする。

たまにはこんな話も良いでしょう。

2010年11月15日月曜日

シーケンサーの種類　SOLiD (2)

今月の1日、ライフテクノロジーズ社はプレスリリースを出した。
http://www.lifetechnologies.co.jp/pr101102.html
それによると、SOLiDシリーズは、近々また一新するらしい。

今までのSOLiD 4 は、そのスループットをさらに向上させ、SOLiD 5500xl に、さらに当初リリース予定だった低コスト版のSOLiD PI は、名前を変えて SOLiD 5500 になるらしい。
5500xl は、2プロ―チップまでのランが可能。　5500 は、1フローチップのランが可能。　って・・・。

で、そのスループットだが、ここにいい表がある。　ちょっと見て欲しい。

コスト/ランは、新しい5500xlシステムの方がSOLiD 4 より1.7倍以上高い！
今は180ギガベース/ランで、7500円/ギガベースだけど、将来的には（ソフトウェアの改善で）300ギガベース/ランになるらしいから、4700円/ギガベースか。　これはすごいかも。
でも、ソフトウェアの改善というところがちょっと気にかかる。　

5500/5500xl シリーズの機械は日立ハイテクノロジーズ社製。　
ということで、ハードについては信頼性があるかな？　

もうひとつ、これからの注目株は、今年の分子生物学会のランチョンセミナーで紹介される予定の、Ion Torrentシーケンサー。　蛍光色素を使わず、CCDカメラも無く、ヌクレオチドが取り込まれる時の水素イオンのリリースだけを検出してシーケンスする、この方法は画期的だ。
でもまだ製品の詳細は明らかにされていない。　
ここから先は想像だが、この新型シーケンサーは診断用シーケンサーの世界標準を狙っているのではないか。　低価格、低コスト/ラン、短いラン時間、レーザープリンターくらいの小さいサイズ、次世代の中では少ないデータスループット、長い読み取りリード長。　
どれをとっても大量スループットが必要無いラボにはちょうど良い。
あとは、使い勝手の良さ、データの精度、プロトコールの安定性、などが議論になるだろう。
いずれにせよ、まだサンプルデータなるものが無いので、これ以上のことは言わない。

それにしても、SOLiDを導入したラボは、しょっちゅう出されるアップグレードに苦労しているらしい。

2010年11月10日水曜日

SAMファイルをとりあえずビューワーで見る

Bowtieなどのマッピングツールでリード配列をリファレンス配列にマッピングすると、SAM (Sequence Alignment Map)　というフォーマットのファイルができる。

SAMは実際、マッピングファイルの世界標準になりつつある。

サイズは、かなり大きい。　中身を見てどうこうということは無いけど、先ず、リファレンスに使った配列の情報がずらっと並ぶ。　@SQ SNから始まり、LN:の前までの、例えばgi|224589801|ref|NC_000010.10|が、リファレンス配列の名前だ。ちなみにこれはヒト10番染色体。
@HD VN:1.0 SO:unsorted
@SQ SN:gi|224589801|ref|NC_000010.10| LN:135534747
@SQ SN:gi|224589802|ref|NC_000011.9| LN:135006516
@SQ SN:gi|224589803|ref|NC_000012.11| LN:133851895
@SQ SN:gi|224589804|ref|NC_000013.10| LN:115169878
@SQ SN:gi|224589805|ref|NC_000014.8| LN:107349540
@SQ SN:gi|224589806|ref|NC_000015.9| LN:102531392
@SQ SN:gi|224589807|ref|NC_000016.9| LN:90354753
@SQ SN:gi|224589808|ref|NC_000017.10| LN:81195210
@SQ SN:gi|224589809|ref|NC_000018.9| LN:78077248
@SQ SN:gi|224589810|ref|NC_000019.9| LN:59128983
@SQ SN:gi|224589800|ref|NC_000001.10| LN:249250621
@SQ SN:gi|224589812|ref|NC_000020.10| LN:63025520
@SQ SN:gi|224589813|ref|NC_000021.8| LN:48129895
@SQ SN:gi|224589814|ref|NC_000022.10| LN:51304566
@SQ SN:gi|224589811|ref|NC_000002.11| LN:243199373
@SQ SN:gi|224589815|ref|NC_000003.11| LN:198022430
@SQ SN:gi|224589816|ref|NC_000004.11| LN:191154276
@SQ SN:gi|224589817|ref|NC_000005.9| LN:180915260
@SQ SN:gi|224589818|ref|NC_000006.11| LN:171115067
@SQ SN:gi|224589819|ref|NC_000007.13| LN:159138663
@SQ SN:gi|224589820|ref|NC_000008.10| LN:146364022
@SQ SN:gi|224589821|ref|NC_000009.11| LN:141213431
@SQ SN:gi|224589822|ref|NC_000023.10| LN:155270560
@SQ SN:gi|224589823|ref|NC_000024.9| LN:59373566
そしてBowtieのパスが書かれていて、そのあとから、各リード配列のマッピング情報がダーッと書かれるわけ。
1279_2_116_F3 4 * 0 0 * * 0 0 CCGTACGTCGTGGGTAGGGGCNGTGAGTCGCTTCGGGTCGAGGATCTGG =;?89,:4:=2,57-&*'&&/!,)&/.&),49,'1)-)'(,12+//-7) XM:i:0
これは人間が読むわけでは無いので、どうしても意味が知りたいひとはここを参照。
http://samtools.sourceforge.net/SAM1.pdf

さて、このファイルをとりあえずフリーのビューワーで見てみよう。
例として、IGV (Integrative Genomics Viewer)で見てみる。

登録（無料）してからダウンロードする。これはWindowsで動くので敷居が低い！

ところでさっきのSAMファイル、リファレンスの名前がgi|224589801|ref|NC_000010.10| のようになっているが、このままではIGVが認識しない。
ビューワーが認識できる染色体名に変換してあげなくてはいけない。
IGV なら、gi|224589801|ref|NC_000010.10| は、10　に変換する。以下24本の染色体も同じ。
やり方は色々あるだろうが、一番簡単なのは、Perlスクリプトを使って、
perl -pe "s/gi\|224589801\|ref\|NC_000010.10\|/10/g" SD_Agilent_Exome_F3.sam > temp1.sam
perl -pe "s/gi\|224589802\|ref\|NC_000011.9\|/11/g" temp1.sam > temp2.sam
perl -pe "s/gi\|224589803\|ref\|NC_000012.11\|/12/g" temp2.sam > temp.sam
perl -pe "s/gi\|224589804\|ref\|NC_000013.10\|/13/g" temp.sam > temp1.sam
のような置換コマンドを24本分繰り返すと、最終的に全ての染色体名をIGV用の染色体名に置き換えることができる。　こんな感じになった。

@SQ SN:10 LN:135534747
@SQ SN:11 LN:135006516
@SQ SN:12 LN:133851895
@SQ SN:13 LN:115169878
@SQ SN:14 LN:107349540
@SQ SN:15 LN:102531392
@SQ SN:16 LN:90354753
@SQ SN:17 LN:81195210
@SQ SN:18 LN:78077248
@SQ SN:19 LN:59128983
@SQ SN:1 LN:249250621
@SQ SN:20 LN:63025520
@SQ SN:21 LN:48129895
@SQ SN:22 LN:51304566
@SQ SN:2 LN:243199373
@SQ SN:3 LN:198022430
@SQ SN:4 LN:191154276
@SQ SN:5 LN:180915260
@SQ SN:6 LN:171115067
@SQ SN:7 LN:159138663
@SQ SN:8 LN:146364022
@SQ SN:9 LN:141213431
@SQ SN:23 LN:155270560
@SQ SN:24 LN:59373566
さて、そうしてSAMファイルをIGVでも認識できるようにしたら、インストールしたIGVを立ち上げてみよう。
そうしたら、次に、File > Run igvtools... で　IGV tool を起動する。

そこで先ず、さっきのSAMファイルを染色体ごとにソートする。　CommandでSortを選び、リファレンスの名前をIGV用に置き換えたSAMファイルを指定して、Runする。

その次に、インデックスを作成する。同じくIGV tool上にて、CommandでIndexを選び、今ソートした結果ファイルを指定する。
そうすると拡張子　sai のファイルができる。
ここまできたら、さあ、IGVで取り込もう！

File > Load File で、ソート済みのSAMファイルを指定すると、自動的にインデックスファイルも認識されて取り込まれるはずだ。
しかし、最初は何も見えないだろう。　こんな風に

染色体を適当に選んでから、ズームインしてみよう！

こんな感じに見える。

まとめ：　SAMファイルは、ちょっとリファレンスの名前を変更するめんどくささはあるけど、フリーのビューワーでちゃんと見ることができる。

ビューワーについてはまた今度。

2010年10月31日日曜日

BOWTIE マッピングツール　の使い方　2

Bowtie がインストールできてちゃんと動くことを確認した。

マッピングには、インデックスをつけた参照配列が必要だ。
実はBowtieのサイトから、インデックスを付けたゲノム配列を、ダウンロードすることができる。

ここから

塩基配列用のインデックス済みゲノムファイルと、カラースペース用のインデックス済みゲノムファイルの2種類ある。　ファイルサイズが大きいから注意！
ダウンロードしたファイルは圧縮されているから、bowtie のプログラムがあるディレクトリの、indexes ディレクトリの中で解凍しよう。　そうすると.ebwt拡張子のファイルが6つできる。
これがインデックス済みのゲノム配列ファイルだ。

さて、indexes　ディレクトリにインデックス済みゲノム配列ができた。
いよいよbowtieによるマッピングだ。コマンドはbowtie
すべてのパラメータはマニュアルに書いてあるけど、初心者は、
-p CPUのコア数
-C color spaceのとき（デフォルトはfastq）
csfastaファイルの時は、-f でcsfasta、-Qでクオリティファイルを指定する
--sam SAMのフォーマットで出力する
--best 見つかったたくさんのマッチの中で一番ミスマッチが小さいアライメントだけを出す
-1,-2 ペアエンドの時のファイル
これだけ覚えれば大丈夫。

例えば、
bowtie -p 4 --sam -C --best hg19_c -f /(Readファイルがある場所)/val_20090928_2_Agilent_6_Exome_F3.csfasta -Q /(Readファイルがある場所)/val_20090928_2_Agilent_6_Exome_F3_QV.qual ./work/SD_Agilent_Exome_F3.sam

これは、SOLiDのウェブサイトから頂戴したサンプルデータ
val_20090928_2_Agilent_6_Exome_F3.csfasta　と
val_20090928_2_Agilent_6_Exome_F3_QV.qual　を、リードファイルとして、
ダウンロードしてきたインデックスファイル　hg19_c　をリファレンスに使って、
workディレクトリの下に、SAMファイルで出力するコマンド。
インデックスファイルのパスは指定する必要ない。

ちなみにbowtieのウェブサイトからダウンロードできるインデックス済みリファレンスゲノムは、ミトコンドリアのゲノムが含まれている。
染色体の名前は、chr1, chr2,.... となっている。　僕はそれだと使った染色体のアクセッションがわからないので、NCBIから落としてきたゲノム配列を元に、bowtie-build コマンドでインデックスを付けて、リファレンスに使っている。

そう、bowtie には、用意されたインデックス済みゲノム配列を使う以外にも、自分で集めた配列にインデックスを付けて参照配列にすることもできる。
NCBIのゲノムはここ。 ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/Assembled_chromosomes/ ヒトの場合、hg19 は　GRCh37なので、
hs_ref_GRCh37_chr1.fa.gz
とかを、１～X,Yまで、落としてきた。
24本全部のファイルを、1つのFASTAファイルに結合して、参照ゲノムファイルを作った。
そして、例えば
bowtie-build -C /(fastaファイルがある場所)/hs_ref_GRCh37_all.fasta ./indexes/hs_ref_GRCh37_c
（カラースペース用の参照配列をつくるときは　bowtie-build -C って、-C を付ければOK！　ヌクレオチド用なら -Cはいらない）
reference_name　のところは、インデックス済み参照配列の名前になるので任意の名前を付ける。　とにかく、インデックスを付けるのには数時間かかるときもあるので、オーバーナイトで流すのがいい。

hg19 のインデックスファイルでも最初はいいので、自分のデータ、またはNCBIのSRAから落としてきたfastq ファイルなどをとりあえずマッピングしてみよう！
SAMファイルができるはず。
そのSAMファイルは、そのままでは面白くも何ともない。
ここから先は、3次解析になる。
でも、3次解析に移る前に、SAMファイルをちょっといじってみよう。　・・・つづく

2010年10月29日金曜日

BOWTIE マッピングツール　の使い方　１

次世代シーケンサーのデータ解析は、発現解析、メチレーション解析、変異解析、などなどたくさんある。　
良く言われる、１次解析、２次解析、３次解析という定義は、以下の通りだ。
１次解析：　ベースコールなどのリード自体のクオリティチェック。　シーケンサーに付属するソフトが自動的にやってくれることが多い。　デフォルトでOK
２次解析：　リード配列の、参照配列に対してのマッピング。　参照配列は例えばゲノム配列。
３次解析：　マッピングされた情報を元に行う、発現量推定や、メチル化部位の特定、SNPのDetectionなどの解析。
ちなみにデノボアセンブリは参照配列が無いので、１次解析以降のリード配列を使ってアセンブルする。

さて、では、デノボアセンブリ以外の場合、リード配列ファイルを手にしたら先ず行うべきはマッピングだ。　マッピングソフトはここhttp://seqanswers.com/forums/showthread.php?t=43にリストされているように、たくさんある。
有名なフリーのソフトでは、MAQ、Bowtie、BWA、ELAND
ELANDはイルミナシーケンサーのソフトに付属されている。　
Bowtieはカラースペースの配列もヌクレオチド配列も、ペアエンドもマッピングできて、とにかく速い。
MAQはSNP/DIPの検出に優れているらしい。
BWAも引用文献が多いのでそれなりに評価が高い。

結果を比べてみたことは無いけど、僕はBowtieに今はまっているので、今日はそれについて書く。　ちなみに、Bowtieはボウタイと発音する。

Bowtieの文献はここ　http://genomebiology.com/2009/10/3/R25　
ウェブサイトはここ　http://bowtie-bio.sourceforge.net/tutorial.shtml

先ずはプログラムをダウンロード

Latest Release　で問題ないと思う。

僕は64Bit Linuxのサーバーに入れたので、Linux用のバイナリ（上から4つ目）を落としてきた。

インストールは特に問題なく終わると思う。　

Windows版でもインストールは問題なかった。　（僕が64bit Linux に入れた理由は、Human Genomeなどの大きなサイズのデータを扱うからである。　Windowsではどれくらいのサイズのファイルがマッピングできるか、今度試してみる）

さて、インストールができた。
Bowtieのディレクトリには、bowtie プログラムとともに、index フォルダ、genome フォルダ、などがあると思う。
ここで mkdir work などでワークディレクトリを作っておいて、その中にマッピング結果を入れるようにすると便利だ。

Bowtieがちゃんと動くかどうか、先ずチェックをしよう。

bowtie e_coli reads/e_coli_1000.fq

これをコピペしてエンターすると、ずらずらっとリードファイルが表示される　これでOK

bowtie -t e_coli reads/e_coli_1000.fq e_coli.map

これの結果は、こんな感じ

ここに書いてあるのと同じ　http://bowtie-bio.sourceforge.net/tutorial.shtml　

さて次は、いよいよBowtieを使ってマッピングする。　手順は、

１．ゲノム配列をもとにインデックスファイルを作る
２．インデックスファイルに対してマッピングをする
３．SAMファイルができるので、これを編集する

になる。　…　BOWTIE マッピングツール　の使い方　２へつづく

2010年10月23日土曜日

サンプルデータの取得法

次世代シーケンサーの解析を始めたいひとなら、まずサンプルデータを取得することから、始めるかもしれない。　自分の実験データがあるひとでも、解析方法が正しいのか、を確かめるためにはサンプルデータがあると便利だ。

ドライの解析でも「ポジコン」が必要だし、マッピングなどを初めてやるひとも、誰かが出したデータ、それも文献になっている元データがあると便利だろう。　あるいはデータ解析をサービスとしてやるひとなら、色々なフォーマットの配列データをテスト解析してみることは必須になってくると思う。

サンプルデータはどこから取得したら良いか？
NCBIのSRA、Sequence Read Archive からか？　ここは最も有名な、配列デポジットデータベース、だ。　
マイクロアレイのデータを集めたGEO、Gene Expression Omnibus にもシーケンスデータはある。　初めてここを使うひとは、日本語の目次を利用すると良いだろう。　遺伝子発現バンク(GEO)目次はLSDBという文科省傘下の組織？が我々日本人のためにキュレートしてくれている。
ここには、HT (High Throughput)データというタブを開くと、シーケンスデータがある。
さて、GEOは、一番下のSupplementary fileというところ、SRPとかから始まるアクセッションがそのままSRAで使われているアクセッションになるので、GEOから検索してもデータは結局SRAからダウンロードすることになるのだ。

じゃあ、SRAで、試しにSRA008367と検索してみよう。

サンプルごとの名前は、SRXから始まるIDでまとめられている。

Summaryをクリックすると、実験のサマリーが参照できる。これはSRPというIDで管理されている。

1サンプルの中で使われたランはSRRから始まるIDで、右側に見えるのがそうだ。

データはSRRごとにダウンロードされる。

これはペアーエンドのデータなので、ダウンロードは同じSRR IDが2つあるので、2つで1セットだ。

SRAで落とせるデータは全部、bz2という圧縮ファイルで、解凍するとできるのはfastq フォーマット。　

fastqフォーマットは、ほとんどの解析ツールで取り込むことができて、ワールドスタンダードフォーマットと言っても良いだろう。

実際、論文で引用される公共データも、解析ソフトメーカーがデモデータとして使うのも、このSRAから落としてきたfastqフォーマットがほとんど。

で　は　、　

fastq以外の生データはどこから取得したら良いのか？

僕が知っている限り、

1．メーカーのWebSite

2．文献のオーサーが公開している場合

3．メーカーに問い合わせ　（問い合わせればもらえることが結構ある）

の方法がある。　

ここから先は、SOLiDとIlluminaのデータについて、僕が今知っている生データのソースを書く。

新しいのがわかったら随時、追加していきたい。

SOLiDデータのサンプルデータは、旧アプライドバイオシステムズのサイトから取得できる。
http://solidsoftwaretools.com/gf/project/から、～data とか、～dataset とかいう名前をクリックすると、データのダウンロードページにリンクする。
これらのデータは基本的にはメーカーのサポート外なので、使うときは心得ておこう。

Mate-Pairのデータセットが欲しければ「E.Coli DH10B 2X50 Mate-Pair Data Set」
csfastaやqualファイルはもちろん、カバレージファイルやStatsファイル、マッチングファイルは.maとgffなど、BioScopeから出力される必要なデータは全部そろっている。
データ量はそれなりに大きいので注意。
small RNAのデータ「Human Small RNA Data Set」は比較的小さい。といっても解凍すると1GB以上は普通にある。
そのほかにも、Humanのゲノムデータが欲しければ「Human (Yoruban) Data Set」、BiSulfiteの実験データが欲しければ「Bisulfite Data Set」http://solidsoftwaretools.com/gf/project/bisulfite/

そんな中でも注目しているのが、AgilentのSure SelectというEnrichmentキットを使ってHumanのExon部分のみをセレクションし、シーケンスしたという「Targeted Resequencing data set for barcoded samples enriched with Agilent SureSelect 38MB Human All Exon Kit」データセットhttp://solidsoftwaretools.com/gf/project/agilentexome/
ゲノムの中でも遺伝子、さらにメッセンジャーの部位となると、わずか1%のみ。Exonをターゲットにして発現やSNPなどを観測したい場合は、残り99%の場所は無駄なわけで、この1%のExonだけをシーケンスできるようにしたのが、Sure Selectというテクノロジー。単純計算でもカバレージが100倍になるので効率よく複数のサンプルをリシーケンスすることができるのだ。

さて、早速チェックした方の中には、これらのデータの中に、リンク先が無いものがあるのに気づいたかもしれない。
http://solidsoftwaretools.com/gf/project/bisulfite/によれば、以下のFTPから取得できるらしい。
Server ftp1.solidsoftwaretools.com
Username solidanon
Password solidanon1mmoorex
File anonymous/bisulfite/
が、しかし、このフォルダのリンク先は正しくない。データは別のところにある。
僕は見つけたが、メーカーは公表していないのでここに書くことはやめる。でもフォルダをひとつずつ探せば簡単に見つかるだろう。
イルミナデータの場合
イルミナのデータは、メーカーのサイトには見つからない。　ユーザーサイトにはあるかも知れないが、公開サイトにはない。でも、パブリッシュされているものを見つけた。

Targeted next-generation sequencing of a cancer transcriptome enhances detection of sequence variants and novel fusion transcripts　(http://genomebiology.com/2009/10/10/R115)
という文献に使われたデータは、引用32に記載されているWebサイト（Broad Institute）から、アライメント前のSRFフォーマットでダウンロードできる。
これもサイズが結構大きい。　10ギガ、20ギガは余裕で行く。
このデータも、先のAgilent Sure Selectと同様、ターゲットリシーケンスの結果だ。　僕もこれを勉強になるかと思い、利用している。　

別のデータは…　また今度の機会に。　

2010年10月18日月曜日

Genome Analyzer II & HiSeq 2000

イルミナ社の次世代シーケンサーは4種類ある。
世界で一番使われている型の　Genome Analyzer IIx (GAIIx)
汎用型を目指したGAIIx よりちょっと安い Genome Analyzer IIe
最も高性能ハイスループットのHiSeq2000
マイクロアレイのスキャナーと一体型の HiScanSQ

イルミナ社の思想は、「シーケンサーをどのラボでも使えるように」　なので、使いやすさを優先しているようだ。　
できるだけ簡単な操作性、これは正しいと思う。　出てくるデータも塩基配列なので直観的に扱いやすい。　SOLiDのカラースペースと比べるとここは大きい。

Genome Analyzerは世界で最も使われている高速シーケンサーだ。
当然論文数も多いので、この辺はアカデミアの人間には嬉しい、というか安心できるところ。
もともとのテクノロジーはSolexaという会社が考えたもので、フローセル上に固定したフラグメントDNAを、1塩基ずつポリメラーゼ伸長していく。　このときA,T,C,Gの4種類のヌクレオチドとそれぞれ4種類の蛍光色素が1つ、取り込まれ、それ以上は取り込まれない。
リバーシブルターミネーションと言われるその方法で、１つずつポリメラーゼ反応を進めては止め、また進めては止める。　一度の反応で4種類の蛍光＝塩基がCCDカメラで観測される。　（ロッシュ454の場合は1度に1種類の蛍光を観測する）　つまり、50塩基の読み取りには50回の反応が必要になる。

シーケンスとポリメラーゼ反応を同時に行う。　そこで　Seqencing by Synthesis と呼ばれることもある。　ポリメラーゼ反応というわりには、ライゲーション反応のSOLiDと比べると試薬コストが高いように思う。

イルミナのシーケンサーはショートリードであるので、ライバルはSOLiDだ。
リードの精度はどちらも高い。
スループットはSOLiDに軍配が上がるが、どちらも十分高い。
こうなってくるとユーザはどこを基準に選択したら良いのか？
自分で実験するなら、使いやすいかどうか、操作性、ランニングコスト、メーカーサポートの質、を基準にすると思う。　イルミナはこの点に加え、世界中にユーザーが多い、という優位性があるので選ぶ人も多いだろう。

僕の印象だが、イルミナ社はライバルメーカーと比べて若干閉鎖的。　
ユーザーミーティング以外にも、まだユーザーでない一般のひとに対して、あるいはシーケンサーを持っていないのだがプロジェクトの一員であるひとに対して、もう少しオープンにしてくれればうれしい。

なので、僕は必要な情報はWikiなどで得ている。たとえばここ。
http://seqanswers.com/
結構スレッドを立てると、誰か答えてくれるので、不満はない。
ここでも、イルミナのユーザが圧倒的に多いふうに思う。

2010年10月9日土曜日

シーケンサーの種類　- SOLiD

SOLiD　‐　そのままググると、ビジネスコンサル会社とかCAD設計ソフトだとかがひっかかってきてなかなかシーケンサーにはいかない。　SOLiD ABI で引くといい。

Sequence by Oligo Ligation and Detection というユニークな手法のシーケンサーを初めて見たのが2007年の分子生物学会だった。　最初、本当にこんな方法で配列が読めるのかな、って疑問に思ったひとは多かっただろう。　そして、何度聞いても、ツーベースエンコーディングの仕組みを忘れてしまう。
僕が学生の時は、シーケンスといえばサンガー。　これだけ覚えればゲルもキャピラリーも同じだった。　ところが今や、PyrosequenceからSequence by Synthesis、SOLiDと、次々に増えて、そのうち第3世代、第4世代と…ああ、覚えられないよー！

さて、今日はSOLiDに絞る。　理由は、僕が最初に見た第2世代シーケンサーだから。

2010年10月現在の最新機種はSOLiD 4 hq

この表はSOLiD4のもの。　SOLiD4のリンク先
hgはこのバージョンアップ版で、驚くべきはそのスループットで、この表の3倍、最高300ギガベースが1ランで出せるらしい。
ヒトゲノムが30億塩基対、つまり3ギガ。　その100倍だ!!

ついでにライバルのイルミナHighSeq2000はこの通り

最高200ギガを可能にしている。

SOLiD4hqとHighSeq2000、どちらもこれ以上スループットを上げることは厳しいか？　

違いはサンプル調整の最後、DNAフラグメントの増幅方法にある。

SOLiDはエマルジョンPCRといって、ビーズにフラグメントを結合させてPCR増幅を行い、そのビーズごとガラススライドの穴に固定させる。　（引用：Metzker (2010) Nature Reviews Genetics v11, 31）

これはロッシュの454と同じ方法だ。　SOLiDはこのスライドの穴をより高密度にすることで、スループットを上げてきた。

イルミナのGenome Analyzer、HighSeq2000はPCRをスライドの上で行う。　ブリッジ増幅というこの方法が特徴だが、この方法は物理的にスライド上に結合できるフラグメントの数が制限されてしまう。　そこでHighSeq2000では、スライドを2枚に増やし、上下に配置することでスループットを上げた。

さて、話をSOLiDに戻す。　ライフテクノロジーズ社、旧アプライドバイオ社のホームページは、情報の宝庫だ。　ほとんどの資料が無料で手に入る。　たとえ顧客で無くてもだ。

ここから先もそんなものから引用し、編集している。

SOLiDの一番の特徴は、そのシーケンスの方法だ。　ポリメラーゼを用いないとは！

（以下、ライフテック社のホワイトペーパーを元にコメント）

詳細は、メーカーのこのホワイトペーパー　をご覧いただきたい。　ひじょうに細かく、かつ分かりやすく書かれている。
想像するに、SOLiDの方法は発売当初、なかなか世間に受け入れなかったのだろう。　何しろデータがATGCの塩基配列ではなくて、0123の数字なのだから!!　　研究者にとっては扱いにくいことこの上ない。

2年前、ある学会でSOLiDのデータを「信頼に足らない」と言っていたある人がいた。　2年前と言えばまだソフトウェアも未熟で、PCのスペックも低く、そもそもSOLiDの特徴を完全に理解している研究者もいなかったのかもしれない。　その先生の発言力は国内ではそこそこ大きかったので、SOLiDがいまいち使いにくい、という評判が広まってしまった感がある。　しかし、僕の感じる限り、データ解析に関してはそんなことはない。　精度は高いし、スループットも十分だ。　
今はカラースペースの0123情報でも十分扱えるソフトウェアがある。　PCのスペックも上がった。
それに、ここが一番大事だが、ライフテクノロジーズジャパン社の社員は、顧客満足度を上げようと態度で示している。　営業、マーケティング、サポート、と皆、お客さん以外にも親切で、情報公開をしている。　もし、旧アプライドバイオ社にあまりいい印象をもっていないひとがいたら、過去のことは水に流して欲しい。　あまり贔屓にすると関係者じゃあないかと疑われるのでこの辺に。

あと、SOLiDの利点は、ランニングコストが安いこと。　なぜって、インビトロジェン社と合併したおかげで試薬代がほとんどタダになったから。　
今や、ギガベース当たりいくら、っていう価格で比較するとSOLiDがダントツ安い。　パーソナル1000ドルゲノムに達するのもSOLiDが一番かもしれない。

　

2010年10月5日火曜日

実験プロトコルを知る必要性

データ解析をやっていると、時折ふっと思うことがある。
これはそもそも何を見ているのだろう？
自分の研究ならいざ知らず、他人から預かったデータで解析だけを頼まれた場合、実態が分からないことほど、気持が悪いことは無い。

これはドライを専門にやっているひと一般に言える。
実験の本質を知らずに、出されたデータだけをいじくっても良い結果は生まれない。

そこで、実験プロトコールを知っておくことが大事だと思うのだ。
シーケンスでは、例えば全転写解析のデータの場合、Whole transcriptome protocol filetype:pdf などでGoogleれば、SOLiDのプロトコールが簡単に見つかるだろう。
これを読まなくとも、絵を見れば、サマリーをつかむことができる。
先ず、抽出したRNAは、市販のキットを使ってpoly-A付きのメッセンジャーか、リボゾーマルRNAを除いた残りのRNAのいずれかに精製される。
その後の流れは、
RNAを酵素を使って断片化し、サイズを量を測った後、RNAの両端にアダプター配列をライゲーションする。　アダプター配列はプライマーの役割も果たし、そのまま逆転写されて、RNAはcDNAになる。　cDNAは、ゲルに流してサイズが約150-250baseのところで切り取られ、PCR増幅される。　増幅されたcDNAはまたサイズを測って確認、OKなら、このフラグメントをSOLiDのシーケンスプロトコールにのせて読む。

これを知っているのといないのとでは、データ解析に向かう姿勢が全く違う、と思うのは僕だけではないと思う。　「ドライの奴らは実験なんて知らなくても、データを言われた通りに解析すればいいのだ。」と言う、ウェットの連中がたまにいるが、それは違う。　ドライの解析は、特に新しい分野では、実験過程を考慮しながら、解析手順をそれに合わせて変えていく想像力が必要だからだ。　コマンドラインのパラメータ設定のことを言っている。　

実験結果は常に、バイオロジカルなものであれ、テクニカルなものであれ、何らかのかたよりが伴う。　またドライの人間の先入観が、解析過程をじゃまするときもある。　例えば de novo assembleでは、Contigを作るのが目的だから、できるだけ長いContigを作ろうとする。　ずっとゲノムのアセンブルをやっていたドライの担当者が、ある日転写産物のアセンブルを頼まれたらどうだろう。　つい、いつものように長いContigをたくさん作ろうとするかもしれない。　N50を気にして、この値が例えば500を超えるまで、あるいは推定遺伝子数と同じだけのContigができるまで試行錯誤するかもしれない。　転写されていないメッセンジャーは決してContigにならないことに気づくまで。

実験プロトコールを知ることは、ウェットの世界を覗く一番簡単な方法だ。
わからなかったら聞けばよい。　もちろん生化学のバックグラウンドも必要だ。　そしてシーケンスを正しく理解するには、遺伝学、分子生物学、の基礎はしっかりと勉強してキープアップしていかなければだめだ。
ドライの解析なんて、大部分はコンピュータがやってくれるのだから、あわてることは無い。
ウェットの部分をしっかり理解して、それに合ったコマンドのパラメータを選べるようになったら、一人前だと思う。
やたらめったらパラメータを変えて、いい結果がでたらOKというのは、最初の確認ならばいざ知らず、2回目からは止めた方がいい。　

2010年10月3日日曜日

de novo transcriptome という分野

NGSの使われ方のひとつに、de novo transcriptome という分野がある。　これは何かと言うと、リファレンス配列が全く未知の生物の発現解析である。
普通、RNA-Seqは、リファレンス配列(ゲノム配列またはRefSeq配列)があって、これに対してリード配列をマッピングしていく。　そのうえで、マッピングされたリード配列の数を数えて、発現量を推定する。

余談だが「リード配列の数＝発現量」というのは、正確に言うと違う。　リードの数は、転写産物の長さや、シーケンサーから出力された全リード数で補正(Normalize)する必要がある。　RPKMという補正値が、遺伝子ごとの発現量としては一般的で、SOLiDやGAIIに付属するソフトでもこの値で出力することができる。　でも、ディスカバリー目的、例えばエキソンのスプライシングや、未知エキソンの検出、などにはリード数そのものを比較することもある。　むしろ補正はしない方がいいと思う。

さて、話題に戻って de novo transcriptome の話をすると、これはさっきも言った通りリファレンスが無い。　ということは、出てくるデータは転写産物のショートフラグメントだけ！　なので、まず、
1)　リードをアセンブルしてContigを作る
2)　できたContigを転写産物と仮定して、リードをContigにマッピングする
3)　後は普通のRNA-Seqと同じ
という順序になると思う。

データが出てきた後の話だ。
アセンブルは色々あるが、454ならNewbler、SOLiDやGAIIならVelvetのようなアセンブラーを使って行うだろう。
その時のTipは、ミトコンドリアやクロロプラスト由来のRNAが混ざっている場合、その配列にヒットするリードをあらかじめ除いておくと、ゲノム由来のRNAにコンタミするのを防ぐことができる。　

数時間後、めでたくContigができた。　100-mer以上の長さが数百本ある。　これは信じていいのか。　Contigはたくさんできても、それが本当に転写産物なのかは、リファレンス配列が無い時は確かめようがない。　なので、Contigを既知のタンパク質配列に対してBLASTxし、Contigがどれだけ既知の転写産物らしいか、を確かめると良いと思う。
真核生物、哺乳類、植物、など大きなくくりでタンパク質配列を用意して、それに対してBLASTxする。　さて、ここで遺伝子に紐付いたものの中に、保存性が高くてかつ塩基配列が長いものはあるか？　植物ならBIG(binding / ubiquitin-protein ligase/ zinc ion binding)などの遺伝子配列がある程度の長さで取れているか？　これは、アセンブルの精度の基準なると思う。　

この De novo transcriptomeをする場合、使うべきは454のロングリードシーケンサーだろう。　実際に454を使っている文献はいくつかある。
1．Parchman TL. BMC Genomics. 2010 Mar 16;11:180. PMID: 20233449
2．Elmer KR. Mol Ecol. 2010 Mar;19 Suppl 1:197-211. PMID: 20331780
3．Kristiansson E. BMC Genomics. 2009 Jul 31;10:345. PMID: 19646242
どれもモデル生物ではない生物で、発現を見ている。
このうち面白いのが、1の文献で、これはLodgepole pine (P. contorta) のde novo transcriptomeをしている。　このケースでは、先ず464,896本のリードを、すでにゲノム配列がだいたいわかっている近縁種P.taeda の、18,921本のUnigene配列と共にアッセンブルして、めでたく6,601本のContigを得ていた。　近縁種のUnigeneと実験データのリードを混ぜてアセンブルしているのだ！　これはびっくり。　これにより、P.contortaとP.taeda の間で保存されている配列を先に同定できる。　Contigに加わらなかったリードで再びde novo assembleを行い、最終的に57,086本のContigと、およそ24万本のsingletonを得ている。　24万本のSingletonって…、という突っ込みはさておき、この方法は近縁種の遺伝子がある程度分かっているときに有効な手法だろう。

http://atgc-illumina.googlecode.com/...k_090910_D.pdf
をGoogleで検索すると、トップに出てくるのが、レタスのde novo transcriptome
これはIlluminaのGAを使用している。
残念ながらSOLiDでの例はまだ出会っていない。　454と組み合わせての使用例は今後出てくるかもしれないが。

僕の経験では、当たり前かもしれないがショートリードだけでなく、ロングリードと一緒にアセンブルした方が長いContigが多くできやすい。
transcriptomeに関しては、そもそも発現していない遺伝子はリード数が少なく、アセンブルされにくいだろう。　つまりゲノムのアセンブルと違ってContigの数が多ければ良いというわけでもない。

未知の転写産物を調べるというのは、高速シーケンサーならではの使い方なので、今後増えてくると思う。　第3世代なら問題ないかもしれないが、第2世代の機械ではアセンブルという必要があるので、ここは難しくもあり、また僕みたいなデータ解析屋にとってはチャレンジングなテーマでもある。

2010年9月30日木曜日

分子医療の扉を開く　Japan Sequence Forum 2010

今日9月30日は、ライフテクノロジーズジャパンとイルミナジャパンが同じ時間に別の場所でセミナーを行った。　僕は前から登録していたこともあって、ライフテックのこちらに参加した。

「分子医療の扉を開く」とは、ライフテック社の、シーケンサーを医療・診断分野に広げていく戦略があることを意味している。　パーソナルゲノムがいよいよ現実味を帯びてきた今、その方向性は正しい。　
ゲノムまではいかなくとも、SNPレベルで遺伝子テストを行っている会社は多い。　世界的に有名なところではdeCODEme、Gene Planet、Pathway Genomics、23 and Me、がある。　TaqManでタイピングをしていたり、イルミナのSNPアレイを使っていたりと、方法は異なるが、いずれもユーザから送ってもらったサンプル（唾液か頬の内側粘膜）からDNAを抽出し、タグSNPをタイピングして結果をユーザにWebで知らせる。　結果には、例えばがんにかかりやすいかどうか、特定の薬剤の効果・副作用のリスク、生活習慣病へのリスクなどが％でのっている。　価格は5万円から15万円くらい。　ちなみに23 and Meは日本から注文することはできない。（裏技はある）

パーソナルゲノムはまだ、価格が高いので一般できではないが、来年中には20万円くらいにまで下がるかも知れない。　そうなるとシーケンサーの需要が一気に高まるだろう。　僕も20万なら自分のゲノムを読んでみたい。
とは言っても、日本ではまだゲノムや遺伝子に対する理解度が低いので、すぐに診断に使えるとは思えないし、法整備も全く無い状態だ。

パーソナルゲノムで読んだ情報を、うまく「わかりやすい日本語」に翻訳してくれるツールを提供したら売れるかもしれない。　アイデアはいくつかあるんだが・・・。

これは想像だが、イルミナもまた、分子医療・診断を見据えているのだろう。　研究分野だけではは市場が小さすぎる。　それにSNPジェノタイピングの本家だけに、アレイでの遺伝子テストからシーケンサーでのゲノム診断、ということは自然の流れだ。
ロッシュは454の買収当時から、この時が来るのを待っていたのではないか。　天下のロッシュだ。　言わずもがなである。　

さて、今日、初めてライフテックのSOLiD PIを見た。　と言っても外観だけで中身は空。　
印象は「結構でかい」。　縦横高さ、各1mの立方体といった感じ。　キャピラリーシーケンサーより一回り以上でかい！　ロッシュのGS Juniorが小さい印象だったので余計大きく感じた。

2010年9月25日土曜日

シーケンサーの解析ソフト

高速シーケンサーのデータ解析には、言うまでもなくバイオインフォマティクスの助けが必要だ。　マイクロアレイならエクセルで全データを表示できなくもないが、リード配列（シーケンサーから出力されるデータ配列）はそうはいかない。
大きく分けて、
1)デノボアセンブリ
2)リファレンスマッピング後の解析

に分かれるかと思う。　デノボアセンブリはゲノムプロジェクトに代表されるように、新規にゲノム配列を決定するようなもの。
リファレンス（参照）配列がわかっていれば、その配列に対してリード配列をマッピングする（アライメントする）ことで、リシーケンス、SNP探索、発現解析、エピゲノム解析、などができる。

このように、高速シーケンサーがあれば色んな解析ができるわけで、すべての解析メニューを網羅するオールインワンのソフトはあるのだろうか？

ユーザーが試すソフトは次の3種類だ。
1)シーケンサー機器に付属するソフト
2)Rや、アカデミアが開発したフリーのソフト
3)コマーシャル開発の有償ソフト

1)は、454ならアセンブラーのNewbler, IlluminaはCasavaやEland, SOLiDはBioScopeなど、メーカーが提供するソフトは、そのメーカーのデータに最適に作られている。が、別メーカーのデータには対応しない。というか保証しない。　ちなみに僕の経験では、454のアセンブルはNewblerに勝るアセンブラーは無い。

2)は、次にユーザーが試すだろう。　そして挫折するだろう。
今、シーケンサーの解析はとてもユーザーフレンドリーとは言えない。
先ず、高性能マシンやクラスターサーバーが必要、そしてLinuxをインストールした後、そのツールをインストール（大抵ここで躓く）、そのあとコマンドラインの習得、そしてやっと結果を出力。　ここまで一研究者にどれくらいの壁があることか。
でも、もしあなたがバイオインフォマティシャンだったら、もちろん挑戦したくなるだろう。
僕もそんな一人だ。
フリーのツールは、解析の種類ごとにかなりユニークなものがあるので、試してみると面白い。

3)は、バイオインフォマティシャンがいなく、自分もITに弱い、という研究室の先生、あるいはバイオインフォマティシャンはいるけれど、フリーのツールは使いづらい、と実感している先生や製薬会社の研究員、が選ぶだろう。
製薬会社が好きなのは、カスタマイズができる有償ソフトだ。　自社のデータベースにアクセスしたり、自社で開発したツールにデータを流せたり、そういう自由度が高いソフトなら、数百万出しても買うだろう。
大学はそこまでしないかもしれない。　人を新たに雇うより、ある程度やってくれるソフトを買ったほうが安く済む。　アカデミック価格も魅力かもしれない。

さて、そんな有償ソフトで良く使われているのは何か？　ここに記事があった。

有名どころはCLC-Bio(商品名：GenomicsWorkbench), Geospiza(GeneSifter), SoftGenetics(NextGene)。これらはどれも試してみたが、一長一短という感じ。
もちろん完璧なソフトウェアなど無い。　でもトライアルは無料なので、自分のやりたい解析の費用対効果を考えて、一度使ってみることをお勧めする。
僕も今は1つを使っている。

およそ15年前、Windows3.1から95になった時、その使いやすさに驚いた記憶がある。
CLC-BioやGeneSifter、NextGeneに最初に触れた時も、これに近い感覚があった。と言えば大げさか。　プラグアンドプレイですぐシーケンサーデータの解析ができるのがフリーツールとの大きな違い。　当たり前かも知れないけど。

シーケンサーの有償解析ソフトは、突きつめると
1)アセンブリ
2)リファレンスマッピング
3)リファレンスマッピング後のリードカウンティングと統計計算
4)遺伝子のアノテーションやGO解析
のメニューに分かれるのだが、はっきり言ってアルゴリズムに差はほとんどなく、使い勝手で差をつけているのが現実。
また、最新の研究テーマに即した解析メニューは、まだ無いことが多い。　バージョンアップに期待しよう。

上記1から4までの解析メニューをすべて網羅するのは難しいか。　CLC-Bio, GeneSifter, NextGene もそれぞれ、このうち3つくらいをカバーする。

さて話は変わるが、データをクラウド(ネット上のソフト)で処理しようという話も最近出てきた。
まだ確かではないが、Google、IBM、Oracleなどがこの分野に進出しようとしているらしい。　将来のパーソナルゲノム時代を見据えた、データストレージの重要をカバーしようとしているのだろう。　日本企業にも是非、頑張ってもらいたい。

シーケンサーの種類　1分子シーケンサー

今(2010年9月)の高速シーケンサーは第2世代と呼ぶ人もいる。「次世代」という言い方は古くなってきた。
454もSOLiDもGenome Analyzerも、第2世代のシーケンサーだ。
エマルジョンPCRとか、ブリッジPCRとか、基本的に増幅した配列の「束」を読んでいる。　ここにPCRバイアスという問題がある。　増幅しやすい配列、しにくい配列、PCRのミス、これらのアーティファクトを取り除くことができない。
理研のオミクス研ではCAGEという方法で転写開始点からの配列を定量的に測るため、Helicosの1分子シーケンサーを導入している。日本で唯一か？　
ちなみにこのHelicosという会社は、昨年から経営の建て直しに必死だ。　今年もかなり大規模にリストラをしているそうな。人材はどこに流れたか？　

1分子シーケンサーとは、文字通り1分子を読むので転写産物の正確な量がわかる。　そして長く読める。らしい。　ところが1分子を読んでる途中で失敗するとこの分子は絶対読めない。ここが欠点だ。　
PCRで増幅していれば1分子の読みに失敗しても、増幅した残りが読めれば問題ない。　
でも、欠点があったとしても、「増幅しない」からこそ、生命現象の真の（真に近い）姿を観察できるのが大きな強みだ。

2年前からPacific BiosciencesのTrue Single Molecule Sequencingが話題になっていたが、まだ完全な製品化はされていない。今月の15日までに7台がに「限定的」リリースされたらしい。　ちなみにPacBioはIPOによって2億ドル取得を目指しているらしい。どうだろうか。ここ

1分子シーケンサーは第3世代とも呼ばれる。　
蛍光検出以外の方法で配列を読む技術を第4世代と呼ぶ、らしい。
ライフテックは先月、第4世代の技術を持つIon Torrentを7億2500万ドル（うちキャッシュで3億7500万ドル）という巨額で買収した。　この金額は高すぎるという批判があるようだが、ライフテックにとってこの技術は、パーソナルゲノムマーケットで勝ち残るために喉から手が出るほど欲しかったのだろう。　CEOは強気だ。
ところでIon Torrentのシーケンス技術は、DNAポリメラーゼによってヌクレオチドが取り込まれる際、放出される水素イオンを検出することで塩基を読み取る。　レーザーも、CCDカメラも、ラべリングも不要だ。　ラン時間もわずか4時間に短縮されるらしい。

イルミナも負けていない。　確かなことは不明だが、別の第4世代シーケンサー企業、Oxford Nanopore Technologies に投資しているらしい。

これら1分子シーケンサーは今後2，3年で世に出てくるだろう。　そのころはどうなっているか。　想像するだけでわくわくする。　機器の進化に研究者の頭がついていかないだろう。　きっと。

2010年9月23日木曜日

シーケンサーの種類　まず簡単にちょっと

ライフテック、イルミナ、ロッシュ、この3社で日本の高速シーケンサーの市場を独占していると言ってもいいだろう。　あと理研にはヘリコス(Helicos)のHeliscopeがある。

販売戦略としては、ライフテック、イルミナ、ロッシュの3社には共通点があり、大型の高性能マシンと、小型の汎用マシン　という2種類のラインアップを用意している。
2010年9月の時点では、ライフテックは最新バージョンの高性能マシンSOLiD 4Hqと、近日リリース予定の汎用マシン SOLiD PIを揃えている。
イルミナは最高機種のHighSeq2000, 世界で最も使用されているGenome Analyzer IIx, IIxより低価格でスループットは若干落ちる IIe, アレイスキャナーがついているHiScanSQの4機種がある。
ロッシュは今までの454 FLXに対し、1,500万円台で買えるGS Juniorをリリース、今月大体的にセミナーを開催していた。
汎用マシン、SOLiD PIとGS Juniorはベンチトップ型。　GS Juniorはシーケンサーと解析サーバーも付いてこの価格は安いか。ちなみにSOLiD PI は日本リリースはまだだが、23万ドルくらいだろう。

シーケンサーのデータ量、マッパブルリードの数、などの正確な数はメーカーのサイトを確認していただくとして、特徴は各メーカーが採用しているテクノロジーに依存する。

ライフテックは、SOLiD: Sequencing by Oligo Ligation Detection　の名前の通り、ポリメラーゼではなく、ライゲースを使って配列を読む。　それより大切なことは、出力データはATGCの塩基配列ではなく、4色のカラースペースを0,1,2,3の数字に変換した数列だということ。　そして1つの数字は2つの塩基に対応するということ。　カラースペースに関しては別途、書くとして、そのような数字の配列が、あたかも塩基配列のようにMulti-FASTA形式で出力されるのがSOLiDの特徴。
で、SOLiDのリードは、短い。　長くても50-merくらいがクオリティの限度だという。
短さの欠点は、ハイスループットでカバーするので、読めている場所のクオリティは高い。
しかし、読めない箇所も多い。　ショートリピートやInDelに弱い。　ということは、SOLiDの得意なところは、配列がわかっている箇所のリシーケンス、あるいはマッピングで、特に、SNPの検出、発現の解析、に威力を発揮する。　反対に、リファレンス配列が無い時の解析は非常に難しい。
余談だが、SOLiD PIはカラースペース以外に塩基配列も出力するらしい。
また先日、第3世代のシーケンサー、1塩基シーケンサーを来年リリースすると発表した。　今年の分子生物学会に、公開しないかなあ。

イルミナはSolexaのSequence by Synthesisというテクノロジーを使って、1塩基ずつ読んでいる。　これは塩基配列が出力される。　しかしこのリードも短い。　
長所・短所はSOLiDと同じだが、Genome Analyzer を使用した論文が多いので、その分使う側にとっては情報が得やすくて良いだろう。
イルミナは現時点では圧倒的なシェアを誇っているが、将来のことはわからない。　恐らくライフテックと同様、1塩基シーケンサーに手を出すのではないか。　資金も潤沢だし、ナノポアテクノロジーなどの会社を買収してもおかしくない。
今は、イルミナの以前からの技術であるマイクロアレイとの共存を推し進めている気がする。
イルミナは歴史的に、SNPアレイが強い。　ジェノタイピングやマーカー探索にまずシーケンサーで新規なものを探し、アレイで大規模に確認するというプロトコールを考えているのか。

ロッシュの454（GS Juniorを含む）は、Pyrosequencingという方法を採用していて、これはAAAAAとかGGGGGとか同じ塩基が連続するときにその数を間違えやすい、という欠点がある。　しかし、400-mer以上を安定して読める高速シーケンサーは、今のところロッシュの454のみ。　これは大きなアドバンテージで、デノボシーケンスには欠かせない。　発現解析にも、エキソンスプライシングを検出するには不可欠だ。
ロッシュは長いリードを読めることが武器だ。　汎用マシンをリリースしたことで、今のラボのサーマルサイクラーくらいにまで、一般的な機器にしたいのだろう。　価格がもうひと桁落ちればそれも不可能ではない。

2010年9月20日月曜日

高速シーケンサーの使われ方 3

他の人がどのような使い方をしているのか、を知るにはメーカーの主催するセミナーに行くのが良い。　もちろんメーカーのマシンを使ってある程度の結果を出しているので、講演者はそのメーカーをよいしょする。　ちょっとその辺がウットオシイから、嫌う人も多い。　

ライフテック、イルミナ、ロッシュ、のシーケンサーメーカーは年に数回行っている。　今年はシーケンサーが導入されて間もないせいか、講演者もだいたい決まっていて、同じテーマを数回聞いたこともあった。　例えば東大柏キャンパスの服部先生のチーム。　「腸内細菌メタゲノム」のテーマで、これは昨年も聞いた。　メタゲノムは大規模な研究で、予算取りは大変だと思う。　これについては別に書く。

今月は、ライフテック主催のシーケンサーフォーラムが30日に東京で行われる。　これは結構期待している。　僕もSOLiDを使っているので、こういうときにメーカーの人と話せるのはすごく良い。　

それぞれのシーケンサーが、どのような使い方をされているのかを知るには、学会ももちろん良いだろう。　学会ではメーカーに気を使うことなく、中立な立場でメーカーの批判もできる。
批判は善し悪しで、僕は無視するようにしている。
メーカーの人に後で聞けば、その批判は間違っていることがあるからだ。
具体的に書くとその人が特定されてしまうのでやめるが、その人はデータ量の多さとクオリティの低いデータの数を批判していた。

日本では、農業分野の応用が少ない。　農業国、オーストラリアやカナダ、アメリカではとてもさかんである。　日本は農業に予算が付かないのか。
糖尿病などの生活習慣病、がん、遺伝病などには予算が付きやすいのに。
ではこのような分野に、高速シーケンサーはどのように使われているのだろうか。

2010年9月19日日曜日

高速シーケンサーの使われ方　2

現在の高速シーケンサーは、単にシーケンス（配列）を読むだけの機械にとどまらない。
ひとつの同じ機械を使って、発現の情報、タンパク質―DNAの結合情報、ゲノム配列の詳細情報を観測することができる。

発現の情報とは、たとえば
1)これまでマイクロアレイで行われてきたような発現量の観測
2)ジャンクションアレイやエキソンアレイで行われているようなエキソンスプライシングの観測
3)CAGEのような転写開始点の量的観測
4)異なる染色体をまたぐような転写産物・Fusion Transcriptsの観測
5)遺伝学的なAllelic Imbalanceと、発現量の関係を観測
などがある。

タンパク-DNA結合情報は、
1)ChIP-on-Chipなどで行われてきたような転写因子の結合領域の観測
2)ゲノムのメチレーションやアセチレーション箇所の観測
（実は、僕はこの辺はあまり詳しくない。）

ゲノムの詳細解析については、リシーケンスがまず挙げられる。これは既知のゲノムに対してもう一度自分のサンプルを読んでみて、リファレンスゲノムというものとどれくらい差異があるかを見ているのだ。
1)人種間や個人間のゲノム上の、ごくわずかな差を検出するSNPやInDel解析
2)遺伝子のコピー数を検出するCNV解析
3)特定の配列の正確な数を検出するDNA頻度解析

こういった解析方法を組み合わせて、実験によっては一度にいくつものことが同時に検出できる所に、高速シーケンサーの魅力がある。

しかし当然、新しい技術の導入には、困難が立ちはだかる。

学会などで、教授や所長といった肩書の偉ーい先生方の講演を聞くと、必ずと言っていいほど、高速シーケンサーのデータ解析の難しさが話題に出る。
でも、実際に手を動かしているのは、ポスドクや助手クラスの人間なんだろうから、どれほど「難しさ」を実感しているかは怪しい。
まさか、Linuxコマンドを使うことを「難しい」と言っているのではあるまい。そんなんだったら日本のアカデミアのレベルを疑われるので、絶対に国際学会では言わないで！

こういう偉ーい先生方は、過去に偉業を成した大先生で、予算がガッポリ付いているのでシーケンスし放題だ。
ここから先は想像だが、こういう先生方は、聴衆に「俺らのやってる研究は、生半可な技術ではできないぞ！　高額な機器があっても、ノウハウが無いと解析できないぞ！」と訴えて、聞いている人、これからシーケンスをやろうとしている人に、「俺らに聞きに来れば教えてやるけどな」という風に持っていきたいのかも知れないーーというのは冗談、冗談！

データ量が半端でないのは確かだが、イコール解析が大変・難しいということにはならない。
古い考え？の大先生には、出したデータは必ず何らかの意味があり、意味が無いデータを出すことを許さない方がいらっしゃるかもしれない。　が、それは高速シーケンサーにおいては間違っている。　マイクロアレイでもそうだろうが、ノイズは思い切って捨てる。
高速シーケンサーでも、使えるデータが10分の1にも満たないことは良くあるゾ。
解析手段も、こうした大先生に良くあるのが、フリーのソフトにこだわることだ。
フリーのソフトは、ほとんどが海外のアカデミア機関によって開発されており、Linuxベースであることが多い。　権威に弱いのか、MITとかSanger研究所とか、そういう所の開発したフリーソフトを使いたがる。　
なぜか、市販のソフトを買うことはしない。　なぜだ？　サポートも付いてるし、WindowsのGUIも良くできているのに。　価格だって高くても100万円くらいだ。　シーケンサーの数千万―数億に比べれば大したことない。
まあ、市販のソフトは解析にいろいろ限界があって、やりたいこと全部はできないのかも知れないけど。

本題からずれてきたので、この辺で止める。
実際、バイオインフォマティシャンが2、3人いれば大体の解析はできる。
これから、そういうケースを紹介していこうと思う。

2010年9月18日土曜日

高速シーケンサーの使われ方　1

生命科学関係の学会に行くと、必ずあるのが次世代、あるいは高速シーケンサーの現状と今後の展望、といったテーマのシンポジウムやセミナー。
大きなものでは、バイオエキスポ、12月の分子生物学会。　あとは癌学会や人類遺伝学会など。
また、口頭発表でも高速シーケンサーを使った研究結果がようやくちらほら出てき始めた。

現在、日本には何台の高速シーケンサーが導入されているのだろうか。
大学では旧帝大を始めとする国公立大学はもちろん、私大でも医学部があるところには、昨年度かなりの数が導入されている。イルミナのGenome Analyzer (以下GA)、ライフテックのSOLiDがそれぞれ数十台入ったと言われている。
研究所では、理化学研究所、沖縄科学技術振興センター、産業技術総合研究所、遺伝学研究所に数台、しかし最新式のマシンが導入されている。恐らく、理研は日本で最もたくさんのシーケンサーを揃えているだろう。とは言っても、欧米やアジアのようにまとまったゲノムセンターが無いので、多く見積もっても全体で20台くらいではないか。
北京ゲノム研究所ひとつで128台の高速シーケンサーがあるのとは雲泥の差だ。

では、企業ではどうか？
実験受託をサービスとしているタカラバイオ社にはシーケンスマシンがあって、実際に実験をしている。サービス会社の中には実験をよそに委託している所もあるので、他社はわからない。
製薬企業なども、持っているところはある。

SOLiDとGAは、短いリードをたくさん出力する。
一方ロッシュの454は、比較的長いリードを出力する。
細かい数字は別に挙げるが、短いとは25、50、80塩基のことで、長いとは約400塩基のこと。
SOLiD, GAは数千万から数億本のリードを出力し、454は数十万から数百万本のリードを出す。

454は最初の「次世代」高速シーケンサーと言われ、リード長が長いのでデノボシーケンス(未知の配列決定)に用いられてきた。良く使われたのは、微生物ゲノムのデノボシーケンス。今でも多くの大学で、特に農学部などで土壌菌や麹菌、産業用植物などのゲノム配列決定に使われている。　
またゲノム配列がほぼ決定している種では、SOLiDやGAなどのショートリード・大量データのシーケンサーを使って、遺伝子の発現・トランスクリプトーム解析、SNP探索などをしている大学もある。
タンパク質-DNAインターアクション解析やメチレーション解析は、小規模ながら、医学部などでやっていると聞く。

大学の場合、シーケンサーは実験機器であるので、予算が付く。　メーカーもここぞとばかりに営業合戦をかける。　
そして大量データを解析・保存するために必要な高性能コンピュータにも予算が付く。　システム設計会社もこれに食いついて予算争奪戦が始まる。

ここから先は私の想像だが、シーケンサーを買ってしまった大学の、かなりの所が、その運用に困っているのではないか。
一回の実験に数十万～数百万円かかる試薬の高さはさることながら、大量データを扱うノウハウも人材もない。　特に、中小の規模の大学ではそうである。