2010年9月30日木曜日

分子医療の扉を開く Japan Sequence Forum 2010

今日9月30日は、ライフテクノロジーズジャパンとイルミナジャパンが同じ時間に別の場所でセミナーを行った。 僕は前から登録していたこともあって、ライフテックのこちらに参加した。

「分子医療の扉を開く」とは、ライフテック社の、シーケンサーを医療・診断分野に広げていく戦略があることを意味している。 パーソナルゲノムがいよいよ現実味を帯びてきた今、その方向性は正しい。 
ゲノムまではいかなくとも、SNPレベルで遺伝子テストを行っている会社は多い。 世界的に有名なところではdeCODEmeGene PlanetPathway Genomics23 and Me、がある。 TaqManでタイピングをしていたり、イルミナのSNPアレイを使っていたりと、方法は異なるが、いずれもユーザから送ってもらったサンプル(唾液か頬の内側粘膜)からDNAを抽出し、タグSNPをタイピングして結果をユーザにWebで知らせる。 結果には、例えばがんにかかりやすいかどうか、特定の薬剤の効果・副作用のリスク、生活習慣病へのリスクなどが%でのっている。 価格は5万円から15万円くらい。 ちなみに23 and Meは日本から注文することはできない。(裏技はある)

パーソナルゲノムはまだ、価格が高いので一般できではないが、来年中には20万円くらいにまで下がるかも知れない。 そうなるとシーケンサーの需要が一気に高まるだろう。 僕も20万なら自分のゲノムを読んでみたい。
とは言っても、日本ではまだゲノムや遺伝子に対する理解度が低いので、すぐに診断に使えるとは思えないし、法整備も全く無い状態だ。

パーソナルゲノムで読んだ情報を、うまく「わかりやすい日本語」に翻訳してくれるツールを提供したら売れるかもしれない。 アイデアはいくつかあるんだが・・・。

これは想像だが、イルミナもまた、分子医療・診断を見据えているのだろう。 研究分野だけではは市場が小さすぎる。 それにSNPジェノタイピングの本家だけに、アレイでの遺伝子テストからシーケンサーでのゲノム診断、ということは自然の流れだ。
ロッシュは454の買収当時から、この時が来るのを待っていたのではないか。 天下のロッシュだ。 言わずもがなである。 

さて、今日、初めてライフテックのSOLiD PIを見た。 と言っても外観だけで中身は空。 
印象は「結構でかい」。 縦横高さ、各1mの立方体といった感じ。 キャピラリーシーケンサーより一回り以上でかい! ロッシュのGS Juniorが小さい印象だったので余計大きく感じた。

2010年9月25日土曜日

シーケンサーの解析ソフト

高速シーケンサーのデータ解析には、言うまでもなくバイオインフォマティクスの助けが必要だ。 マイクロアレイならエクセルで全データを表示できなくもないが、リード配列(シーケンサーから出力されるデータ配列)はそうはいかない。
大きく分けて、
1)デノボアセンブリ
2)リファレンスマッピング後の解析

に分かれるかと思う。 デノボアセンブリはゲノムプロジェクトに代表されるように、新規にゲノム配列を決定するようなもの。
リファレンス(参照)配列がわかっていれば、その配列に対してリード配列をマッピングする(アライメントする)ことで、リシーケンス、SNP探索、発現解析、エピゲノム解析、などができる。

このように、高速シーケンサーがあれば色んな解析ができるわけで、すべての解析メニューを網羅するオールインワンのソフトはあるのだろうか?

ユーザーが試すソフトは次の3種類だ。
1)シーケンサー機器に付属するソフト
2)Rや、アカデミアが開発したフリーのソフト
3)コマーシャル開発の有償ソフト

1)は、454ならアセンブラーのNewbler, IlluminaはCasavaやEland, SOLiDはBioScopeなど、メーカーが提供するソフトは、そのメーカーのデータに最適に作られている。が、別メーカーのデータには対応しない。というか保証しない。 ちなみに僕の経験では、454のアセンブルはNewblerに勝るアセンブラーは無い。

2)は、次にユーザーが試すだろう。 そして挫折するだろう。
今、シーケンサーの解析はとてもユーザーフレンドリーとは言えない。
先ず、高性能マシンやクラスターサーバーが必要、そしてLinuxをインストールした後、そのツールをインストール(大抵ここで躓く)、そのあとコマンドラインの習得、そしてやっと結果を出力。 ここまで一研究者にどれくらいの壁があることか。
でも、もしあなたがバイオインフォマティシャンだったら、もちろん挑戦したくなるだろう。
僕もそんな一人だ。
フリーのツールは、解析の種類ごとにかなりユニークなものがあるので、試してみると面白い。

3)は、バイオインフォマティシャンがいなく、自分もITに弱い、という研究室の先生、あるいはバイオインフォマティシャンはいるけれど、フリーのツールは使いづらい、と実感している先生や製薬会社の研究員、が選ぶだろう。
製薬会社が好きなのは、カスタマイズができる有償ソフトだ。 自社のデータベースにアクセスしたり、自社で開発したツールにデータを流せたり、そういう自由度が高いソフトなら、数百万出しても買うだろう。
大学はそこまでしないかもしれない。 人を新たに雇うより、ある程度やってくれるソフトを買ったほうが安く済む。 アカデミック価格も魅力かもしれない。

さて、そんな有償ソフトで良く使われているのは何か? ここに記事があった。

有名どころはCLC-Bio(商品名:GenomicsWorkbench), Geospiza(GeneSifter), SoftGenetics(NextGene)。これらはどれも試してみたが、一長一短という感じ。
もちろん完璧なソフトウェアなど無い。 でもトライアルは無料なので、自分のやりたい解析の費用対効果を考えて、一度使ってみることをお勧めする。
僕も今は1つを使っている。

およそ15年前、Windows3.1から95になった時、その使いやすさに驚いた記憶がある。
CLC-BioやGeneSifter、NextGeneに最初に触れた時も、これに近い感覚があった。と言えば大げさか。 プラグアンドプレイですぐシーケンサーデータの解析ができるのがフリーツールとの大きな違い。 当たり前かも知れないけど。

シーケンサーの有償解析ソフトは、突きつめると
1)アセンブリ
2)リファレンスマッピング
3)リファレンスマッピング後のリードカウンティングと統計計算
4)遺伝子のアノテーションやGO解析
のメニューに分かれるのだが、はっきり言ってアルゴリズムに差はほとんどなく、使い勝手で差をつけているのが現実。
また、最新の研究テーマに即した解析メニューは、まだ無いことが多い。 バージョンアップに期待しよう。

上記1から4までの解析メニューをすべて網羅するのは難しいか。 CLC-Bio, GeneSifter, NextGene もそれぞれ、このうち3つくらいをカバーする。


さて話は変わるが、データをクラウド(ネット上のソフト)で処理しようという話も最近出てきた。
まだ確かではないが、Google、IBM、Oracleなどがこの分野に進出しようとしているらしい。 将来のパーソナルゲノム時代を見据えた、データストレージの重要をカバーしようとしているのだろう。 日本企業にも是非、頑張ってもらいたい。

シーケンサーの種類 1分子シーケンサー

今(2010年9月)の高速シーケンサーは第2世代と呼ぶ人もいる。「次世代」という言い方は古くなってきた。
454もSOLiDもGenome Analyzerも、第2世代のシーケンサーだ。
エマルジョンPCRとか、ブリッジPCRとか、基本的に増幅した配列の「束」を読んでいる。 ここにPCRバイアスという問題がある。 増幅しやすい配列、しにくい配列、PCRのミス、これらのアーティファクトを取り除くことができない。
理研のオミクス研ではCAGEという方法で転写開始点からの配列を定量的に測るため、Helicosの1分子シーケンサーを導入している。日本で唯一か? 
ちなみにこのHelicosという会社は、昨年から経営の建て直しに必死だ。 今年もかなり大規模にリストラをしているそうな。人材はどこに流れたか? 

1分子シーケンサーとは、文字通り1分子を読むので転写産物の正確な量がわかる。 そして長く読める。らしい。 ところが1分子を読んでる途中で失敗するとこの分子は絶対読めない。ここが欠点だ。 
PCRで増幅していれば1分子の読みに失敗しても、増幅した残りが読めれば問題ない。 
でも、欠点があったとしても、「増幅しない」からこそ、生命現象の真の(真に近い)姿を観察できるのが大きな強みだ。

2年前からPacific BiosciencesのTrue Single Molecule Sequencingが話題になっていたが、まだ完全な製品化はされていない。今月の15日までに7台がに「限定的」リリースされたらしい。 ちなみにPacBioはIPOによって2億ドル取得を目指しているらしい。どうだろうか。ここ

1分子シーケンサーは第3世代とも呼ばれる。 
蛍光検出以外の方法で配列を読む技術を第4世代と呼ぶ、らしい。
ライフテックは先月、第4世代の技術を持つIon Torrentを7億2500万ドル(うちキャッシュで3億7500万ドル)という巨額で買収した。 この金額は高すぎるという批判があるようだが、ライフテックにとってこの技術は、パーソナルゲノムマーケットで勝ち残るために喉から手が出るほど欲しかったのだろう。 CEOは強気だ。
ところでIon Torrentのシーケンス技術は、DNAポリメラーゼによってヌクレオチドが取り込まれる際、放出される水素イオンを検出することで塩基を読み取る。 レーザーも、CCDカメラも、ラべリングも不要だ。 ラン時間もわずか4時間に短縮されるらしい。

イルミナも負けていない。 確かなことは不明だが、別の第4世代シーケンサー企業、Oxford Nanopore Technologies に投資しているらしい。

これら1分子シーケンサーは今後2,3年で世に出てくるだろう。 そのころはどうなっているか。 想像するだけでわくわくする。 機器の進化に研究者の頭がついていかないだろう。 きっと。

2010年9月23日木曜日

シーケンサーの種類 まず簡単にちょっと

ライフテック、イルミナ、ロッシュ、この3社で日本の高速シーケンサーの市場を独占していると言ってもいいだろう。 あと理研にはヘリコス(Helicos)のHeliscopeがある。

販売戦略としては、ライフテック、イルミナ、ロッシュの3社には共通点があり、大型の高性能マシンと、小型の汎用マシン という2種類のラインアップを用意している。
2010年9月の時点では、ライフテックは最新バージョンの高性能マシンSOLiD 4Hqと、近日リリース予定の汎用マシン SOLiD PIを揃えている。
イルミナは最高機種のHighSeq2000, 世界で最も使用されているGenome Analyzer IIx, IIxより低価格でスループットは若干落ちる IIe, アレイスキャナーがついているHiScanSQの4機種がある。
ロッシュは今までの454 FLXに対し、1,500万円台で買えるGS Juniorをリリース、今月大体的にセミナーを開催していた。
汎用マシン、SOLiD PIとGS Juniorはベンチトップ型。 GS Juniorはシーケンサーと解析サーバーも付いてこの価格は安いか。ちなみにSOLiD PI は日本リリースはまだだが、23万ドルくらいだろう。

シーケンサーのデータ量、マッパブルリードの数、などの正確な数はメーカーのサイトを確認していただくとして、特徴は各メーカーが採用しているテクノロジーに依存する。

ライフテックは、SOLiD: Sequencing by Oligo Ligation Detection の名前の通り、ポリメラーゼではなく、ライゲースを使って配列を読む。 それより大切なことは、出力データはATGCの塩基配列ではなく、4色のカラースペースを0,1,2,3の数字に変換した数列だということ。 そして1つの数字は2つの塩基に対応するということ。 カラースペースに関しては別途、書くとして、そのような数字の配列が、あたかも塩基配列のようにMulti-FASTA形式で出力されるのがSOLiDの特徴。
で、SOLiDのリードは、短い。 長くても50-merくらいがクオリティの限度だという。
短さの欠点は、ハイスループットでカバーするので、読めている場所のクオリティは高い。
しかし、読めない箇所も多い。 ショートリピートやInDelに弱い。 ということは、SOLiDの得意なところは、配列がわかっている箇所のリシーケンス、あるいはマッピングで、特に、SNPの検出、発現の解析、に威力を発揮する。 反対に、リファレンス配列が無い時の解析は非常に難しい。
余談だが、SOLiD PIはカラースペース以外に塩基配列も出力するらしい。
また先日、第3世代のシーケンサー、1塩基シーケンサーを来年リリースすると発表した。 今年の分子生物学会に、公開しないかなあ。

イルミナはSolexaのSequence by Synthesisというテクノロジーを使って、1塩基ずつ読んでいる。 これは塩基配列が出力される。 しかしこのリードも短い。 
長所・短所はSOLiDと同じだが、Genome Analyzer を使用した論文が多いので、その分使う側にとっては情報が得やすくて良いだろう。
イルミナは現時点では圧倒的なシェアを誇っているが、将来のことはわからない。 恐らくライフテックと同様、1塩基シーケンサーに手を出すのではないか。 資金も潤沢だし、ナノポアテクノロジーなどの会社を買収してもおかしくない。
今は、イルミナの以前からの技術であるマイクロアレイとの共存を推し進めている気がする。
イルミナは歴史的に、SNPアレイが強い。 ジェノタイピングやマーカー探索にまずシーケンサーで新規なものを探し、アレイで大規模に確認するというプロトコールを考えているのか。

ロッシュの454(GS Juniorを含む)は、Pyrosequencingという方法を採用していて、これはAAAAAとかGGGGGとか同じ塩基が連続するときにその数を間違えやすい、という欠点がある。 しかし、400-mer以上を安定して読める高速シーケンサーは、今のところロッシュの454のみ。 これは大きなアドバンテージで、デノボシーケンスには欠かせない。 発現解析にも、エキソンスプライシングを検出するには不可欠だ。
ロッシュは長いリードを読めることが武器だ。 汎用マシンをリリースしたことで、今のラボのサーマルサイクラーくらいにまで、一般的な機器にしたいのだろう。 価格がもうひと桁落ちればそれも不可能ではない。

2010年9月20日月曜日

高速シーケンサーの使われ方 3

他の人がどのような使い方をしているのか、を知るにはメーカーの主催するセミナーに行くのが良い。 もちろんメーカーのマシンを使ってある程度の結果を出しているので、講演者はそのメーカーをよいしょする。 ちょっとその辺がウットオシイから、嫌う人も多い。 

ライフテック、イルミナ、ロッシュ、のシーケンサーメーカーは年に数回行っている。 今年はシーケンサーが導入されて間もないせいか、講演者もだいたい決まっていて、同じテーマを数回聞いたこともあった。 例えば東大柏キャンパスの服部先生のチーム。 「腸内細菌メタゲノム」のテーマで、これは昨年も聞いた。 メタゲノムは大規模な研究で、予算取りは大変だと思う。 これについては別に書く。

今月は、ライフテック主催のシーケンサーフォーラムが30日に東京で行われる。 これは結構期待している。 僕もSOLiDを使っているので、こういうときにメーカーの人と話せるのはすごく良い。 

それぞれのシーケンサーが、どのような使い方をされているのかを知るには、学会ももちろん良いだろう。 学会ではメーカーに気を使うことなく、中立な立場でメーカーの批判もできる。
批判は善し悪しで、僕は無視するようにしている。
メーカーの人に後で聞けば、その批判は間違っていることがあるからだ。
具体的に書くとその人が特定されてしまうのでやめるが、その人はデータ量の多さとクオリティの低いデータの数を批判していた。

日本では、農業分野の応用が少ない。 農業国、オーストラリアやカナダ、アメリカではとてもさかんである。 日本は農業に予算が付かないのか。
糖尿病などの生活習慣病、がん、遺伝病などには予算が付きやすいのに。
ではこのような分野に、高速シーケンサーはどのように使われているのだろうか。

2010年9月19日日曜日

高速シーケンサーの使われ方 2

現在の高速シーケンサーは、単にシーケンス(配列)を読むだけの機械にとどまらない。
ひとつの同じ機械を使って、発現の情報、タンパク質―DNAの結合情報、ゲノム配列の詳細情報を観測することができる。

発現の情報とは、たとえば
1)これまでマイクロアレイで行われてきたような発現量の観測
2)ジャンクションアレイやエキソンアレイで行われているようなエキソンスプライシングの観測
3)CAGEのような転写開始点の量的観測
4)異なる染色体をまたぐような転写産物・Fusion Transcriptsの観測
5)遺伝学的なAllelic Imbalanceと、発現量の関係を観測
などがある。

タンパク-DNA結合情報は、
1)ChIP-on-Chipなどで行われてきたような転写因子の結合領域の観測
2)ゲノムのメチレーションアセチレーション箇所の観測
(実は、僕はこの辺はあまり詳しくない。)

ゲノムの詳細解析については、リシーケンスがまず挙げられる。これは既知のゲノムに対してもう一度自分のサンプルを読んでみて、リファレンスゲノムというものとどれくらい差異があるかを見ているのだ。
1)人種間や個人間のゲノム上の、ごくわずかな差を検出するSNPInDel解析
2)遺伝子のコピー数を検出するCNV解析
3)特定の配列の正確な数を検出するDNA頻度解析

こういった解析方法を組み合わせて、実験によっては一度にいくつものことが同時に検出できる所に、高速シーケンサーの魅力がある。

しかし当然、新しい技術の導入には、困難が立ちはだかる。

学会などで、教授や所長といった肩書の偉ーい先生方の講演を聞くと、必ずと言っていいほど、高速シーケンサーのデータ解析の難しさが話題に出る。
でも、実際に手を動かしているのは、ポスドクや助手クラスの人間なんだろうから、どれほど「難しさ」を実感しているかは怪しい。
まさか、Linuxコマンドを使うことを「難しい」と言っているのではあるまい。そんなんだったら日本のアカデミアのレベルを疑われるので、絶対に国際学会では言わないで!

こういう偉ーい先生方は、過去に偉業を成した大先生で、予算がガッポリ付いているのでシーケンスし放題だ。
ここから先は想像だが、こういう先生方は、聴衆に「俺らのやってる研究は、生半可な技術ではできないぞ! 高額な機器があっても、ノウハウが無いと解析できないぞ!」と訴えて、聞いている人、これからシーケンスをやろうとしている人に、「俺らに聞きに来れば教えてやるけどな」という風に持っていきたいのかも知れないーー というのは冗談、冗談!

データ量が半端でないのは確かだが、イコール解析が大変・難しいということにはならない。
古い考え?の大先生には、出したデータは必ず何らかの意味があり、意味が無いデータを出すことを許さない方がいらっしゃるかもしれない。 が、それは高速シーケンサーにおいては間違っている。 マイクロアレイでもそうだろうが、ノイズは思い切って捨てる。
高速シーケンサーでも、使えるデータが10分の1にも満たないことは良くあるゾ。
解析手段も、こうした大先生に良くあるのが、フリーのソフトにこだわることだ。
フリーのソフトは、ほとんどが海外のアカデミア機関によって開発されており、Linuxベースであることが多い。 権威に弱いのか、MITとかSanger研究所とか、そういう所の開発したフリーソフトを使いたがる。 
なぜか、市販のソフトを買うことはしない。 なぜだ? サポートも付いてるし、WindowsのGUIも良くできているのに。 価格だって高くても100万円くらいだ。 シーケンサーの数千万―数億に比べれば大したことない。
まあ、市販のソフトは解析にいろいろ限界があって、やりたいこと全部はできないのかも知れないけど。

本題からずれてきたので、この辺で止める。
実際、バイオインフォマティシャンが2、3人いれば大体の解析はできる。
これから、そういうケースを紹介していこうと思う。

2010年9月18日土曜日

高速シーケンサーの使われ方 1

生命科学関係の学会に行くと、必ずあるのが次世代、あるいは高速シーケンサーの現状と今後の展望、といったテーマのシンポジウムやセミナー。
大きなものでは、バイオエキスポ、12月の分子生物学会。 あとは癌学会や人類遺伝学会など。
また、口頭発表でも高速シーケンサーを使った研究結果がようやくちらほら出てき始めた。

現在、日本には何台の高速シーケンサーが導入されているのだろうか。
大学では旧帝大を始めとする国公立大学はもちろん、私大でも医学部があるところには、昨年度かなりの数が導入されている。イルミナのGenome Analyzer (以下GA)、ライフテックのSOLiDがそれぞれ数十台入ったと言われている。
研究所では、理化学研究所、沖縄科学技術振興センター、産業技術総合研究所、遺伝学研究所に数台、しかし最新式のマシンが導入されている。恐らく、理研は日本で最もたくさんのシーケンサーを揃えているだろう。とは言っても、欧米やアジアのようにまとまったゲノムセンターが無いので、多く見積もっても全体で20台くらいではないか。
北京ゲノム研究所ひとつで128台の高速シーケンサーがあるのとは雲泥の差だ。

では、企業ではどうか?
実験受託をサービスとしているタカラバイオ社にはシーケンスマシンがあって、実際に実験をしている。サービス会社の中には実験をよそに委託している所もあるので、他社はわからない。
製薬企業なども、持っているところはある。

SOLiDとGAは、短いリードをたくさん出力する。
一方ロッシュの454は、比較的長いリードを出力する。
細かい数字は別に挙げるが、短いとは25、50、80塩基のことで、長いとは約400塩基のこと。
SOLiD, GAは数千万から数億本のリードを出力し、454は数十万から数百万本のリードを出す。

454は最初の「次世代」高速シーケンサーと言われ、リード長が長いのでデノボシーケンス(未知の配列決定)に用いられてきた。良く使われたのは、微生物ゲノムのデノボシーケンス。今でも多くの大学で、特に農学部などで土壌菌や麹菌、産業用植物などのゲノム配列決定に使われている。 
またゲノム配列がほぼ決定している種では、SOLiDやGAなどのショートリード・大量データのシーケンサーを使って、遺伝子の発現・トランスクリプトーム解析、SNP探索などをしている大学もある。
タンパク質-DNAインターアクション解析やメチレーション解析は、小規模ながら、医学部などでやっていると聞く。

大学の場合、シーケンサーは実験機器であるので、予算が付く。 メーカーもここぞとばかりに営業合戦をかける。 
そして大量データを解析・保存するために必要な高性能コンピュータにも予算が付く。 システム設計会社もこれに食いついて予算争奪戦が始まる。

ここから先は私の想像だが、シーケンサーを買ってしまった大学の、かなりの所が、その運用に困っているのではないか。
一回の実験に数十万~数百万円かかる試薬の高さはさることながら、大量データを扱うノウハウも人材もない。 特に、中小の規模の大学ではそうである。