2011年2月27日日曜日

革新的企業トップ50

今週のMIT, Technology Reviewに、「The 50 Most Innovative Companies 2011」という、記事がありました。 
Innovative=革新的な 企業トップ50 ですね。 http://my.technologyreview.com/tr50/
 
この中には、今映画でも話題になっているFacebook、初めてAndroid OSを取り込んだ携帯を作ったHTCなど、今話題の急成長企業も入っています。
電子ブックKindleをヒットさせたAmazon.com、iPadで大成功したAppleなど、誰もが知っている名前もあります。
日本企業では、電気自動車リーフを発売したNissan、ハイブリッドカーで世界をリードするToyota の2社がランク入り。 リコール問題でさんざん叩かれたのに、やっぱり革新的技術はきちんと評価されていたのです。

バイオ企業はどうでしょう?
2009年にGenentechを買収したRocheは、昨年6億ドル以上を稼いだ抗がん剤Avastinをはじめ、分子標的薬のリーダーとしてランクイン。

他にはこんな企業が。
Claros Diagnostics: 一滴の血液でがんの診断ができる機器の開発。アフリカでHIV検査などを実施。前立腺がん診断機器はEUで承認済み

Cellular Dynamics International: ヒトiPS細胞をスクリーニング用に大量作製し、製薬企業に販売するビジネスモデルで大成功

BIND Biosciences: 抗がん剤を腫瘍に直接届ける、いわゆるドラッグデリバリー技術の開発。 将来性が高いとしてランクイン

Synthetic Genomics: 創立者のひとりは、あのJ. Craig Venter (10数年前、ヒトゲノムプロジェクトに一企業(Celera Genomics )として挑戦)。 藻類からエネルギーを取り出す技術を開発。 エクソンモービルもこれに参加。 石油に代わる次世代エネルギーとして、オバマ政権も注目。 
技術自体は日本にもあると思うんです。 ただ、それをビジネスに持っていく力は、アメリカはさすがですね。

忘れてならない、次世代シーケンサー関連企業もランクインしています。

Life Technologies: SOLiD、と言いたいところですが、昨年買収したIon Torrent のデスクトップ型半導体シーケンサーが理由でランクイン。 一台5万ドルという値段は画期的な安さ、という。

Pacific Biosciences: 初の第3世代一分子シーケンサーがその理由。 昨年、数箇所に導入されているそうです。 昨年の論文では、ハイチで大地震の後に大発生したコレラのゲノムを読んで、ハイチコレラは中南米の他の地域で流行ったコレラ菌より、東南アジアの系統に近いことを発表していました。 

Complete Genomics: 世界的な遺伝子解析受託会社。 2005年設立で、SNPなどのジェノタイピングサービスは、23andMe、DeCODE 等の遺伝子テスト会社が有名ですが、ここはゲノムを読むことまでサービスとして行っています。 アカデミック寄りでは1000人ゲノム計画にも参加しており、60人分のヒトゲノムを公開しているそうです。 昨年、NASDAQに上場しました。

日本企業でバイオ関連の革新企業は残念ながら入っていませんでした。
製造業でも世界一の日本企業はありそうな気がするけど、「世界初」とか「革新的な」とかには、日本企業は慎重なんですかねえ。

2011年2月23日水曜日

ChIP-Seqで量的解析は可能か

SEQanswers で面白いトピックがあったので紹介します。
ChIP-Seqをやったとき、例えばChIPを2つの異なるセルタイプで行って、マッピング後、FindPeaks等のPeak Detectionソフトを使ってそれぞれPeakを検出したとします。
InPutも2つのセルサンプルに対して使用しています。 
結果、2つのサンプル(AとB)に対してそれぞれ、Peakがたくさんある状態です。

さて、サンプルAでは、ゲノムのある場所で、100リードからなるPeakが検出されました。
サンプルBも、Aとまったく同じゲノムの場所に、200リードからなるPeakが検出されました。
FDR、p-value等の条件は、ほぼ同じです。
このとき、サンプルBのこの場所は、サンプルAより2倍、タンパク質がDNAに結合しやすい、と言えるでしょうか?

テストの問題にいいですね。

ちょっと考えてみましょう。

リードの本数は、タンパク質の結合しやすさに関係するのでしょうか?

そもそもリードの本数は、実験によって異なります。
RNA-Seqの場合、発現量を計算するとき、実験で得たリード本数全体を考慮してノーマライズする方法があります。 マイクロアレイでも発現値をグローバルノーマライズやMedianノーマライズをしますよね。 全体の発現量が大きいアレイと、小さいアレイとを、同等に比較するためです。 テクニカルな、実験的なアーティファクトを除去するのです。

話を戻すと、出力されるリードの本数の総数は、サンプルAとサンプルBで異なるはずです。
もし、サンプルAからは1000万本のリードが出力され、サンプルBでは4000万本のリードが出力されていたとします。極端な例ですが。
では、ゲノムの同じポジションで検出されたPeakを構成するリードの本数、A: 100本、B: 200本に、どれだけの差があるでしょうか。
Bのほうが、このPeakあたりのリードの本数率(というのをあえて計算するならば)は低くなりますね。
A: 100/1000万、B: 200/4000万

実はこれはナンセンス、だと思います。
だって、検出されるPeakの数は普通、同じじゃないから。

この実験で用いたタンパク質は、サンプルAではゲノムの1000箇所に結合し、サンプルBでは2000箇所に結合したとします。
実験で得たリードの総本数は1000万本で同じとしましょう。
ほかの条件も同じと仮定すると、Aの1Peakあたりのリード本数は、Bの1Peakあたりのリード本数より、多くて普通と想像できませんか?

では、このタンパク質が、サンプルAでゲノムの1000箇所に結合し、同じくサンプルBでも1000箇所に結合した、とします。
その1000箇所がまったく同じであることはまず無いでしょうが、500くらいは同じ場所に結合するかもしれません。
リードの総本数も、ABともにほぼ1000万本で同じとします。
さて、この場合、500の箇所に関しては、Peak構成リードの本数で比較ができそうです。

Aの500箇所は平均100本のリードによってPeakが作られている。
Bの500箇所は平均200本のリードによってPeakが作られている。
よって、Bのサンプルでは、Aより2倍、タンパクが結合しやすい。

うーむ・・・。
なんかしっくりきません。

500箇所全部ではなく個別で見ても同じでしょう。
500箇所のある場所 A:100リード、B: 200リード (Bが2倍結合しやすい)
また別のある場所 A: 200リード、B: 50リード  (Aが4倍結合しやすい) … 続く
こんな風に、Binding箇所を個別に見て、AとBのリード数を比較してタンパク質の結合のしやすさを判断することが可能でしょうか?

いいえ。共通する500以外の、共通しない500のPeakを考慮していません。どれだけの本数のリードが、共通しない500Peakに使われているでしょうか。

私が知る限り、現在のChIP-SeqのPeak検出アルゴリズムでは、異なるサンプル間のタンパク結合のしやすさを評価することはできません。
少なくとも、今のアルゴリズムで検出されたPeakを、リードの本数をもとに比較することはできないと思います。
近い将来、2つ以上のサンプルで検出したChIP-Peakから、何らかの量的解析をするアルゴリズムが出てくるかもしれませんね。

2011年2月16日水曜日

プレゼンの反省

この間、私の属する会社の主催でNGSの解析セミナーがありました。知っている方もいらっしゃると思います。

私の前のプレゼンターの方々が、フリーツールの使い方を述べ、商用ソフトCLC-Bioの紹介があり、さらにシーケンスメーカー3社のプレゼンあり、と、これだけでも充実していたと思います。

私のプレゼンは、会社の意向もあり、「数種類のマッピングソフトを使ったときのChIP-SeqPeak Detection後の解釈」というものでした。 (ちなみに私の後は、「RNA-Seqとその後の機能解析」)
後の反省会で、いろいろ考えてしまいました。

質疑応答時間がなかったのは残念でした。 プレゼンしながら質問が飛んでくるようなスタイルが好きですが、大人数ではちょっと・・・無理ですね。 スケジュールの都合上とはいうものの、質問時間は取るべきでした。 フィードバックが得られないのは大変残念。 これは大失敗です。 

私のプレゼンの流れとしては、公共のChIP-Seqデータを落としてきて、これをHg18にマッピングして、Peak検出して、Peakを絞り込んで、絞込み後の近傍遺伝子をさらに絞り込んで、その近傍遺伝子の機能を調べて、という感じです。

マッピングソフトをBWABowtieCLCの3種類を使って比較したのですが、いまいち伝わりませんでした。 前のプレゼンターが、BWABowtieCLCも、パラメータなどを説明していたので私は省略したのですが、それがまずかった。 聞いている方は、適当にやった結果か?と疑問を抱いてしまうかもしれません。 やはり比較するならきちんとそのときのパラメータ条件を述べるべきだったでしょう。
というか、そもそも今回の場合、マッピングソフトを統一して、ChIP-Detectionソフトを変えて比較した方が、聞いている側からするともっとわかりやすかったかもしれません。 私も後でそれに気がついたのですが、プレゼンに間に合いませんでした。

プレゼンは本当に難しいです。 聞いている側の心に響く、印象に残る、メッセージを送らないといけませんね。
これは何のプレゼンなのか、をはっきりと示すことが大事です。
あと一回、明日同じ内容を喋らなければいけません。少し内容を変えました。ちょっとはわかりやすくなったかな。 

次やるときはもっとマニアックな、実践的な、実データを使った解析例をプレゼンしたいと思います。
お題は、・・・ 得意な(?)、というか好きな、
  1. RNA alternative splicing
  2. Copy Number Variant detection
  3. De novo transcriptome
  4. Chromosomal translocation

がいいかな。 会社がOKくれればの話ですが。
これら4つは、普通の商用ソフトではかなり困難なものです。 でもフリーツールやメソッド自体はありますので不可能ではありません。 はてはて、どれに優先度を持っていくか。

Splicing variantExon ArrayCNVSNP/CGH arrayという既存のテクノロジーがありますので、興味あるひとが多いでしょうか。 
De novo transcriptomeは、参照配列未知の生物のRNA-Seqという、次世代シーケンサーならではの解析ですし、個人的には大好きな分野です。
Chromosomal translocationは、最近面白いソフトを見つけました。 そのうちここでも紹介します。





2011年2月9日水曜日

ChIP-Seq、RNA-Seqの良いレビュー

私がこのNext-Genの配列解析を本格的に始めてもうすぐ1年になります。
それまでは主に情報収集で、各種シーケンサーメーカーのセミナーに出席したり、PubMedで文献を探しては読んだり、ネット上の掲示板を参照したりしていました。

解析ツールを使って、実際のデータや、SRAからダウンロードしたデータを流していると、ふと、自分のやっている方法が正しいのか、他のひとはどうやっているのか、考えてしまいます。
どのツールを選ぶか、は最も重要な問題だと思います。 
そんな中、このレビューは良くまとめられています。
Computation for ChIP-Seq and RNA-Seq studies. Pepke et al. (2009) Nature Methods v.6 S22

ChIP-Seq, RNA-Seqの解析方法から良く説明されており、初めての方はこの文献を読まれることをお勧めします。

もうひとつ、私がすきなレビューは、こちらです。
Statistical Issues in the Analysis of ChIP-Seq and RNA-Seq Data. Ghosh et al. (2010)Genes v.1 p317
バイオロジカルな視点からChIP/RNA-Seqの限界や、解析方法の問題点なども述べられています。
勉強になります。
RNA-Seqなどの結果の解釈の前に、一度読まれることをお勧めします。

2011年2月2日水曜日

SNP検出のアルゴリズム2

SNP検出で前回、NQSを書いた。
クオリティスコアについては、様々な閾値で設定することができるが、文献で見たことがあるのは、
“11-base NQS 20/15 threshold”
というもの。
これはSNP検査対象の塩基を中心に前後5ベース、の計11ベースのクオリティを見て、
中心は20、前後5ベースは15、以上あるとき、の中心塩基を検査する、というもの。
先のCLC-Bio Genomics Workbench を例にしたときのデフォルト。
NQSは次世代シーケンサーの前から良く使われていたらしい。

Shen Y, Wan Z, Coarfa C, Drabek R, Chen L, Ostrowski EA, Liu Y, Weinstock GM,
Wheeler DA, Gibbs RA, Yu F.
A SNP discovery method to assess variant allele probability from next-generation resequencing data. Genome Res. 2010 Feb;20(2):273-80. Epub 2009 Dec 17. PubMed PMID: 20019143

僕もこの閾値が絶対だとは思わないので、いろいろ変える必要はありそうだ。

実はSNP検出に関して、この閾値よりももっと大事なのは、マッピングするときのアルゴリズム。
つまりギャップありマッピングか、ギャップなしマッピングかで、結果は大きく変わってくるのだ。
ギャップありの場合、1塩基単位のInsertion、Deletionも検出可能になる。
ギャップありマッピングは、BWAなどで可能だが、精度が高い分ランに時間がかかる。
しかし小さいInDelを検出できるとともに、SNPの擬陽性確率が低いという報告もある。
昨年末のBMBでもあるポスター発表者と話したのだが、BWAなどのギャップありマッピングは、SNP検出時に行うマッピングとしては、Bowtieなどのギャップ無しマッピングと比べて優れているそうだ。

ちなみに有償ソフトのNextGENeも、ユニークなSNP検出アルゴリズムを用いている。
計算式が複雑すぎて僕は理解できないが、興味のあるひとはのぞいてみると良い。
http://www.softgenetics.com/NextGene_UsersManual_version_2-0.pdf
114ページ、Overall Mutation Score の章から先