2011年4月2日土曜日

大容量配列データのやりとり

以前、シーケンスデータのサンプルを得るには、NCBIのSRA(Sequence Read Archive)が便利、というようなことを書きました。 (EBIやDDBJからも落とせるんですがそれはさておき)
ところが今SRAにログインすると、こんな画面が出てきます。
「SRAはまもなく新規データの登録を停止する。 このデータベースも連邦政府の予算削減のあおりを受けて、無くなるかもしれない。」
2月17日から、この画面です。 
データベースが無くなってしまうのか、とNCBIに問い合わせても、「現状はアナウンスと変わらない、つまり全ては予算しだい」という答えが返ってきました。

NGSのデータは1ファイル10Gbを超えるものもざらなので、これではいくら容量があるストレージサーバーを用意してもきりがないのでしょうね。 ペタバイト、エクサバイト・・・。 一昔前ならSFにしか出てこないような単位が必要かもしれません。

そんな中、個人的に注目しているのは、今さらですがP2Pのデータやりとり。
ファイル交換です。
NCBIみたいな所が一括して管理するのではなく、さまざまな研究所・大学単位で自分たちのでかい配列ファイルは保存しておいて、ファイル交換ソフトを使って欲しい時に取得するというもの。

ITに詳しい人はとっくに知っているでしょうが、BitTorrent というファイル転送プロトコルがあります。
詳しくはここのウィキを参照。
BitTorrentを使ってのファイルのダウンロードの仕方はちょっと変わっていて、
1.トラッカーサイト(ファイルの目次みたいなリストがあるサイト)から目的のファイルのトレントファイル .torrent を落とす
2.ローカルPCに予めインストールした専用ソフトを使って .torrent ファイルを元に、本体データを落とす
です。

このプロトコルは、人気のあるファイルほど高速にダウンロードできる、という特徴があります。 
理由は、BitTorrentはファイルをダウンロードする際、自分の持っている(ダウンロードした)ファイルのピース(部分)をアップロードする決まりになっているからです。
つまり、人気があるからといって待たされることはありません。

もうひとつの特徴として、匿名性が無いことです。 誰が何のファイルを共有しているか、わかるしくみになっています。
この利点として、非合法なファイルを共有したらすぐにわかるので、我々健全な市民にはありがたいことです。 
そのせいか、多くの海外企業がファイル共有に採用しているそうです。
合法的なファイルなら、これをサイエンスコミュニティに導入したらどんなに便利でしょう。

Bioのデータも、これからはBitTorrentファイル交換によってやりとりしようぜ! 
http://extratorrent.com/article/459/biotorrent+now+bittorrent+is+used+for+scientific+purposes.html


ここで話題になっている、BioTorrent(BitTorrentと名前が似ていて紛らわしい)というサイトを見てみましょう。
http://www.biotorrents.net/browse.php


シンプルな作りです。
Genomicsというチックボックスが気になります。
ここをクリックします。
イルミナシーケンサーからの配列ファイル名が出てきました。
ここのリンクをクリックすると、.torrent ファイルを落とせます。
その後自分のソフトを使って、ファイルを共有しているみんなから、ファイルのピースをダウンロードして配列ファイルを得るのです。
ちなみに、このサイトを使用するにはサインアップが必要です。

試しにダウンロードしてみました。 バクテリアサイズのParied-Endイルミナシーケンスファイル268Mb、解凍すると800Mb近いFastqファイル、が数十分で落とせました。

BioTorrentへの登録数はまだまだ少ないです。
これから増えていくのでしょうか。 あるいは他の、もっとたくさんのデータメニューをそろえたトラッカーサイトができるのでしょうか。
注目しています。

0 件のコメント:

コメントを投稿