生物学はコンピュータに向かってする時代に?
ーバイオビッグデータの衝撃ー

高木 利久(生物科学専攻 教授)

白衣を着て日夜実験台に向かっている,という生物学者に対するイメージは,そろそろ修正されなければならない時代になってきたようだ。コンピュータに向かっていることも多いし,まったく実験せずにコンピュータだけを使って研究している人も増えつつある。

このような背景には,膨大なデータの出現がある。その最たるものがゲノムデータである。次世代シークエンサーと呼ばれるゲノム決定装置はペタ(10の15乗)オーダーのデータをいとも簡単に生み出してしまう。データ駆動型科学という言い方があるように,研究者はそれをコンピュータで解析して仮説を立てたり検証したりするようになってきた。逆に,そうやって効率的に研究しないと競争に勝てないようになってきた。コンピュータに向かう時間がいきおい増える訳である。ビッグデータ時代に生命研究も突入したのである。


  データの標準化と統合化のための合宿形式の国際ワークショップ

このシーケンサーの性能の伸びはコンピュータのそれをはるかに凌駕しており,ゲノム情報解析技術の進歩とあいまって,10年ほど前までは15年の歳月と数千億円のお金がかかったのに,いまでは数日で10万円ほどの費用で個々人のゲノムを決めることも可能になってきた。これにより個々人の体質(病気のかかりやすさや薬の効きやすさなど)を診断することも可能になってきた。さらに,ゲノムデータ,生化学データ,画像データ,臨床情報,生活習慣情報などを何千人何万人と解析することにより,病気発症のメカニズムを解き明かすこともできるようになってきた。

これは疾患研究や遺伝子診断の例であるが,基礎生物学,農学,薬学などのさまざまな研究分野に,さらにはバイオビジネスにも,バイオビッグデータ時代が到来しつつあり,生命研究のスタイルを根底から変えようとしている。

ビッグデータの意味するところは,膨大なデータから統計処理や機械学習と呼ばれる手法を使って規則性を見いだすことにあるが,生命研究のデータは,他のサイエンスやビジネスのそれとは異なり,多様性,曖昧性,文脈依存性,冗長性,多義性などの特徴があるため,計測したデータをそのままコンピュータで解析すればいいというわけに行かない。

筆者の研究室では,科学技術振興機構バイオサイエンスデータベースセンター,情報・システム研究機構ライフサイエンス統合データベースセンター,遺伝学研究所DDBJ(DNA Data Bank of Japan) センターと連携して,膨大なデータと知識の整理統合とそのためのコンピュータ技術の研究開発を行っている。また,世界各国のデータベース開発者と協力してフォーマットや語彙の国際標準化に取り組んでいる。

バイオビッグデータの解析には,生物学や医学の知識とコンピュータの技術の両方をもった人材が不可欠であるが,我が国ではそのような人材が圧倒的に不足している。筆者の属する生物情報科学科ではそのような人材の教育に精力的に取り組んでいるがまったく需要に追いついてないのが現状である。意欲のある若い方がこの分野に飛び込んで,これからの新たな生物学を切り開いてくることを期待したい。

 

 

理学の現場>

 

 

  • このエントリーをはてなブックマークに追加