2019/08/06

人工知能でゲノミクスを

-遺伝子など非画像データを深層学習で扱う方法-

理化学研究所

東京大学大学院理学系研究科

東京医科歯科大学

科学技術振興機構

 

概要

理化学研究所生命医科学研究センター医科学数理研究チームの角田達彦チームリーダー(東京大学大学院理学系研究科生物科学専攻医科学数理研究室教授、東京医科歯科大学難治疾患研究所医科学数理分野教授)らの国際共同研究グループは、人工知能技術の一つである「深層学習」で扱えるように、ゲノミクスデータなどの非画像データを画像データに変換する方法を開発しました。

本研究成果により、遺伝子データなどさまざまな非画像データを深層学習で扱うことで、背後にある複雑な特徴や構造を抽出できるようになり、医療での診断や医学・生命科学など広範囲の応用に貢献すると期待できます。

ゲノミクスデータなどの多くのデータは非画像データであるため、深層学習の能力を生かすには画像データにする必要があります。

今回、国際共同研究グループは、遺伝子発現などのゲノミクスデータを使って医療診断や予測のためのクラス同定や分類を高精度に行うために、「適切な変数(画素)の配置」、「特徴抽出」、そして「適切な分類モデルの構築」という三つのステップを行う「DeepInsight(ディープインサイト)法」を開発しました。ディープインサイト法では最初の段階で、画素としての変数を適切に再配置し、非画像データから画像データへの変換を行うことで、非画像データの解析に対しても深層学習が可能になりました。この新手法を、がん遺伝子発現などの実データに適用した結果、既存のランダムフォレスト法などの機械学習よりもはるかに高精度で分類できることが分かりました。本方法論には普遍性があり、さまざまな非画像データを深層学習で扱うことができます。

本研究は、英国のオンライン科学雑誌『Scientific Reports』(8月6日付け:日本時間8月6日)に掲載されました。

図1:ゲノミクスなどの非画像データを画像データ様に変換する方法(左)と実例(右)

 

詳細については、理化学研究所 のホームページをご覧ください。

―東京大学大学院理学系研究科・理学部 広報室―