search
search

プレスリリース

DATE2023.01.12 #プレスリリース

細菌の代謝システム進化を予測できる機械学習技術

 

今野 直輝(生物科学専攻 博士課程)

岩崎 渉(東京大学大学院新領域創成科学研究科/生物科学専攻 教授(兼担))

 

発表のポイント

  • 生命システムの未来の進化を予測する計算手法Evodictorを開発し、遺伝子の獲得・欠失による進化が予測可能であることを細菌の生命システムを対象に証明した。
  • 生命進化予測に関するこれまでの研究は短期的かつ塩基配列レベルの予測に留まっていたが、本研究により長期的かつ生命システムレベルの進化予測が可能となった。
  • 生物学の重要課題の一つである進化予測の先駆的研究であり、医学では薬剤耐性を獲得しそうな種の予測や、生物工学では特定遺伝子を導入可能な種の予測につながると期待される。

 

発表概要

生命は多数の遺伝子の機能が組み合わさった複雑なシステムである。地球上の多様な生物の生命システムは、過去にさまざまな遺伝子を獲得・欠失することで進化してきた。では、生命システムの「未来の進化」を予測することはできるのだろうか?生物学の重要課題である進化予測分野の研究は、これまで、実験室における進化実験(注1)などによる短期的かつ塩基配列レベルの直接観測に基づいて行われてきたが、長期的かつ生命システムレベルの進化については直接の観察が困難であることから、新しい方法論が必要となっていた。

東京大学大学院理学系研究科生物科学専攻の今野直輝博士課程学生と大学院新領域創成科学研究科の岩崎渉教授は、本研究において、まずゲノムの過去の長期進化の過程を数理モデルを用いて推定(再構築)し、さらに、その大規模なデータを機械学習(注2)することで、任意の遺伝子を獲得・欠失しやすい種を予測する情報解析技術Evodictorを開発した。そして、実際に約3,000種の細菌を対象に代謝系の進化を解析し、遺伝子の獲得・欠失による生命システム進化が有意に予測可能であることを示した。

本研究の結果は、生命システムの進化の背後に普遍的なパターンが存在することを意味しており、生命システムの設計原理に新たな洞察を与えるものである。さらに、医学的には薬剤耐性遺伝子を獲得しそうな病原菌種の予測や、生物工学的には実験的に特定の遺伝子を導入・欠失することが可能な種の予測など、さまざまな応用につながることが期待される。

 

発表内容

地球上に生息するさまざまな生物は、そのそれぞれが、多数の遺伝子機能の組み合わせからなる複雑な生命システムである。そのシステムの設計図であるゲノムは、過去にさまざまな遺伝子の獲得・欠失を経て進化してきた。それでは、その「未来の進化」を予測することはできるのだろうか?進化には突然変異や遺伝的浮動(注3)などの偶発的な現象が関与するため、予測は困難とも考えられる。一方で、異なる系統の生物の間に類似した自然選択(注4)や進化の制約が影響することで、共通の進化のパターンが生じることもある。このような進化の予測可能性に関する議論は、従来は実験室における進化実験などの短期的かつ塩基配列レベルの進化の直接観測に基づいて行われてきた。しかし、長期的かつ生物の本質的な変化をもたらす生命システムレベルの進化については直接の観察が困難であるため、新しい方法論が必要となっていた。

今回、東京大学大学院理学系研究科生物科学専攻の今野直輝博士課程学生と大学院新領域創成科学研究科の岩崎渉教授は、過去のゲノム進化情報に基づいて、遺伝子の獲得・欠失による生命システム進化を予測する情報解析手法Evodictorを開発した。Evodictorは、進化実験のような直接観測の代わりに、多数の種分化イベントを伴うような長期的な進化の過程でどのような遺伝子をどのような順番で獲得・欠失してきたのか、という過去のゲノム進化の情報からその背後にある順序のパターンを学習する。具体的には、まず数理モデルを用いて、現生種の各遺伝子の有無をもとに系統樹(注5)上の各分岐点にあたる祖先種の遺伝子の有無を推定する(図1A)。この結果に基づいて、Evodictorは「ある遺伝子の獲得・欠失が起こる際に、事前にどのような遺伝子を持っている・いない傾向があるのか」という進化のパターンを、機械学習を用いて学習する(図1B)。その後、それぞれの種について各遺伝子の有無の情報が入力されると、学習したパターンに基づいて、各遺伝子を獲得・欠失する確率を出力する。これにより、異なる種における遺伝子獲得・欠失の確率を比較することで、ある遺伝子をどの種が獲得・欠失しやすいのかを予測することが可能になる。


図1:Evodictorを用いた遺伝子獲得・欠失の進化予測可能性の評価
A:祖先種における各遺伝子の有無の推定。各遺伝子について、細菌の現生種それぞれが持っているか否かの情報に基づき、系統樹上の各分岐点にあたる祖先種におけるその遺伝子の有無を確率モデル(吹き出し図)のもとで推定する。
B:遺伝子獲得を予測するモデル。系統樹上の各枝(黒矢印)について、ある遺伝子をその枝で獲得する確率を、その直前の祖先種の遺伝子セットから予測する。欠失の場合も同様である。
C:遺伝子獲得の予測可能性の評価方法。系統樹の枝を訓練用とテスト用に分類した後、訓練用の枝についてモデルの入力(直前の祖先種の遺伝子セット)と出力(その枝である遺伝子を獲得する確率)の関係性を学習した。そしてテスト用の枝について入力情報のみからその枝で遺伝子を獲得する確率を予測して、正解の情報と比較し、予測可能性の指標(AUC)を算出した。欠失の場合も同様である。

 

本研究ではさらに、実際に2,894種の細菌のゲノム情報を用いて、細菌の代謝系という生命システムの進化を対象にEvodictorによる解析を行った。細菌の進化系統樹の中からランダムに選んだ80%の枝で起きた生命システム進化をEvodictorで学習し、残り20%の枝で起きた遺伝子の獲得・欠失を予測したところ(図1C)、解析した代謝酵素遺伝子の全体の傾向として、ランダムな予測に比べて有意に予測可能性が高いことが示された(図2A)。 このことから、細菌の代謝系という生命システムの進化の背後には、異なる系統をまたぐ普遍的なパターンが存在することが示唆された。例えば、最も遺伝子の獲得の予測可能性が高かった外因性化合物(芳香族化合物など)の分解に関わる遺伝子群について、代謝経路の下流(分解産物側)から上流(分解対象側)に向かって経路が獲得されやすいというパターンが示唆された(図2B、C)。この結果は、「この順序で遺伝子を獲得すれば、獲得のたびに代謝可能な化合物の範囲が広がるために集団内で有利になりやすい」という、遺伝子間の機能依存関係によって規定される生命システム進化に関するルールを反映していると考えられる。最後に、過去の進化を全て学習することで、未来の細菌の代謝系の進化を予測した。すると実際に、遺伝子を獲得・欠失すると予測された種の多くについて、種内の一部の個体がすでに遺伝子を獲得・欠失していることが示された。


図2:遺伝子獲得・欠失の予測可能性の結果と見出された具体的な進化のパターン
A:解析した全ての代謝系遺伝子について算出された遺伝子獲得・欠失の予測可能性の評価値
(AUC)の分布。AUCは0.5(ランダムな予測の場合)よりも有意に高い傾向があった。
B:外因性化合物の分解経路について見出された遺伝子獲得の順序のパターンの例。
C:Bで挙げた経路に関わる代謝反応の系統分布。系統樹(灰色の樹形図)上の現生種・祖先種が各経路に関わる代謝反応を何個持っていたのかを丸の大きさで示している。下流経路(赤丸)を上流経路(青丸)よりも先に獲得する傾向が見られる。

 

Evodictorの背後にある理論やアイデアは汎用性が高いものであり、ゲノムデータを用いた生命システムの進化予測に限らず、遺伝子発現量の進化や、体サイズ・模様のような表現型の進化などさまざまなデータに適用することで、生命進化のパターンや予測に関する研究を今後さらに切り開いて行くための基盤技術となると考えられる。また医学的には、薬剤耐性遺伝子を獲得しそうな病原菌種を予測することでその対策への貢献につながる可能性や、生物工学的には、有用物質生産などに関わる遺伝子を獲得しやすい種を実験せずに予測することで有用微生物の育種に貢献することが期待される。

 

発表雑誌

雑誌名 Science Advances
論文タイトル Machine learning enables prediction of metabolic system evolution in bacteria
著者 Naoki Konno*, Wataru Iwasaki*
*責任著者
DOI番号

10.1126/sciadv.adc9130

 

用語解説

注1  進化実験

微生物などを実験室内で長期的に培養することにより自然界で起きる進化を再現する手法。ゲノム配列や遺伝子発現量の短期的な進化を直接観察し、追跡することができる。

注2  機械学習

大量のデータからその背後にあるパターンを抽出するほか、さらに、そうしたパターンを用いて新しいデータに対して何らかの予測や推定を行う情報科学技術。

注3  遺伝的浮動

突然変異を持つ個体の集団中における頻度が、世代を経るにつれて確率的に変動する現象。遺伝的浮動によって、有利でない突然変異が集団中で偶発的に広まり、固定することがある。

注4  自然選択

同種の個体集団中で有利な遺伝形質を持つ個体がより多くの子孫を残すことで、その遺伝形質がより多くの次世代の個体に受け継がれる現象。進化の原動力の一つである。

注5  系統樹

種の系統樹とは、種分化を繰り返す長期的な進化の過程を、二分岐を繰り返す樹形図として表現したもの。進化の過程を可視化する一般的な方法の一つである。進化系統樹とも。