search
search

理学部ニュース

深層学習の特徴抽出でがんの新たな知識を発見

角田 達彦(生物科学専攻 教授)


私たちは,がん患者からの分子データでがんの発生メカニズムを解明し,患者ごとにがんの 個性を見分け最適な治療法を選ぶ方法を研究している。ここでいう分子データとは,ゲノムやそこから転写されるRNAの総体であるトランスクリプトーム,細胞内で発現している全タンパク質を指すプロテオーム,メタボローム(生体内に含まれる代謝物質の総体),遺伝情報を修飾するエピゲノムなどで,これらを網羅的にまとめて研究する学問をオミクスと言う。がんの個性はこの多くのオミクス間の複雑な関係で決まるので,従来の統計学では扱いにくい。

深層学習は,非線形関数の中間層を複数持つ深層ニューラルネットワーク(DNN)に基づき,複雑なパターンを扱え,画像処理などに優れていることから着目していたが,オミクスは画像ではなく,高次元のデータであることから良い方法がないかと試行錯誤した結果,私はオミクスデータを2次元で表現できれば良いはずだとひらめき,多くの検体間で似た挙動をする分子どうしが近くになるように分子をマップし直せばよいと気づいた。こうして画像にしたオミクスデータを深層学習で扱い,がん種を高精度に判定できた(2019年発表DeepInsight法)。ではDNNは何を見てがんを見分けているのだろう?

今回,私たちはそれを発見するDeepFeature法を考案した。DNNでは,学習後,出力層近くの中間層(図右側)にさまざまな特徴が集約されており,それらを総合して画像を判別する。この層を分析することが鍵であると考えた。分析にはCAM(Class Activation Mapping)という技術を用いた。学習後に画像を入力すると(図左端),この中間層上の(x,y)座標での出力fkx,y)が 特徴kごとに計算される(図右側の「活性度マップ」)。さらに,各特徴kが判別対象(例えば肺がん) を支持する度合いを表す重みwkもDNN内で計算されている。そこで特徴ごとにfkx,y)· wを深層学習の特徴抽出でがんの新たな知識を発見計算し,最後に全特徴で足し合わせる。すると,肺がんと判定されたとき,入力画像の各画素が寄与する度合い,つまりどの画素を見て判定したかがわかる。こうして構築したDeepFeature法を10種のがんを判別予測する実験に適用すると,上皮間葉転換や凝固,血管新生,低酸素,炎症反応 など,がんによく関わる遺伝子を見ていることがわかった。さらに,コラーゲンに代表される細胞外マトリックス構造やタンパク質のチロシン残基のリン酸化を介した受容体チロシンキナーゼシグナル伝達,Gタンパク質共役型受容体(GPCR) リガンド結合などのシグナル経路を見ていることも新たに発見できた。

  図:がん患者のがん組織からの非画像のオミクスデータを画像のように変換し,深層学習の入力画像とする(左端)。この画像を入力すると,深層ニューラルネットワーク(上側)の左から右へ中間層上のニューロンが発火していく。出力層に近い層が特徴を表現する層(右端側)で,その活性度の様子(「活性度マップ」,色の着いた部分)から,どのような特徴を見ているかがわかる。論文から改変。

深層学習には結論に至る道筋がわからないと いう「ブラックボックス」問題があるが,本研究を糸口にそれを脱却し,経緯を発見することが夢でなくなるだろう。今後,複雑でダイナミックながん化のメカニズムを解明し,患者ごとにがんの細かい「顔」の違いをみて治療を決 めることを目指している。

本研究成果はA. Sharma et al., Briefings in Bioinformatics 22, bbab297 (2021) に掲載 された。

(2021年8月19日プレスリリース)

理学部ニュース2022年1月号掲載


 

学部生に伝える研究最前線>