DATE2025.10.09 #Press Releases
1細胞RNAデータから細胞種とサブタイプを同定する階層的深層学習
ー新しいアーキテクチャscHDeepInsight法を開発ー
発表のポイント
- 細胞の分類の階層的な関係も考慮し、1細胞RNAデータからもとの細胞種やサブタイプを同定する、深層学習を用いた新しい手法scHDeepInsightを提案しました。
- 本手法は、1細胞ごとの発現データを画像化して深層学習で特徴抽出し、新たな仕組みで階層的に分類することで、由来となる細胞種の同定や新発見を高精度・高分解能で行えます。
- 本手法はさまざまな細胞に適用可能であり、本手法を用いることで、生体内や疾患における精緻な細胞制御のメカニズムの解明に貢献することが期待されます。

提案手法scHDeepInsightの概略図
発表概要
東京大学大学院新領域創成科学研究科のジア シャンルー大学院生、理化学研究所(理研)生命医科学研究センターのアロック シャルマ専任研究員、東京大学大学院理学系研究科のアルテム ルイセンコ准教授、角田達彦教授(兼 同大学大学院新領域創成科学研究科教授)らによる研究グループは、免疫細胞などでよく見られる細胞の分類の階層的な関係を考慮し、1細胞RNA-seq(scRNA-seq;注1 )のデータからもとの細胞の種類(細胞種)やサブタイプを同定する、深層学習(注2) を用いた新しい手法scHDeepInsightを提案しました。細胞種やさらなるサブタイプを同定することは、細胞集団の不均一性を研究するための鍵となります。この手法では、scRNA-seqの非画像のデータを、私たちの独自提案のDeepInsight法(注3) を使って画像に変換することにより、画像分類や特徴抽出能力が高い畳み込みニューラルネットワーク(CNN;注4 )を使います。さらにそのCNNの部分に、細胞の分類の階層性を考慮する仕組みを新たに組み込みました。その結果、scHDeepInsightは細胞種とサブタイプを高い精度で同定することができました。本提案手法により、将来的に、scRNA-seqデータを用いた生体内や疾患における精緻な細胞制御のメカニズムの解明に関わる研究に広く貢献することが期待できます。
発表内容
〈研究の背景〉
がんや慢性疾患などの病態メカニズムや複雑な生物学的システムを包括的に理解するためには、免疫細胞などさまざまな細胞の構成を正確に同定することが不可欠です。近年急速に発展してきた1細胞RNA-seq(scRNA-seq)の技術により、1細胞レベルで網羅的に遺伝子発現を観察できるようになり、多種多様な組織とその中のさまざまな細胞の構成を詳細に調べることができるようになってきました。この過程で使われる、元となる細胞の種類を同定する従来の方法では、scRNA-seqからのデータをカテゴリ(細胞種)に分類します。しかし、細胞にはそのような大まかな分類からさらに細かな分類(サブタイプ、細胞状態ともいわれます)まで階層構造をとることが多く、従来の大まかで同一レベルでの分類では不十分であるという問題があります。細胞のサブタイプどうしは、生物学的機能が大きく異なることがありますが、遺伝子発現のパターンは似ていることも多く、細胞種という形で大きくまとめられます。本研究グループは、このような細胞の階層構造をうまく組み込むことで、細胞のサブタイプ分類も可能になり、さらに細胞種の分類でもサブタイプ分類でも精度が高まる可能性もあると考えました。(図1)
図1:細胞種とサブタイプからなる細胞分類の階層性
左側にはさまざまな免疫細胞などの大まかな分類(細胞種)を示しています。分類は、各細胞の遺伝子発現パターンをもとにした類似度で空間的に行ない、色の違いで示しています。この細胞種の分類はさらに細かい分類(サブタイプ)に分けることができます。例えば左側の中に示されているCD8+T細胞は、右側のようにサブタイプ(CD8+T_naiveなどの4種類)に分けることができ、その細かな違いを見出すことは機能解析に大変重要です。他の細胞種にも同様にサブタイプがあります。本研究はこのような階層性に着目しました。
〈研究の内容〉
本研究では、免疫細胞などの分類の階層的な関係も考慮し、scRNA-seqデータからもとの細胞種やサブタイプを同定する、深層学習を用いた新しい手法scHDeepInsightを提案しました(図2)。本手法は参照データセットで学習させたモデルに基づき、対象とする未知のデータに対して、元となった細胞種とサブタイプを同定することができます。最初のステップではデータの標準化などの前処理を行います。次に、私たちが独自に開発してきたDeepInsight法を用い、scRNA-seqデータを対応する画像に変換します。この方法をまず参照データセットに適用し、生成した画像をCNNに入力します。このCNNによる特徴抽出の後に、細胞種とサブタイプからなる階層構造を考慮したネットワークを通過させる点が、scHDeepInsightの新規の部分です。このネットワークを組み込んだCNNを参照データによって学習させます。こうして構築した予測モデルを、対象とするscRNA-seqデータに適用することによって、そのデータのもととなる細胞種とサブタイプを予測します。この予測を、7種類の多様なデータセットで評価したところ、平均精度93.2%を達成し、既存手法を5%以上上回ることが示されました。scHDeepInsightのさらなる機能として、参照データセットには含まれない、新しい細胞の種類やサブタイプを検出することも可能です。これにより、例えば病気にのみ現れる細胞の種類やサブタイプを抽出することもできます。また、scHDeepInsightは主に免疫細胞の分類のために学習されていますが、細胞の分類の階層性は他の細胞にも多く見られ、特にがんなどの複雑な組織環境で重要な間質細胞や上皮細胞といった他の種類の細胞の解析にも適用できます。これにより、免疫学を超えた多様な生命医科学分野での応用が期待できます。
〈今後の展望〉
今後、異なる組織から得られた多くの参照データを統合し、より多くの細胞種とサブタイプを網羅する予測モデルを構築する予定です。また、空間オミクスなどのマルチオミクスのデータも併せて解析することにより、細胞のサブタイプ同定の精度をさらに高めたり、サブタイプの推移などの動態を解析できるようにしたりします。このような方法が進展すれば、がんや慢性疾患などのさまざまな病気の精緻な細胞制御のメカニズムに対する理解がますます深まることが期待されます。
図2 :scHDeepInsightのパイプライン
上側(A):予測モデルの構築。各細胞のscRNA-seqデータによる遺伝子発現ベクトルを、DeepInsight法で2次元画像に変換した後、CNNで特徴抽出します(上側真ん中)。細胞の大まかな分類(Base Type、細胞種)と細かな分類(Subtype、サブタイプ)を判定する部分が連携し、いずれも高い予測ができるように学習させます。下側(B):学習後の適用時。対象となるデータ(Query)をバッチ補正と画像変換し、上側(A)で構築した予測モデルによって、元となる細胞の種類とサブタイプを推定(予測)します。
関連情報
「人工知能でゲノミクスを」(2019/08/06)- DeepInsight法
「シングルセルRNA-seqデータから細胞種を同定する深層学習」(2023/08/01)- scDeepInsight法
発表者・研究者等情報
東京大学
大学院理学系研究科 生物科学専攻
角田 達彦 教授
兼:新領域創成科学研究科 教授
アルテム ルイセンコ(Artem Lysenko) 准教授
大学院新領域創成科学研究科 メディカル情報生命専攻
ジア シャンルー 博士課程/日本学術振興会特別研究員
理化学研究所
生命医科学研究センター
アロック シャルマ 専任研究員
兼:東京大学大学院理学系研究科 客員共同研究員
兼:グリフィス大学 教授
兼:高麗大学校 教授
キース ボロエヴィッチ テクニカルスタッフI
関連リンク
論文情報
-
雑誌名 Briefings in Bioinformatics 論文タイトル scHDeepInsight: A Hierarchical Deep Learning Framework for Precise Immune Cell Annotation in Single-Cell RNA-seq Data著者 Shangru Jia, Artem Lysenko*, Keith A Boroevich, Alok Sharma*, Tatsuhiko Tsunoda*
(*:責任著者)DOI番号 10.1093/bib/bbaf523
研究助成
本研究は、科研費「特別研究員奨励費(課題番号:25KJ1104)」、「基盤研究C(課題番号:24K15175)」、「基盤研究B(課題番号:20H03240)」、「基盤研究B(課題番号:25K02261)」、「JST CREST(課題番号:JPMJCR2231)」の支援により実施されました。
用語解説
注1 1細胞RNA-seq(single-cell RNA sequencing; scRNA-seq; シングルセルRNA-seq)
次世代シークエンサーによって、1細胞ごとに、網羅的な遺伝子セットの発現量などを求める方法。↑
注2 深層学習
深層学習は多層のニューラルネットワーク(ディープニューラルネットワーク)による機械学習手法。ディープラーニング。データを入力する入力層、演算をしながら情報を受け継いでいく複数の中間層、そして判別結果を出力する出力層からなる。↑
注3 DeepInsight法
ゲノミクスデータなどの非画像データを画像データに変換して深層学習で扱えるようにする、角田教授らが2019年に提案した独自の方法。↑
注4 畳み込みニューラルネットワーク(CNN)
特に画像の分類や識別で高い性能を発揮するディープラーニングの一つ。あらかじめ与えられていた画像データから画像の特徴量を直接抽出し、ネットワークを学習する。CNNはConvolutional Neural Networkの略。↑

