DATE2025.10.07 #Press Releases
ナノポア × 機械学習:複雑なタンパク質混合物の識別を可能にする新手法
発表のポイント
- 固体ナノポアと機械学習を組み合わせ、電圧条件を多次元的に活用する「電圧マトリックス解析」を開発。従来困難であった複雑なタンパク質混合物の識別を可能にした。
- がんバイオマーカー(CEA、CA15-3)やその複合体をモデルに用い、ナノポア通過時の電流シグナルを電圧依存的に解析。電圧によって構造の違いや相互作用を可視化できることを示した。
- 実際の生体試料(マウス血清)でも、遠心処理の有無を分類できることを確認。未知のバイオマーカーが存在しない疾患でも、分子集団の変化を捉える診断ツールとして応用可能性を示した。

ナノポア電圧マトリックス解析の概念図
発表概要
東京大学大学院理学系研究科の上村想太郎教授、角田達彦教授、Lysenko Artem准教授、飯塚怜助教、秋田嶺大学院生(研究当時)、川井大輝大学院生らは、名古屋工業大学の横田達也准教授、理化学研究所のBoroevich Keith研究員らとの共同研究で、固体ナノポア(注1) と機械学習を組み合わせ、電圧条件を多次元的に活用する新たな解析手法「電圧マトリックス・ナノポアプロファイリング(電圧マトリックス解析)」を開発しました。近年、がんや神経疾患などの診断や創薬のためには、血液や細胞中に含まれる多様なタンパク質の状態を正確に識別することが求められています。しかし抗体による従来の分析手法(ELISA法注2 )などでは、複雑な混合物中でわずかな構造変化や相互作用、さらには未知の分子をとらえることが難しく、新しい測定アプローチが必要とされていました。
本研究では、がんバイオマーカーであるCEAとCA15-3をモデルとして、複数の電圧条件下でナノポア計測を行い、そのシグナルを機械学習により分類しました。その結果、(1) 分子の大きさや形状に基づく電圧非依存的な特徴、(2) アプタマー結合などによって生じる電圧依存的な構造変化、の双方を検出できることを示しました。
さらに、混合試料における実際の分子比を推定できること、マウス血清に対しても遠心処理の有無を分類できることを確認しました。この「電圧マトリックス解析」によって、電圧を単なる測定条件ではなく、分子の性質をあぶり出す能動的な解析軸として利用できることが初めて示されました。
本成果は、既知のバイオマーカーが存在しない疾患においても、分子集団の分布変化を捉えることで診断に応用できる可能性を拓きます。さらに、血液や唾液などの生体試料をラベルフリーで解析できることから、将来的には早期診断や新規バイオマーカー探索、創薬研究の加速にも貢献できると期待されます。
なお、本研究の成果を象徴する固体ナノポアによる分子測定のイメージ図(図1)は、Chemical ScienceのFront Coverに選出されました。
発表内容
<研究の背景・先行研究における問題点>
タンパク質は、生体内でさまざまな構造状態や複合体を形成しながら機能を果たしています。がんや神経疾患などの病態に関連するバイオマーカーも、単一の分子として存在するのではなく、糖鎖修飾や結合状態の違いによって多様な構造的・動的バリエーションを示します。こうした分子集団を正確に識別することは、診断や創薬において極めて重要ですが、従来の分析技術には大きな制約がありました。
ELISA法などの既存手法は高感度な検出が可能である一方で、混合サンプル中に存在する複数の分子状態を同時に分解能高く識別することは困難です。また、これらの手法は多くの場合ラベル化や前処理を必要とし、リアルタイムかつ非破壊的に分子の構造変化を捉えることができません。
一方、固体ナノポアは、分子が通過する際に生じる電流変化を計測することで、分子の大きさ、電荷、柔軟性などの物理化学的特徴を1分子レベルでラベルフリーに検出できる技術として注目されています(図1)。しかし、これまでの多くの研究は単一の電圧条件での計測に依存しており、その条件に特化した分類モデルは、他の条件下では性能が大きく低下してしまうという問題がありました。また、従来の解析は分子の大きさや電荷といった静的な特徴に偏っており、電圧依存的に現れる構造揺らぎや状態変化といった動的情報を十分に活用できていませんでした。このように、「複雑な生体分子混合物を、ラベルフリーかつ高分解能に識別する」ことは大きな課題であり、それを解決する新しい解析フレームワークが求められていました。
図1:固体ナノポアによる分子測定のイメージ図
〈研究内容〉
研究グループは、まず大腸がんや膵がんなどの診断に用いられる腫瘍マーカー CEA(癌胎児性抗原)とCA15-3(乳がんマーカーとして知られるMUC1抗原由来タンパク質)を対象に、固体ナノポアを用いた解析を行いました。これらの分子は大きさや糖鎖修飾の程度が異なりますが、従来法では混在状態での識別が難しいことが知られています。
本研究では直径約12 nmの固体ナノポアを用い、-50 mVから-300 mVまで6種類の電圧条件下で分子を通過させ、その際に生じるイオン電流の変化を記録しました。その結果、電圧の上昇に伴いCEAとCA15-3の検出頻度に差が現れ、特に高電圧ではCEAの方が効率よく検出されることがわかりました。これは両分子の電荷や構造の違いに由来するものであると考えられます。
取得したシグナルをもとに、ランダムフォレスト(注3) やサポートベクターマシン(注4) といった機械学習アルゴリズムを用いて分類を行い、その性能を「電圧マトリックス」として可視化しました。その結果、特徴量の選び方によっては特定の電圧条件に依存して分類性能が過大評価される(過学習注5 が起こる)ことがわかりました。一方で、シグナルが通過していない時の電流値データであるベースラインに依存しない特徴量を選択することで、電圧をまたいでも安定した高い分類性能が得られることを確認しました(図2)。
この成果は、ナノポア解析において「電圧を変えて計測することで、分子識別の信頼性を高められる」ことを初めて明確に示したものです
図2:機械学習による電圧条件下での分子分類精度の比較
(A) ナノポア測定から抽出した特徴量セットAおよびBの概要。特徴量にはイベントの長さ、傾き、標準偏差、歪度などが含まれる。(B) ランダムフォレストによる分類性能(AUC値)のヒートマップ。広い電圧条件で安定した高い分類精度が得られた。(C) サポートベクターマシンによる分類性能。限られた条件では高精度を示すが、測定条件依存性が強いことが示された。(D) 特徴量の重要度解析。ランダムフォレストでは複数の特徴量がバランスよく利用されているのに対し、サポートベクターマシンでは特定の特徴量に依存する傾向が見られた。
次に研究グループは、CEAとCA15-3を混合したサンプルを用いて解析を行いました。複数の分子が同時に存在する現実的な状況で、各分子をどの程度正確に識別できるかを検証することが目的です。ナノポア測定では、混合試料から得られるイベント数(分子の通過回数)は、各分子の濃度や電荷、構造によって偏りが生じます。そのため、単純に分類結果を集計するだけでは実際の分子比率を反映できないという課題がありました。
そこで本研究では、分類結果の確率分布(ヒストグラム)を解析し、統計的に補正する方法を導入しました。具体的には、分類確率の分布を2つのピークに分けてモデル化し、最適な判定境界を推定することで、混合比率をより正確に再現できるようにしました(図3)。
その結果、1:1の質量比で混合したサンプルに対しても、電圧依存的な偏りを補正したうえで、実際のモル比に近い割合を推定できることを確認しました。さらに、このアプローチにより、電圧条件によってシグナル特性が変動する場合でも、安定した分子比の推定が可能になることが示されました。この成果は、ナノポア計測を用いて 「混合サンプル中の分子集団を半定量的に評価できる」 ことを実証したものであり、従来法では困難だった複雑な生体試料の解析に新しい道を拓くものです。
図3:ランダムフォレスト分類の最適化によるCEA予測精度の改善
(左) ランダムフォレストを用いたCEA分類における予測比率(Predicted CEA ratio)のヒートマップ。上段は未最適化モデル、下段は最適化後モデルを示す。未最適化モデルでは電圧条件によって分類性能にばらつきが見られるのに対し、最適化後モデルではより一貫した予測比率が得られた。
(右) CEA予測の信頼度分布ヒストグラム(学習電圧 −100 mV、テスト電圧 −250 mV)。最適化処理により、閾値(boundary)が調整され、分類精度が向上することが示された。
最後に研究グループは、実際の生体試料であるマウス血清を対象に、本手法の有効性を検証しました。具体的には、同じマウス血清を「遠心処理あり」と「遠心処理なし」の2種類に分け、別々に学習させ、学習用データと評価用データを80%、20%に分けたのちに分類を行いました。その結果、電圧条件を工夫することで、両者を高精度に分類できることがわかりました。特に−100 mVや−150 mVといった条件下では、遠心処理によって失われた分子集団のシグナル変化を捉え、機械学習により安定した識別が可能でした。
この結果は、電圧マトリックス・ナノポア解析が「特定の分子を直接識別する」だけでなく、分子集団の組成変化そのものを鋭敏に検出できる ことを意味します。既知のバイオマーカーが見つかっていない疾患であっても、血液や唾液といった生体試料の“分子プロファイルの揺らぎ”を捉えることで、新しい診断手法として応用できる可能性が広がります。
図4 :マウス血清サンプルにおける遠心処理の有無による分類
(A) 7週齢マウスから採取した血清を、4 °C・14,000×g・30分の遠心処理により「遠心処理血清」と「非遠心処理血清」に分画した。(B) ランダムフォレストを用いた両サンプルの分類性能(AUC値)。特徴量セットAおよびBのいずれにおいても、特定の電圧条件下でサンプルを識別できることが示された。
〈社会的意義・今後の予定〉
本研究で開発した「電圧マトリックス・ナノポアプロファイリング(電圧マトリックス解析)」は、電圧を多次元的な解析軸として活用することで、分子の識別性能を飛躍的に高める新しいアプローチです。これにより、既存の診断技術では困難であった「複雑な混合物中の分子状態の違い」や「生体試料における分子集団の変化」をラベルフリーで高精度に捉えることが可能になりました。
この成果は、複数の社会的意義をもちます。まずは新しい診断技術への展開として、既知のバイオマーカーが存在しない疾患においても、血液や唾液といった体液中の分子分布の変化を検出することで、早期診断やリスク評価に応用できる可能性があります。次に薬剤によるタンパク質の構造変化や結合状態の変化を、リアルタイムかつ非標識で解析できることから、薬剤スクリーニングや副作用の検出など、創薬開発を効率化する基盤技術として活用が期待されます。最後に並列型の固体ナノポア装置やマルチモーダル解析と組み合わせることで、臨床サンプルを対象とした実用的な診断プラットフォームへと発展することが見込まれます。今後は、より多様な分子や複雑な臨床サンプルを対象とした検証を進めるとともに、並列化された計測系の開発によって多次元的な解析をさらに高効率化する予定です。本研究で得られた知見は、生命科学や医療診断、さらには環境分析など幅広い分野に波及効果をもたらすと期待されます。
発表者・研究者等情報
東京大学大学院理学系研究科 生物科学専攻
上村 想太郎 教授
角田 達彦 教授
Lysenko Artem 准教授
飯塚 怜 助教
秋田 嶺 研究当時:修士課程
川井 大輝 修士課程
論文情報
-
雑誌名 Chemical Science 論文タイトル Voltage-Matrix Nanopore Profiling for the Discrimination of Protein Mixtures著者 Ryo Akita, Artem Lysenko, Keith A. Boroevich, Tatsuya Yokota, Daiki Kawai, Ryo Iizuka, Tatsuhiko Tsunoda, Sotaro Uemura*
(*:責任著者)DOI番号 10.1039/D5SC05182G
研究助成
本研究は、科学技術振興機構(JST) 戦略的創造研究推進事業CREST「生体環境からの AI 駆動型1分子ナノポア計測法の開発(研究代表者:上村想太郎)」(課題番号:JPMJCR2231)および戦略的創造研究推進事業K-プログラム「トランスロコン型ナノポア計測法による1分子ペプチドシークエンサーの開発(研究代表者:上村想太郎)」(課題番号:JPMJKP23H2)の支援を受けて実施されました。
用語解説
注1 固体ナノポア(ソリッドステートナノポア)
固体ナノポアとは、半導体基板などの無機固体に開いた直径がナノメートルスケールの孔のことです。ナノポアの両側を電解質で満たし、電圧を印加することで発生する電流を計測することをナノポア計測と呼びます。このとき、電荷を帯びた分子は孔に引き込まれるため、孔を塞ぐことがあり、その時の封鎖信号から分子の形状・大きさ・動態などを検出・識別することができます。↑
注2 ELISA法(酵素結合免疫吸着測定法)
Enzyme-Linked Immunosorbent Assay法は、抗体と抗原の特異的な結合を利用して、血液や体液中に含まれる特定のタンパク質や分子の量を調べる方法です。酵素の反応を利用して色の変化として結果を確認できるため、感度が高く、多くの医療検査や研究に広く使われています。↑
注3 ランダムフォレスト
多数の「決定木」と呼ばれる分類ルールを組み合わせて判定する機械学習の手法です。複数の木の結果を総合することで、個別の木よりも誤りが少なく、高精度にデータの特徴を見分けることができます。↑
注4 サポートベクターマシン
データをできるだけ明確に分ける境界線(ハイパープレーン)を探し出す機械学習の手法です。複雑なデータでも、うまく変換して「分けやすい形」にしてから分類できるのが特徴です。↑
注5 過学習
機械学習モデルが本来注目すべき分子そのものの特徴ではなく、測定条件の違いなど周辺的な要素を強く学習してしまうことで、新しいサンプルに対して正しく分子を分類できなくなる現象を指します。たとえば「分子の違い」ではなく「測定電圧や環境条件の差」に反応してしまい、誤った分類につながる場合があります。↑

