2020/10/14

都道府県レベルでみた日本人の遺伝的集団構造

 

~縄文人と渡来人の混血がもたらした本土日本人内の遺伝的異質性~

 

渡部 裕介(研究当時:生物科学専攻 博士課程3年生)

一色 真理子(研究当時:生物科学専攻 博士課程3年生)

大橋 順(生物科学専攻 准教授)

 

発表のポイント

  • 47都道府県に居住する日本人約11,000名の全ゲノムSNP遺伝子型データを解析し、現代日本人の遺伝的構造は各都道府県における縄文人と渡来人の混血の程度と地理的位置関係によって特徴づけられることを示した。
  • 都道府県レベルで日本人の遺伝的集団構造を初めて明らかにした。
  • 本研究により、日本人の形成過程の理解が進むだけでなく、疾患遺伝子関連研究において、適切な検体収集地域の選定が可能になると期待される。

 

発表概要

今回、東京大学大学院理学系研究科の渡部裕介・一色真理子大学院生(研究当時)と大橋順准教授は、47都道府県に居住する日本人約11,000名の全ゲノムSNP遺伝子型データを用いて、都道府県レベルで日本人の遺伝的集団構造を調べた。クラスター分析により、47都道府県は沖縄県とそれ以外の都道府県に分かれ、沖縄県以外は九州・中国地方、東北・北海道地方、近畿・四国地方の3つのクラスターに大別された。関東地方や中部地方の各県は1つのクラスター内に収まらなかった。主成分分析の結果、第1主成分は沖縄県との遺伝的距離と関連しており、第2主成分は緯度・経度と関連していた。これらの結果は、各都道府県の縄文人と大陸から来た渡来人との混血の程度の違いと地理的位置関係が現代日本人の遺伝的地域差を形成した主な要因であることを示唆している。

本研究は、都道府県レベルで日本人の遺伝的集団構造を初めて明らかにした。今後、不明な点が多い縄文人と渡来人の混血過程の理解が進むだけでなく、疾患遺伝子関連研究において、集団階層化によるバイアスを避けた検体収集が可能になると期待される。

 

発表内容

研究の背景・先行研究における問題点
現代の日本人(アイヌ人、琉球人、本土人)は、縄文人の系統と、渡来人の系統が混血した集団の子孫であることが示唆されている(Japanese Archipelago Human Population Genetics Consortium. 2012, J Hum Genet)。日本の7つの地域間の遺伝的異質性を指摘した先行研究があるが(Yamaguchi-Kabata et al. 2008, Am J Hum Genet)、中国地方や四国地方の県は含まれておらず、7つの地域に分けることの妥当性を含め、日本人集団の詳細な遺伝的集団構造やかかる構造を生じさせた要因はよく理解されていなかった。また、地域間の遺伝的異質性が不明なため、日本人を対象とする疾患遺伝子関連研究(注1) において、集団階層化によるバイアス(注2) を避けた検体の収集が困難であった。

 

研究内容
今回、東京大学大学院理学系研究科の渡部裕介・一色真理子大学院生(研究当時)と大橋順准教授らのグループは、ヤフー株式会社が提供するゲノム解析サービスHealthData Labの顧客11,069名の138,688か所の常染色体SNP(注3)遺伝子型データを用いて、日本人の遺伝的集団構造を調べた。まず、個体レベルで主成分分析(注4)を行い、琉球人(主に沖縄県)と本土人(主に沖縄県以外の46都道府県)が遺伝的に明瞭に分かれることを確認した(図1)。なお、本研究に用いたデータにはアイヌ人は含まれていないと考えられる。

図1:日本人11,069名と中国・北京の漢民族の主成分分析の結果。常染色体上の138,688か所のSNP遺伝子型データから各個体の主成分得点を求めてプロットした。

 

次に、47都道府県のそれぞれから50名ずつ無作為抽出して各SNPのアリル頻度を計算し、中国・北京の漢民族も含めてペアワイズにf2統計量(注5)を求めてクラスター分析(注6)を行った(図2)。

図2:47都道府県と中国・北京の漢民族を対象にしたクラスター分析の結果。日本地図上の番号が各都道府県に対応している。47都道府県を4つのクラスターに分けると、沖縄地方、東北・北海道地方、近畿・四国地方、九州・中国地方に大別された。

 

47都道府県を4つのクラスターに分けると、沖縄地方、東北・北海道地方、近畿・四国地方、九州・中国地方に大別された。関東地方や中部地方の各県は1つのクラスター内に収まらなかった。このことは、関東地方もしくは中部地方の都県を遺伝的に近縁な集団とみなすことはできず、そのような単位で日本人集団の遺伝的構造を論じることや、疾患遺伝子関連研究の対象検体を収集することは適切ではないことを示している。

47都道府県を対象に主成分分析を行ったところ(図3)、第1主成分は沖縄県と各都道府県の遺伝的距離を反映していた。沖縄県に遺伝的に最も近いのは鹿児島県であった。図2でクラスターを形成した地方に着目すると、九州地方と東北地方が沖縄県に遺伝的に近く、近畿地方と四国地方が遺伝的に遠かった。さらに、f2統計量の解析から、近畿地方や四国地方は中国・北京の漢民族に遺伝的に近いこともわかった。第2主成分は都道府県の緯度および経度と有意に相関していた(緯度:P-value = 3.21 × 10-12、経度:P-value = 2.38 × 10-14)。

図3:47都道府県を対象にした主成分分析の結果。

 

本研究の結果は、各都道府県の縄文人と大陸から来た渡来人との混血の程度の違いと地理的位置関係が本土人の遺伝的地域差を形成した主な要因であることを示唆している。大部分の渡来人は朝鮮半島経由で日本列島に到達したと考えられるが、朝鮮半島から地理的に近い九州北部ではなく、近畿地方や四国地方の人々に渡来人の遺伝的構成成分がより多く残っていることは、日本列島における縄文人と渡来人の混血過程を考えるうえで興味深い。本土人のゲノム成分の80%程度は渡来人由来であると推定されているが、近畿地方や四国地方には、さらに多くの割合の渡来人が流入したのかもしれない。また、地理的位置も遺伝的構造に影響していることや、沖縄県に遺伝的に近い九州地方と東北地方が互いには近縁でないことから、渡来人との混血時に縄文人は遺伝的に分化していたと考えられる。

 

社会的意義・今後の予定
本研究では、都道府県レベルで本土日本人の遺伝的集団構造を初めて明らかにした。47都道府県の遺伝的近縁関係がわかったことで、日本列島全域での縄文人と渡来人の混血過程の理解が進むと期待される。また、日本人集団を対象にした疾患遺伝子関連研究において、集団階層化によるバイアスを極力避けた、適切な検体収集地域の選定が可能になると期待される。

 

発表雑誌

雑誌名 Journal of Human Genetics
論文タイトル Prefecture-level population structure of the Japanese based on SNP genotypes of 11,069 individuals
著者 Yusuke Watanabe*, Mariko Isshiki*, Jun Ohashi (these authors contributed equally to this work)
DOI番号 10.1038/s10038-020-00847-0
アブストラクトURL https://www.nature.com/articles/s10038-020-00847-0

 

用語解説

注1 疾患遺伝子関連研究

多数の患者と対照の塩基配列を比較する(一般的には、多型のアリル頻度を比較する)ことで、疾患発症と関連する多型を検出する研究。関連多型が明らかになることで、疾患の発症機序の理解が進むだけでなく、各個体の発症リスクを推定することが可能となる。

注2 集団階層化によるバイアス

疾患遺伝子関連研究において、遺伝的背景の異なる患者と対照を調べると、疾患とは関連しない多型が見かけ上の関連(偽陽性)を示す可能性がある。統計学的手法によってバイアスを調整する努力もされているが、根本的に解決することは困難である。

注3 単塩基多型(SNP)

ヒトのDNAの塩基配列(A/T/G/Cの4種類の塩基による並び)を比較すると0.1%程度の違いがある。塩基配列の違いを多型といい、1つの塩基の違いによる多型を単塩基多型(single nucleotide polymorphism; SNP)とよぶ。

注4 主成分分析

多数の変数(多次元データ)から全体のばらつきをよく表す順に互いに直行する変数(主成分)を合成する多変量解析手法の一つ。主成分分析によって次元を削減することで、データ点を可視化することができる。本研究では、個体単位の解析では遺伝子型を、都道府県単位での解析ではアリル頻度を変数として用いた。

注5 f2統計量

2つの集団間の遺伝距離を測る尺度の一つ。SNPデータに対するf2統計量は、SNP毎にアリル頻度の集団間差の2乗を計算し、それらの平均値として与えられる。

注6 クラスター分析

多数の変数(多次元データ)からデータ点間の非類似度を求め、データ点をグループ分けする多変量解析手法の一つ。グループ分けが階層的になされる階層的手法と、特定のクラスター数に分類する非階層的手法がある。本研究では、階層的手法の一つであるウォード法を用いた。

 

―東京大学大学院理学系研究科・理学部 広報室―