Decoding triancestral origins, archaic introgression, and natural selection in the Japanese population by whole- genome sequencing
Xiaoxi Liu et al.
We generated Japanese Encyclopedia of Whole- Genome/Exome Sequencing Library (JEWEL), a high- depth whole- genome sequencing dataset comprising 3256 individuals from across Japan. Analysis of JEWEL revealed genetic characteristics of the Japanese population that were not discernible using microarray data. First, rare variant–based analysis revealed an unprecedented fine-scale genetic structure. Together with population genetics analysis, the present- day Japanese can be decomposed into three ancestral components. Second, we identified unreported loss- of- function (LoF) variants and observed that for specific genes, LoF variants appeared to be restricted to a more limited set of transcripts than would be expected by chance, with PTPRD as a notable example. Third, we identified 44 archaic segments linked to complex traits, including a Denisovan- derived segment at NKX6- 1 associated with type 2 diabetes. Most of these segments are specific to East Asians. Fourth, we identified candidate genetic loci under recent natural selection. Overall, our work provided insights into genetic characteristics of the Japanese population.
원문 링크 : https://www.science.org/doi/10.1126/sciadv.adi8419
RIKEN(일본 이과학 연구소)의 연구자들이 중심이 되어, 발간한 이번 논문의 제 1 저자는 중국인 유학생으로 보이는 Xiao Liu입니다. 물론, 이 중국인 유학생이 제 1 저자라 해도, 논문의 전체적인 아웃라인은 교신저자들인 일본인 교수들이 제시하고, 그 가이드에 따라서, 논문을 썼을 테지만, 3,256명 이라는 방대한 규모의 일본인 전장유전체(WGS) 검사자료를 활용해서, RIKEN의 내노라하는 연구자들이 참여한 논문이 이런 결과물로 나온 것에 대해서, 좀 착잡한 생각이 듭니다. 사실 이러한 리뷰 글도 쓰고 싶지 않을 정도로 내키지 않는 논문이지만, 중국인과 일본인이 합작해서 어떤 사달을 벌이고 있는 지, 이들이 또 한국인을 어떻게 보는가를 알 수 있는 사례라고 보여서, 이 논문에서 주로 Ancestry에 관련된 내용만 간추려 소개하고, 비판하는 글을 적습니다.
위의 그림들에서 A)는 이번 연구에 포함된 일본 각 지방 샘플들의 지리적 위치를 나타낸 것입니다. B는 MAF(Minor Allele Frequency) > 0.01 이상의 common variants들로만 PCA 분석을 실행한 결과입니다. 이렇게 한 이유는 너무 특수한 rare variants들을 제외한 일반적인 유전적 경향을 파악하기 위함입니다. Okinawa 샘플이 본섬 지역들 Hondo(일본 혼슈, 홋카이도, 큐슈, 시코쿠 등의 4대섬 지역) 샘플들과 분리되어, 홀로 그래프 좌하변에 위치하는 것을 볼 수 있습니다. C)는 B)와 반대로, 0.001 < MAF <0.01 사이의 rare variants들만으로 PCA-UMAP을 실행한 결과입니다. rare variants는 일반적으로 common variants보다 늦게 발생하며, 인구집단간의 세밀한 차이를 반영하기 적합합니다. 오키나와 샘플들은 그래프 우하변에 완전히 혼도샘플들과 분리되고, 또 Northeast(일본 동북부)지역 샘플들이 다른 혼도샘플들과 뭉치지 않고, 그래프 좌상방으로 팔을 길게 뻗듯이 펼쳐져 있는 것이 눈에 뜁니다. 이로 볼 때, 일본동북부지방이 일본 본토 내 다른 지역들과 유전적으로 상당히 차이가 있다는 것을 알 수 있습니다.
D)는 이 논문의 분석대상인 현대일본 각 지역에서 나온 샘플들로만 Admixture test를 실행한 것입니다. 이 Admixre test는 좀 이상해 보입니다. 왜냐하면, Admixture test의 목적은 K값의 변화에 따라, 나타내는 가상의 조상인구집단(Ancestral population)이 각 샘플들에 어떠한 비율로 나타나는가를 알아 보는 것인 데, 현대일본인의 주류는 대륙 즉, 외부에서 온 인구집단들이 각지에 자리잡음으로서 형성되었기에, 이들의 조상인구집단을 파악하려면, 동아시아 각지의 다른 인구집단들과 함께, Admixture test를 실행하는 것이 적절하고, 대부분의 논문에서 admixture test는 가상의 조상인구집단이 될 뿐만 아니라, 실제적 조상인구집단일 가능성이 큰 인구집단들을 섞어서, 실행하는 것이 일반적이기 때문입니다.
앞에서 PCA와 PCA-UMAP을 일본열도 샘플들로만 행했기 때문에, 마치 Admixture test로 이렇게 하는 것이 자연스럽게 보일 수도 있지만, PCA test로 오키나와와 도호쿠 지역인들이 다른 지역사람들과 유전적으로 다르다는 것이 확인되었다면, 어떤 성분에 의해, 다르다는 것을 알기 위해서는 대륙의 다른 인구집단들과 섞어서, Admixture test를 하고, 이 조상인구집단의 어떤 성분들의 차이가 있기에, PCA와 PCA-UMAP에서 이러한 결과가 나오는 지를 확인할 수 있기 때문입니다. 하다 못해, 홋카이도의 아이누인이라도 같이, 섞어서 실행했다면, 오키나와와 도호쿠지역에서 조몽성분이 높게 나오는 것 때문에, 이들이 다른 지역인들과 분리된다는 사실을 명확히 보여 줄 수 있었을 것입니다.
일단, 위의 D) Admixture 결과를 살펴 보면, 오키나와샘플은 100% 녹색의 오키나와 성분으로 되어 있고, 동북지역(Northeast)은 K2로 명명한 붉은색 성분이 우세하고, 긴키지역이 중심이 서일본(West)는 K3로 명명한 파란색성분이 많이 나타나는 것을 볼 수 있습니다. 그래서 만일, 이 그래프로만 본다면, 마치 오키나와섬에서 유래한 녹색의 K1집단이 본섬의 각 인구집단들에도 일정비율로 존재하고, 동북지역에서 유래한 K2집단, 그리고, 서일본지역에서 유래한 K3집단 등, 이 세 지역에서 유래한 서로 다른 세 가지 인구집단이 일본 각 지역으로 퍼져 나간 것으로 해석할 수도 있습니다. 그러나, 이 Admixture 결과만 보면, 이전의 많은 일본인 상염색체를 다룬 논문들에서 조몽성분이 높은 오키나와와 도호쿠지역이 녹색과 붉은색의 왜 서로 다른 성분으로 표시 되는 지, 대륙에서 유래한 성분이 주가 되는 서일본과 동일본은 어떻게 다른 것인지, 잘 이해가 되지 않습니다. 뒤에서 이 문제를 이 논문에 나온 해석과 함께 다루어 보겠습니다.
그래프 E)는 그래프 C)의 UMAP1 즉, X축에서 -7.5부터 +5.0까지의 값들을 가지는 것으로 표시되어 있는 데, 이 UMAP1 값이 그래프 D)의 Admixture test에서의 K2 붉은색성분의 크기와 어떤 상관관계를 가지는 지를 표시한 것으로, K2 즉 붉은색 성분이 높을수록, UMAP1값이 적어지는 부정적 상관관계가 큰 것(Pearson coefficient = −0.69 )으로 나옵니다. 즉, K2성분의 대소와 PCA-UMAP 그래프에서의 위치와는 상관관계가 크다는 것으로 해석할 수 있고, 동북지역이 이러한 부정적 상관관계가 가장 크고, 서일본지역과 큐슈(South)가 이 성분이 적은 것을 알 수 있습니다.
--2편에서 계속