|
|
Prokaryotic taxonomy and nomenclature in the age of big sequence data
The ISME Journal volume 15, pages1879–1892 (2021)Cite this article
35k Accesses
37 Altmetric
Abstract
The classification of life forms into a hierarchical system (taxonomy) and the application of names to this hierarchy (nomenclature) is at a turning point in microbiology. The unprecedented availability of genome sequences means that a taxonomy can be built upon a comprehensive evolutionary framework, a longstanding goal of taxonomists. However, there is resistance to adopting a single framework to preserve taxonomic freedom, and ever increasing numbers of genomes derived from uncultured prokaryotes threaten to overwhelm current nomenclatural practices, which are based on characterised isolates. The challenge ahead then is to reach a consensus on the taxonomic framework and to adapt and scale the existing nomenclatural code, or create a new code, to systematically incorporate uncultured taxa into the chosen framework.
초록
생명체를 계층적 체계(분류학)로 분류하고
이 계층에 이름을 부여하는(명명법) 작업은
미생물학에서 전환점을 맞이하고 있다.
유전체 서열의 전례 없는 가용성은
분류학자들이 오랫동안 추구해 온 포괄적인 진화적 틀 위에
분류학을 구축할 수 있음을 의미한다.
그러나
분류학적 자유를 보존하기 위해 단일 체계를 채택하는 데 저항이 존재하며,
배양 불가능한 원핵생물에서 유래한 게놈 수가 지속적으로 증가함에 따라
특성화된 분리주를 기반으로 한 현행 명명 관행을 압도할 위험이 있다.
따라서
앞으로의 과제는 분류학적 체계에 대한 합의를 도출하고,
기존 명명 규약을 조정·확장하거나 새로운 규약을 창안하여 선택된 체계에
배양 불가능한 분류군을 체계적으로 통합하는 것이다.
Similar content being viewed by others
Article Open access10 August 2024
SeqCode: a nomenclatural code for prokaryotes described from sequence data
Article Open access19 September 2022
A standardized archaeal taxonomy for the Genome Taxonomy Database
Article 21 June 2021
Introduction
Naming and classifying the world around us is a natural human prerogative for effective communication [1]. With regard to the biological sciences, formal structures first arose in the 1700s through the work of Linnaeus [2]. Linnaeus introduced the principles of modern biological taxonomy (arrangement of plants and animals into hierarchical categories) and nomenclature (rules for naming taxonomic groups of plants and animals), which today form the basis of biological classification. Originally taxonomy was based on shared properties (chiefly anatomical, but also biochemical and physiological), developmental processes (e.g., live birth vs. eggs) and behaviours (e.g., flight), later collectively termed phenotype to distinguish these features from hereditary information (genotype) [3]. This intuitively reflected the concept of common ancestry even though evolutionary theory had yet to be developed at the time of Linnaeus. This works quite well for animals and plants with a few celebrated red herrings, such as the long-held belief that hippos were most closely related to pigs based on anatomical similarities; genotype indicates that they are actually more closely related to whales [4]. Phenotype was also used for decades to classify microorganisms despite much less conspicuous morphological and developmental traits than animals and plants [5]. However, phenotype provides little insight into deep evolutionary relationships of microorganisms, which can only be discerned by comparison of conserved information-bearing macromolecules [6]. Moreover, the realisation that most microbial diversity had been overlooked because most microbes cannot easily be grown in the laboratory has further hamstrung microbial classification [7,8,9]. This review concerns microbial taxonomy and nomenclature with a primary focus on Bacteria and Archaea, from an historical perspective to modern day, and an exploration of how recent advances in culture-independent genome sequencing may be harnessed to provide a comprehensive and systematic classification of the microbial world.
소개
우리 주변의 세계에 이름을 붙이고 분류하는 것은
효과적인 의사소통을 위한
인간의 자연스러운 특권입니다 [1].
생물학 분야에서 공식적인 분류 체계는
1700년대 린네우스의 연구를 통해 처음 등장했습니다[2].
린네우스는
현대 생물학적 분류학(식물과 동물을 계층적 범주로 배열하는 것)과
명명법(식물과 동물의 분류군을 명명하는 규칙)의 원칙을 도입했으며,
이는 오늘날 생물학적 분류의 기초를 이룹니다.
원래 분류학은
공유된 특성(주로 해부학적이지만 생화학적·생리학적 특성도 포함),
발생 과정(예: 태생 vs. 알 낳음), 행동(예: 비행)을 기반으로 했으며,
이후 이러한 특징들을 유전 정보(유전자형)와 구분하기 위해 총칭하여 표현형이라 명명했다[3].
이는 진화론이 아직 정립되지 않았던
린네 시대에도 직관적으로 공통 조상 개념을 반영했다.
이는 해부학적 유사성에 근거해
하마가 돼지와 가장 가까운 친척이라는 오랜 믿음과 같은
몇몇 유명한 오해 사례를 제외하면
동물과 식물에 대해 상당히 잘 작동한다;
유전자형은
실제로 하마가 고래와 더 가까운 친척임을 나타낸다 [4].
표현형은
동물과 식물보다 훨씬 덜 뚜렷한 형태학적 및 발달적 특성을 지닌 미생물을 분류하는 데에도
수십 년간 사용되었다 [5].
그러나
표현형은 미생물의 깊은 진화적 관계를 거의 알려주지 못하며,
이는 보존된 정보 전달 고분자를 비교해야만 파악할 수 있다[6].
더욱이 대부분의 미생물은
실험실에서 쉽게 배양할 수 없어 대부분의 미생물 다양성이 간과되어 왔다는 사실이 밝혀지면서
미생물 분류는 더욱 어려움을 겪게 되었다[7,8,9].
본 리뷰는
역사적 관점에서 현대에 이르기까지
박테리아와 고세균에 중점을 둔 미생물 분류학 및 명명법을 다루며,
배양에 의존하지 않는 최근의 게놈 시퀀싱 기술 발전이
미생물계의 포괄적이고 체계적인 분류를 제공하는 데 어떻게 활용될 수 있는지 탐구한다.
Taxonomy: improving the framework
Taxonomy is most commonly defined in biology as the branch of science, which names and classifies organisms based on shared properties [10, 11]. However, here we define taxonomy according to its original Ancient Greek derivation as táxis for ‘order or arrangement’ and nomos meaning ‘law’ typically manifested as a hierarchical structure or framework in biology. We specifically exclude nomenclature from this definition, i.e., formal naming schemes and rules, which govern them, discussed separately below. We do this because taxonomy (thus defined) and nomenclature can and have operated independently, particularly in microbial classification, which can create conflicts (see below).
Taxonomy can be based on any combination of properties; however, beginning with Darwin’s recognition of common descent, biologists now agree that taxonomy should be based on evolutionary relationships as the most natural way of arranging organisms [12]. In this regard microorganisms have until recently been the most problematic taxa to arrange in a phylogenetic framework because their phenotypic properties for the most part do not reveal their common ancestry [6].
분류학: 체계 개선
생물학에서 분류학은
일반적으로 공통된 특성에 기반하여
생물을 명명하고 분류하는 과학 분야로 정의된다[10, 11].
그러나
본고에서는 고대 그리스어 어원인 '질서 또는 배열'을 뜻하는 táxis와
생물학에서 계층적 구조나 체계로 나타나는 '법칙'을 의미하는 nomos에 따라 분류학을 정의한다.
우리는 이 정의에서 명명법,
즉 공식적인 명명 체계와 이를 규율하는 규칙을 의도적으로 제외한다.
이는 아래에서 별도로 논의될 예정이다.
이러한 배제는 (이렇게 정의된) 분류학과 명명법이
특히 미생물 분류에서 독립적으로 운영될 수 있으며 실제로 운영되어 왔고,
이로 인해 갈등이 발생할 수 있기 때문이다(아래 참조).
분류학은 어떤 특성 조합을 기반으로 할 수 있으나,
다윈의 공통 조상 인식 이후 생물학자들은
이제 진화적 관계를 생물체를 배열하는 가장 자연스러운 방식으로 삼아야 한다는 데 동의한다[12].
이와 관련하여 미생물은
최근까지 계통 발생적 틀에서 배열하기 가장 어려운 분류군이었다.
왜냐하면
그들의 표현형적 특성 대부분이 공통 조상을 드러내지 않기 때문이다[6].
Phenotypic classification
The first modern attempt to systematically classify bacteria based on their phenotypic properties began with the first edition of Bergey’s Manual of Determinative Bacteriology in 1923, which categorised bacteria into a nested hierarchical classification to indicate differing levels of relatedness. Initially this comprised from highest (most distantly related) to lowest (most closely related) rank; class, orders, families, tribes, genera and species based on identification keys and tables of distinguishing characteristics [13]. The keys relied heavily on morphology, culturing conditions and pathogenic characters with the primary goal being practical identification of isolates at the species level rather than constructing an evolutionary framework. Numerical taxonomy, proposed by Sokal and Sneath in 1962 [14,15,16], provided a mathematical basis for quantitative comparisons of phenotypic properties between bacteria typically incorporating dozens of features. Although in principle, numerical taxonomy could incorporate phylogenetic information, in practice it was used primarily for identification and lacked a rigorous evolutionary framework. A heartfelt acknowledgement of the limited evolutionary resolution afforded by phenotypic characteristics was made on numerous occasions by Stanier and van Niel in the 1940s–1960s [17,18,19], where they concluded that it was a waste of time for taxonomists to attempt a natural system of classification (i.e., one based on evolution) for bacteria. However, it was during this period that the path forward to breaking the phenotype impasse was predicted by Zuckerkandl and Pauling through the use of informational macromolecules that could act as molecular clocks to infer evolutionary relationships [20].
표현형 분류
표현형 특성에 기반한 세균의 체계적 분류를 위한 최초의 현대적 시도는
1923년 발간된 『버지 세균학 판별 매뉴얼』
(Bergey’s Manual of Determinative Bacteriology)
초판에서 시작되었다.
이 책은
세균을 중첩된 계층적 분류 체계로 분류하여
서로 다른 수준의 관련성을 나타냈다.
초기 분류 체계는
최고위(가장 먼 관계)부터 최저위(가장 가까운 관계) 순으로,
동정 열쇠와 구별 특성 표를 기반으로 한
강(class), 목(order), 과(family), 속(tribe), 속(genus), 종(species)으로 구성되었다[13].
이 열쇠들은
주로 형태학, 배양 조건, 병원성 특성에 크게 의존했으며,
진화적 틀 구축보다는 종 수준에서 분리균을 실용적으로 동정하는 것이 주된 목표였다.
1962년 소칼(Sokal)과 스니스(Sneath)가 제안한 수치 분류학[14,15,16]은
일반적으로 수십 가지 특징을 포함하는 세균 간 표현형 특성의 정량적 비교를 위한
수학적 기반을 제공했다.
원칙적으로 수치 분류학은 계통 발생 정보를 통합할 수 있었으나,
실제로는 주로 동정 목적으로 사용되었으며
엄격한 진화적 틀이 부족했다.
1940년대부터 1960년대까지 스태니어(Stanier)와 반 닐(van Niel)은
형질적 특성이 제공하는 진화적 분해능의 한계를 여러 차례 진솔하게 인정했으며[17,18,19],
세균에 대한 자연 분류 체계(즉, 진화를 기반으로 한 분류 체계)를 시도하는 것은
분류학자들에게 시간 낭비라고 결론지었습니다.
그러나 바로 이 시기에
주커칸들(Zuckerkandl)과 폴링(Pauling)은
분자 시계 역할을 하여 진화적 관계를 추론할 수 있는 정보성 거대분자를 활용함으로써
표현형의 난관을 돌파할 수 있는 길을 제시했습니다[20].
Small subunit ribosomal RNA, the molecular pioneer of microbial classification
Inspired by the work of Zuckerkandl and Pauling, Woese began a search for a molecular chronometer that could form the basis of an evolutionary framework for all life. He landed upon the ribosome as a good candidate, most famously the small subunit ribosomal RNA (16S/18S rRNA) contained therein, due to its high sequence conservation holding together the structural core of the ribosome, interspersed with variable regions not under the same exacting selective pressure. The combination of these properties make small subunit rRNAs useful molecular clocks with both an hour and minute hand to measure ancient and more recent relationships [21,22,23,24]. Several other DNA-based classification methods have been developed over time, including DNA–DNA hybridization [25, 26], DNA G + C content [27, 28], pulsed-field gel electrophoresis [29, 30], and more recently multilocus sequence typing [31, 32] and multilocus sequence analysis [33, 34]. However, like their phenotypic predecessors these methods are not useful for deep phylogenetic reconstructions, whereas comparative analysis of small subunit rRNAs is able to provide an objective evolutionary framework across the tree of life. The highlight of Woese and his colleagues’ analyses was the discovery of Archaea [21] completely overlooked by identification keys because of the inability to frame phenotypic properties such as methanogenesis in the correct phylogenetic context [35].
The 16S rRNA gene was also instrumental in highlighting the enormous amount of microbial diversity missed by culturing methods [7, 11, 36]. Pace and colleagues were the first to characterise microorganisms via their 16S rRNA sequences obtained directly from the environment through the ingenious use of highly conserved ‘universal’ primers broadly targeting this molecule [22]. These primers were subsequently used to PCR-amplify 16S rRNA genes from extracted genomic environmental DNA. Mixed amplicons were then cloned and sequenced to provide profiles of the in situ microbial community [37]. As sequencing technologies improved, the cloning step could be omitted, and thousands of samples from dozens of habitats were readily profiled [38,39,40], which brought with it a plethora of databases and tools for analysing and classifying 16S rRNA gene sequences (Table 1). By the end of the 1990s, the redefining of prokaryotic taxonomy through the lens of 16S rRNA sequences was sufficient to induce Bergey’s Manual Trust to transition from traditional phenotype-based classification to a 16S rRNA-based phylogenetic framework in the second edition (2001–2012) of Bergey’s Manual of Systematic Bacteriology [41].
미생물 분류의 선구자, 소형 리보솜 RNA
Zuckerkandl과 Pauling의 연구에 영감을 받은 Woese는
모든 생명체의 진화적 틀을 형성할 수 있는
분자 시계 장치를 찾기 시작했습니다.
그는 리보솜, 특히 그 안에 포함된
소서브유닛 리보솜 RNA(16S/18S rRNA)를 유망한 후보로 선정했습니다.
이 RNA는
리보솜의 구조적 핵심을 유지하는 높은 서열 보존성을 지니면서도
동일한 엄격한 선택 압력을 받지 않는
가변 영역이 산재해 있기 때문입니다.
small subunit ribosomal RNA (16S/18S rRNA) contained therein, due to its high sequence conservation holding together the structural core of the ribosome, interspersed with variable regions not under the same exacting selective pressure.
이러한 특성들의 조합으로 소단위체 rRNA는
고대 및 최근의 관계를 측정할 수 있는 시침과 분침을 모두 갖춘
유용한 분자 시계 역할을 한다 [21,22,23,24].
시간이 지남에 따라
그리고 최근에는 다중 유전자좌 서열 타이핑[31, 32] 및 다중 유전자좌 서열 분석[33, 34] 등
여러 다른 DNA 기반 분류 방법이 개발되었습니다.
그러나 이러한 방법들은
형질 기반 선행 기법들과 마찬가지로 깊은 계통 발생 재구성에 유용하지 않은 반면,
소서브유닛 rRNA의 비교 분석은 생명나무 전반에 걸쳐
객관적인 진화적 틀을 제공할 수 있습니다.
우즈(Woese)와 동료들의 분석에서 가장 주목할 점은
고세균(Archaea)의 발견이었습니다[21].
이는
메탄생성과 같은 형질적 특성을 올바른 계통 발생적 맥락에 배치할 수 없었기 때문에
식별 키에 의해 완전히 간과되었습니다[35].
16S rRNA 유전자는
또한 배양법으로 놓친 방대한 미생물 다양성을 부각시키는 데 중요한 역할을 했다[7, 11, 36].
Pace와 동료들은
이 분자를 광범위하게 표적하는 고도로 보존된 ‘범용’ 프라이머를 독창적으로 활용하여
환경에서 직접 얻은 16S rRNA 서열을 통해
미생물을 최초로 특성화했다[22].
이후 이 프라이머들은 추출된 환경 유전체 DNA에서
16S rRNA 유전자를 PCR 증폭하는 데 사용되었다.
혼합 증폭 산물은
클로닝 및 시퀀싱을 거쳐 현장 미생물 군집 프로파일을 제공했다 [37].
시퀀싱 기술이 발전함에 따라 클로닝 단계를 생략할 수 있게 되었고,
수십 개의 서식지에서 채취한 수천 개의 샘플을 손쉽게 프로파일링할 수 있게 되었다[38,39,40].
이로 인해
16S rRNA 유전자 서열을 분석하고 분류하기 위한
방대한 데이터베이스와 도구들이 등장했다(표 1).
1990년대 말까지,
16S rRNA 염기서열을 통해 원핵생물 분류학을 재정의하는 것은
버지 매뉴얼 트러스트(Bergey’s Manual Trust)가 버지 매뉴얼의 제2판(2001–2012)에서
전통적인 표현형 기반 분류에서
16S rRNA 기반 계통 발생학적 체계로 전환하도록 유도하기에 충분했다 [41].
Table 1 Online taxonomic and nomenclatural resources.
Name of resourceTax/NomaType (16S, G,M)bTaxonomic scopeNumber of sequences in current releaseYear commencedHyperlink to resourceReferences
| RDP | Tax | 16S/28S | Bacteria, Archaea, Fungi | RDP Release 11 3,356,809 16S 125,525 28S | 1992 | https://rdp.cme.msu.edu/ | [123, 124] |
| SILVA | Tax | 16S/18S, 23S/28S | Bacteria, Archaea, Eukaryotes | Silva SSU/LSU 132 6,073,181 SSU 907,382 LSU | 2008 | https://www.arb-silva.de/ | [125,126,127] |
| EzBioCloud | Tax | 16S, G | Bacteria, Archaea | Aug 06, 2019 81,189 taxa 64,416 16S 146,704 genomes | 2010 | https://www.ezbiocloud.net/ | [128] |
| Greengenes | Tax | 16S | Bacteria, Archaea | Out of commission | 2006–2013 | https://greengenes.secondgenome.com/ | [129, 130] |
| MIDAS | Tax | 16S | Bacteria, Archaea | Jun-2020 4,245 species | 2015 | http://www.midasfieldguide.org/ | [131, 132] |
| NCBI | Tax | 16S,G | Bacteria, Archaea, Eukaryotes, Metazoa, Viridiplantae, Viruses | Jun-2020 905,918 species | 1993 | https://www.ncbi.nlm.nih.gov/taxonomy | [133] |
| GTDB | Tax | G | Bacteria, Archaea | 05-RS95 194,600 genomes | 2018 | https://gtdb.ecogenomic.org/ | [44] |
| TYGS | Tax | G | Bacteria, Archaea | Jun-2020 11,819 genomes | 2019 | https://tygs.dsmz.de/ | [134] |
| JGI IMG | Tax | G | Bacteria, Archaea, Eukaryotes, Virus | Aug-2019 104,759 genomes | 2006 | https://genome.jgi.doe.gov/portal/ | [135, 136] |
| IJSEM | Nom | 16S,G,M | Bacteria, Archaea | 1951 | https://www.microbiologyresearch.org/content/journal/ijsem | [5] | |
| LPSN/DSMZ | Nom | 16S,G | Bacteria, Archaea | May-2020 18,678 16S, 77,990 strain deposits | 1997 | https://lpsn.dsmz.de/ | [112, 137, 138] |
| Namesforlife | Tax, Nom | 16S,G | Bacteria, Archaea | Sep-2019 16,335 16S, 10,877 genomes | 2004 | https://www.namesforlife.com/ | [139] |
| Cyanotype | Tax | 16S | Cyanobacteria | 386 strains | 2017 | http://lege.ciimar.up.pt/cyanotype/ | [140] |
| CyanoDB | Tax,Nom | 16S,G,M | Cyanobacteria | Sep-2019 1635 taxa | 2004 | http://www.cyanodb.cz/ | [141] |
| AlgaeBase | Tax,Nom | 16S/18S,G,M | Algae, Cyanobacteria | Sep-2019 156,143 species | 1996 | https://www.algaebase.org/ | [142] |
| StrainInfo | Tax, Nom | 16S,G,M | Bacteria, Archaea, Fungi | Out of commission | 2014–2018 | http://www.straininfobreak.ugent.be/ | [143] |
Polyphasic taxonomy emerged as an approach to integrate phenotypic and genotypic characteristics in order to produce a consensus taxonomy that best reflected the many and varied attributes of biological organisms [10]. The original definition of polyphasic taxonomy by Colwell in 1970 predated and made no reference to phylogenetic inference, but with the advent of 16S rRNA analysis, phylogenetic classification rose to prominence [42]. Due to the high sequence conservation of the 16S rRNA gene, polyphasic taxonomy was stratified such that 16S rRNA trees informed classifications at and above the rank of genus, whereas species and subspecies level delineations were better accommodated by chemotaxonomic methods such as multilocus enzyme electrophoresis and whole-cell protein analysis, and more recently by comparison of genome sequences [26, 42, 43]. The advent of whole-genome sequencing, and its rapid acceleration in recent years due to technological advances has provided increasing impetus for bacterial and archaeal taxonomy to transition again, this time from a 16S rRNA-based to a genome-based classification [44, 45].
다상 분류학은
생물체의 다양하고 복잡한 속성을 가장 잘 반영하는 합의된 분류 체계를 구축하기 위해
표현형 및 유전자형 특성을 통합하는 접근법으로 등장하였다[10].
1970년 콜웰이 제시한 다상 분류학의 원초적 정의는
계통 발생적 추론을 선행했으며
이에 대한 언급이 없었으나,
16S rRNA 분석의 등장과 함께 계통 발생적 분류가 주목받게 되었다 [42].
16S rRNA 유전자의 높은 서열 보존성으로 인해,
다상 분류학은 계층화되어 16S rRNA 계통수는
속(屬) 등급 이상의 분류에 정보를 제공한 반면,
종(種) 및 아종(亞種) 수준의 구분은
다위소 효소 전기영동 및 전세포 단백질 분석과 같은 화학적 분류학적 방법,
그리고 최근에는 게놈 서열 비교를 통해 더 잘 수용되었다 [26, 42, 43].
전장 유전체 시퀀싱의 등장과 기술 발전으로 인한 최근 몇 년간의 급속한 가속화는
박테리아 및 고세균 분류학이 다시 한번 전환하는 데 점점 더 큰 추진력을 제공해 왔으며,
이번에는 16S rRNA 기반 분류에서 유전체 기반 분류로 전환하고 있다 [44, 45].
whole-genome sequencing
Genome-based classification
As with the 16S rRNA gene, genome sequences can be used to construct a robust phylogenetic framework on which to base a systematic classification [44]. Enormous advances in both high-throughput sequencing and high-performance computing have enabled sequenced genomes to form the basis of a classification framework. Genome-based classification affords greater resolution than the 16S rRNA gene (which represents only 0.05% of an average 3-Mbp prokaryotic genome) for both the most ancient and most recent relationships due to a larger fraction of the genome being used in the comparison, which provides an improved phylogenetic signal [46,47,48]. However, since most gene families have some history of horizontal gene transfer between organisms, genome-based phylogenies typically use a subset of conserved vertically inherited genes as the basis of the inference [49,50,51]. A notable exception is the rank of species for which methods using much greater fractions of the genome have been developed (Box 1). Two main approaches exist for building evolutionary trees from genome sequences; supertrees and supermatrices. In the construction of supertrees, independent gene trees are created and then combined to produce a single, consensus estimate of phylogenetic relationships between organisms [52,53,54]. Supermatrices involve concatenating genes into a single phylogenetic matrix of aligned sequences from which the tree is then inferred [47, 55,56,57]. Both methods have been used successfully to infer phylogenies across the tree of life, and in a recent direct comparison of a bacterial supertree and supermatrix, had a 98.2% taxonomic congruence despite being based on different sets of marker genes [58]. Other classification methods, which make use of genome sequences include similarity measures between pairs of genomes either at the level of encoded proteins (average amino acid identity) [59], or nucleotides (average nucleotide identity (ANI)) [59, 60] and digital DNA–DNA hybridisation [61, 62]. However, these methods do not use an explicit evolutionary model like supertrees and supermatrices and are used primarily for defining and identifying species (Box 1).
게놈 기반 분류
16S rRNA 유전자와 마찬가지로,
게놈 서열은 체계적 분류의 기반이 되는 견고한 계통 발생학적 틀을 구축하는 데
활용될 수 있다[44].
대량 시퀀싱과 고성능 컴퓨팅의 엄청난 발전으로 인해,
시퀀싱된 게놈이 분류 체계의 기초를 형성할 수 있게 되었다.
high-throughput sequencing and high-performance computing
게놈 기반 분류는
비교에 사용되는 게놈의 더 큰 부분을 활용함으로써
개선된 계통 발생 신호를 제공하여,
가장 오래된 관계와 가장 최근의 관계 모두에 대해
16S rRNA 유전자(평균 3Mbp 원핵생물 게놈의 0.05%만을 대표함)보다
그러나
대부분의 유전자 군은 생물체 간 수평적 유전자 전달의 역사를 지니고 있기 때문에,
게놈 기반 계통 발생학은
일반적으로 보존된 수직적 유전 유전자 하위 집합을 추론의 기초로 사용한다[49,50,51].
주목할 만한 예외는
종의 계급으로, 여기에는 훨씬 더 큰 비율의 게놈을 사용하는 방법이 개발되었다(박스 1).
게놈 서열로부터 진화 계통수를 구축하는 데는
두 가지 주요 접근법이 존재한다:
슈퍼트리(supertree)와 슈퍼매트릭스(supermatrix).
슈퍼트리 구축에서는
독립적인 유전자 계통수를 생성한 후 이를 결합하여
생물체 간 계통발생 관계에 대한 단일 합의 추정치를 도출한다[52,53,54].
슈퍼매트릭스는
정렬된 서열로 구성된 단일 계통발생 매트릭스로 유전자들을 연결한 후
이를 통해 계통수를 추론하는 방식이다[47, 55,56,57].
두 방법 모두 생명나무 전반에 걸쳐 계통을 성공적으로 추론하는 데 사용되어 왔으며,
최근 세균 슈퍼트리와 슈퍼매트릭스의 직접 비교에서
서로 다른 마커 유전자 집합을 기반으로 했음에도 불구하고
98.2%의 분류학적 일치도를 보였다[58].
게놈 서열을 활용하는 다른 분류 방법으로는
암호화된 단백질 수준(평균 아미노산 동일성) [59] 또는
뉴클레오티드 수준(평균 뉴클레오티드 동일성(ANI)) [59, 60]에서
게놈 쌍 간의 유사도 측정, 그리고 디지털 DNA-DNA 하이브리다이제이션 [61, 62]이 포함됩니다.
그러나 이러한 방법들은
수퍼트리나 수퍼매트릭스와 같은 명시적인 진화 모델을 사용하지 않으며,
주로 종의 정의 및 식별에 활용됩니다(Box 1).
Like 16S rRNA sequences, genome sequences have been extended into the uncultured domain via shotgun sequencing of environmental samples. This metagenomic approach has also benefitted greatly from improvements in sequencing and computation, and today it is possible to recover near-complete or even complete genome sequences of naturally occurring microbial populations from environmental DNA, so-called metagenome-assembled genomes (MAGs) [63,64,65]. Indeed, the number of available MAGs is rapidly eclipsing the number of isolate genomes due to the relative ease of obtaining multiple MAGs from a single metagenome [9]. In instances where retrieval of genome sequences of low abundance or heterogeneous populations from environmental samples is not feasible, single cell genomics has advanced to the point where single-amplified genomes (SAGs) can represent such taxa [8, 66, 67]. This rapid accumulation of genome data from uncultured taxa raises an enormous challenge for classification, both in terms of taxonomic placement and nomenclature (see ‘Nomenclature: controlling the vocabulary’). It is estimated that uncultured taxa represent upwards of 85% of microbial diversity according to Faith’s phylogenetic diversity metric [8] meaning that taxonomic frameworks established over previous decades have major gaps in them. This issue is even more pronounced in the viral world with a recent estimate of 1031 bacteriophage in the environment represented by only a few thousand sequenced genomes [68].
16S rRNA 서열과 마찬가지로,
게놈 서열은 환경 시료의 샷건 시퀀싱을 통해 배양 불가능한 영역으로 확장되었습니다.
이 메타게놈 접근법은 시퀀싱 및 계산 기술의 발전으로 큰 혜택을 받았으며,
오늘날 환경 DNA로부터 자연 발생 미생물 군집의 거의 완전하거나 심지어 완전한 게놈 서열을 복원하는 것이 가능해졌습니다.
이를 소위 메타게놈 조립 게놈(MAGs)이라 합니다[63,64,65].
실제로 단일 메타게놈에서 다수의 MAG를 비교적 쉽게 얻을 수 있기 때문에[9], 이용 가능한 MAG의 수가 분리된 게놈 수를 빠르게 추월하고 있다. 환경 시료에서 낮은 풍부도나 이질적인 군집의 게놈 서열을 회수하는 것이 불가능한 경우, 단일 세포 유전체학이 발전하여 단일 증폭 게놈(SAGs)이 그러한 분류군을 대표할 수 있게 되었다[8, 66, 67]. 배양 불가능한 분류군으로부터의 게놈 데이터가 이처럼 급속히 축적되면서 분류학적 위치 지정과 명명법 측면 모두에서 분류에 대한 막대한 도전 과제가 제기되고 있다(‘명명법: 어휘 통제’ 참조). Faith의 계통발생학적 다양성 지표[8]에 따르면 미배양 분류군이 미생물 다양성의 85% 이상을 차지하는 것으로 추정되며, 이는 지난 수십 년간 구축된 분류 체계에 중대한 공백이 존재함을 의미한다. 이 문제는 바이러스계에서 더욱 두드러지는데, 최근 환경 내 존재하는 10³¹개의 박테리오파지 중 시퀀싱된 게놈은 불과 수천 개에 불과한 것으로 추정된다[68].
It is widely recognised that prokaryotic taxonomy is riddled with phylogenetic inconsistencies (polyphyletic taxa) due to historical use of phenotypic data [69], chimeric 16S rRNA gene sequences from PCR-based environmental surveys [70], and premature conclusions based on phylogenetic reconstructions lacking suitable outgroups [71]. These problems have been compounded by the tidal wave of gene and genome sequences from uncultured taxa. Consequently, several databases and tools have been developed to try to address these shortcomings through the establishment of robust phylogenetic frameworks for microbial classification, firstly using 16S rRNA gene sequences, and more recently using genome sequences (Table 1). All of these resources face the same technical challenge of having to compare hundreds of thousands of sequences to each other to provide a global view of microbial diversity, which is difficult for individual genes and more so for genomes. However, common features of successful resources include computationally cheap dereplication of sequences and inference of a robust and scalable evolutionary framework. Whether these resources continue to scale with the rapidly increasing sequence database remains to be seen.
원핵생물 분류학은 역사적으로 형질 데이터의 사용[69], PCR 기반 환경 조사에서 유래한 키메라 16S rRNA 유전자 서열[70], 적절한 외부군을 포함하지 않은 계통 발생 재구성에 기반한 성급한 결론[71] 등으로 인해 계통 발생학적 불일치(다계통 분류군)로 가득 차 있다는 점이 널리 인정되고 있다. 이러한 문제들은 배양 불가능한 분류군으로부터 쏟아져 나오는 유전자 및 게놈 서열의 홍수로 인해 더욱 악화되었습니다. 결과적으로, 미생물 분류를 위한 견고한 계통 발생적 틀을 구축함으로써 이러한 결점을 해결하기 위해 여러 데이터베이스와 도구가 개발되었습니다. 초기에는 16S rRNA 유전자 서열을 사용했으며, 최근에는 게놈 서열을 활용하고 있습니다(표 1). 이러한 모든 자원은 미생물 다양성의 전체적 관점을 제공하기 위해 수십만 개의 서열을 서로 비교해야 하는 동일한 기술적 과제에 직면해 있습니다. 이는 개별 유전자에 대해서도 어렵지만, 게놈에 대해서는 더욱 그렇습니다. 그러나 성공적인 자원의 공통적 특징으로는 계산 비용이 낮은 서열 중복 제거와 견고하며 확장 가능한 진화적 계통 구조의 추론이 포함된다. 이러한 자원들이 급속히 증가하는 서열 데이터베이스와 함께 계속 확장될 수 있을지는 지켜봐야 할 문제이다.
Historically, definition of ranks based on phenotypic data has been highly subjective, particularly for ranks above species. The introduction of gene and genome-based classification has provided the opportunity to define genus and higher ranks based on objectively quantifiable sequence similarities. In 2014, Yarza and colleagues proposed standardised thresholds for defining prokaryotic lineages from genus to phylum based on 16S rRNA gene sequence identities [11]. While certainly removing many inconsistencies in existing taxonomic classifications, and having the benefit of accommodating uncultured taxa, this approach does not take into account phylogenetic relationships and variable rates of evolution between lineages. As such, fast-evolving groups with more divergent 16S rRNA sequences are classified in higher than expected ranks, such as mycoplasma bacteria which constitute two phyla by this identity-based criterion. Vertebrate-associated mycoplasmas, however, are estimated to have diverged from their arthropod-associated sister lineage (ureaplasmas) only 400 Mya, which is much later than the estimated primary diversification of bacterial phyla (2–3 Gya) [44]. This issue can be offset by use of relative evolutionary divergence (RED) distances, which normalise for variable substitution rates across a phylogenetic tree [44]. After RED correction on a concatenated conserved marker gene tree, mycoplasmas were classified into a single order within the phylum Firmicutes more consistent with their estimated time of divergence from ureaplasmas, suggesting that this approach may be better suited for systematically defining higher ranks than uncorrected identity thresholds [44].
Finally, it is important to note that there is no official prokaryotic taxonomy to ensure freedom of taxonomic opinion, but also because underlying technologies used to define taxonomic hierarchies have been changing so rapidly [1, 72]. However, different taxonomies incorporating named prokaryotic isolates have been effectively linked through an official nomenclature.
역사적으로 형질 데이터에 기반한 계급 정의는 특히 종 이상의 계급에서 매우 주관적이었습니다. 유전자 및 게놈 기반 분류법의 도입은 객관적으로 정량화 가능한 서열 유사성에 기반해 속(屬) 및 상위 계급을 정의할 기회를 제공했습니다. 2014년 Yarza와 동료들은 16S rRNA 유전자 서열 동일성을 기반으로 속(屬)부터 문(門)까지 원핵생물 계통을 정의하기 위한 표준화된 기준값을 제안했습니다[11]. 이 접근법은 기존 분류학적 분류의 많은 불일치를 제거하고 배양 불가능한 분류군을 수용할 수 있다는 장점이 있지만, 계통발생학적 관계와 계통 간 진화 속도 차이를 고려하지 않습니다. 따라서 16S rRNA 서열이 더 다양하게 진화한 빠르게 진화하는 그룹은 예상보다 높은 계급으로 분류됩니다. 예를 들어, 이 동일성 기준에 따르면 마이코플라스마 박테리아는 두 문(門)을 구성합니다. 그러나 척추동물 관련 마이코플라즈마는 절지동물 관련 자매 계통(우레아플라스마)과 불과 4억 년 전에 분기된 것으로 추정되며, 이는 박테리아 문(門)의 주요 분화 시기(2~30억 년 전)보다 훨씬 늦은 시점이다[44]. 이 문제는 계통 발생 나무 전반에 걸쳐 가변적인 치환률을 정규화하는 상대적 진화 분기(RED) 거리를 사용함으로써 상쇄될 수 있습니다 [44]. 연결된 보존 마커 유전자 계통수에 RED 보정을 적용한 결과, 마이코플라즈마는 우레아플라스마와의 분기 시점 추정치와 더 일치하는 Firmicutes 문 내 단일 목으로 분류되었으며, 이는 보정되지 않은 동일성 기준보다 이 접근법이 상위 분류군 체계적 정의에 더 적합할 수 있음을 시사한다[44].
마지막으로, 분류학적 의견의 자유를 보장하기 위해서뿐만 아니라 분류 계층을 정의하는 데 사용되는 기반 기술이 급속히 변화해 왔기 때문에 공식적인 원핵생물 분류체계가 존재하지 않는다는 점을 주목할 필요가 있다[1, 72]. 그러나 명명된 원핵생물 분리주를 포함하는 서로 다른 분류체계들은 공식 명명법을 통해 효과적으로 연결되어 왔다.
Box 1 Species—a foundational taxonomic unit and biological entity
Species are the cornerstone of both taxonomy and nomenclature; however, what constitutes a prokaryotic species has been widely debated over the years [3, 144,145,146,147]. For classification purposes, species definitions based on phenotypic properties have been necessarily practical using a combination of traits that together are deemed to be diagnostic of a species, but individually are often not unique to a given species such as cell morphology and use of different carbon sources. Since the discovery of DNA, more objective operational definitions of a species based on sequence similarity thresholds have been favoured, beginning with DNA:DNA hybridization of ≥70% [148, 149], 16S rRNA similarities of ≥97% [150] and most recently ANI of ≥95% [59, 60, 151, 152]. By contrast, a biological species concept has been widely applied in zoological taxonomy based on the ability of species to recombine their DNA (i.e., reproduce) with members of their own species, but not with members of other species [153]. It was recently proposed that this biological species concept could be extended to all lifeforms including asexually reproducing prokaryotes using their genome sequences [154]. By informatically identifying groups of bacterial strains that freely exchange genes through homologous recombination from those that do not, species were able to be circumscribed based on recombination barriers that did not necessarily conform to a fixed sequence similarity threshold [154]. Ultimately, taxonomies based on bona fide biologically defined species would be the best natural classification system. This would also be a step in the right direction for microbial ecologists who wish to address species as meaningful biological rather than operational units [146, 147].
종은 분류학과 명명법의 초석이다. 그러나 원핵생물 종의 구성 요소에 대해서는 수년간 광범위한 논쟁이 이어져 왔다[3, 144,145,146,147]. 분류 목적상, 종의 정의는 표현형적 특성에 기반하여 종을 진단하는 데 함께 사용되는 특성의 조합을 사용하여 필연적으로 실용적이었지만, 개별적으로는 종종 특정 종에 고유하지 않은 세포 형태 및 다양한 탄소원 사용과 같은 특성을 사용했습니다. DNA 발견 이후, 서열 유사도 기준에 기반한 보다 객관적인 종의 운영적 정의가 선호되어 왔으며, 이는 DNA:DNA 혼성화 ≥70%[148, 149], 16S rRNA 유사도 ≥97%[150], 그리고 최근에는 ANI ≥95%[59, 60, 151, 152]로 발전해 왔다.. 반면, 생물학적 종 개념은 종이 자신의 종 구성원과만 DNA를 재조합(즉, 번식)할 수 있지만 다른 종 구성원과는 할 수 없다는 능력에 기반하여 동물 분류학에서 널리 적용되어 왔다[153]. 최근 이 생물학적 종 개념을 무성생식을 하는 원핵생물을 포함한 모든 생명체로 확장할 수 있다는 제안이 제기되었는데, 이는 그들의 게놈 서열을 활용하는 방식이다 [154]. 정보학적으로 동종 재조합을 통해 유전자를 자유롭게 교환하는 박테리아 균주 집단과 그렇지 않은 집단을 구분함으로써, 반드시 고정된 서열 유사성 기준에 부합하지 않는 재조합 장벽을 기반으로 종을 규정할 수 있게 되었다 [154]. 궁극적으로 생물학적으로 진정하게 정의된 종에 기반한 분류체계가 가장 자연스러운 분류 체계가 될 것이다. 이는 종을 운영적 단위가 아닌 의미 있는 생물학적 단위로 다루고자 하는 미생물 생태학자들에게도 올바른 방향으로의 한 걸음이 될 것이다 [146, 147].
Nomenclature: controlling the vocabulary
The development of nomenclatural codes
Nomenclature, the business of systematically naming things, was first proposed for biological entities (plants and subsequently animals) by Linnaeus in the mid 1700s in which he introduced the concept of a taxonomic hierarchy (described above). Most famously this included the binomial nomenclature system comprising the two lowest canonical ranks: genus and species [73]. His work became the foundation for hierarchical taxonomy in both botany and zoology with the establishment of nomenclatural codes over 100 years later, most recently called the International Code of Nomenclature for algae, fungi and plants (ICN or Botanical Code) founded in 1867 and International Code of Zoological Nomenclature (Zoological Code) founded in 1905, in which a set of rules for naming plants (and algae and fungi) and animals was laid out and controlled by elected committees of experts. Until 1947, microorganisms had been predominantly classified under the Botanical Code because bacteria had traditionally been considered fungi [74, 75]. In 1930 at the First International Congress of Microbiology in Paris, it was proposed that bacteria and viruses should have their own code, resulting in the Revised Edition of the International Code of Nomenclature of Bacteria and Viruses in 1958, today called the International Code of Nomenclature of Prokaryotes (Prokaryotic Code) [76] to reflect the inclusion of archaea and removal of viruses [77] (Fig. 1). One notable exception is the bacterial phylum Cyanobacteria, which is still mostly classified under the Botanical Code due to the association of oxygenic photosynthesis with plants (Box 2). Additional codes have been proposed for specific subsets of taxa including cultivated plants (ICNCP; 1952), viruses (ICVCN or Virus Code; 1966) and plant associations (ICPN; 1976) resulting in the six International Codes recognised today each controlled by a committee of experts (Fig. 1). The Prokaryotic Code is unusual amongst these codes in that its nomenclature was effectively rebooted in 1980, whereby all bacterial names proposed to that point were made null and void due to the high number of synonyms and inadequate or non-uniform descriptions, and an ‘Approved Lists of Bacterial Names’ was established. Names not on those lists lost their standing in nomenclature [78]. All codes have in common the use of type specimens or strains, which serve as a permanent reference for a given species name. However, what constitutes type material (Box 3), the specific ranks used, and rules governing how names are established for each rank vary markedly between the different codes [76, 79, 80]. For example, the Prokaryotic Code requires all names be treated as Latin regardless of their origin and that ranks above genus be based on the stem of the type genus name [76]. By contrast the Virus Code only requires that names be alphabetical, and most recently proposed that higher ranks cannot be based on lower rank names [81, 82].
명명법: 어휘 통제
명명법 규약의 발전
생물체(식물 및 이후 동물)에 대한 체계적 명명 작업인 명명법은 1700년대 중반 린네우스에 의해 최초로 제안되었으며, 그는 여기서 분류학적 계층 구조 개념(위에서 설명됨)을 도입했다. 가장 유명한 것은 두 가지 가장 낮은 표준 계급인 속(屬)과 종(種)으로 구성된 이명법 체계를 포함한다[73]. 그의 작업은 100년 이상 후에 제정된 명명 규약, 가장 최근에는 1867년 제정된 국제 조류·균류·식물 명명 규약(ICN 또는 식물 명명 규약)과 1905년 제정된 국제 동물 명명 규약(동물 명명 규약)으로, 선출된 전문가 위원회가 식물(및 조류·균류)과 동물의 명명 규칙을 정립하고 관리하게 되었다. 1947년까지 미생물은 주로 식물 명명법에 따라 분류되었는데, 이는 박테리아가 전통적으로 균류로 간주되었기 때문이다 [74, 75]. 1930년 파리에서 열린 제1회 국제 미생물학 회의에서 박테리아와 바이러스에 대한 별도의 규약 제정이 제안되었으며, 그 결과 1958년 개정판 국제 박테리아 및 바이러스 명명 규약(Revised Edition of the International Code of Nomenclature of Bacteria and Viruses)이 제정되었습니다. 이 규약은 현재 고세균(archaea)의 포함과 바이러스의 제외를 반영하여 국제 원핵생물 명명 규약(International Code of Nomenclature of Prokaryotes, Prokaryotic Code)으로 불립니다[76] [77] (그림 1). 주목할 만한 예외는 세균문 중 청록색조류(Cyanobacteria)로, 산소 발생 광합성이 식물과 연관되어 있어 여전히 대부분 식물명명법규(Botanical Code)에 따라 분류된다(박스 2). 추가적으로 특정 분류군 하위 집합을 위한 코드가 제안되었는데, 여기에는 재배식물(ICNCP; 1952), 바이러스(ICVCN 또는 바이러스 명명법; 1966), 식물 군집(ICPN; 1976)이 포함되어 현재 6개의 국제 명명법이 인정되며 각각 전문가 위원회가 관리한다(그림 1). 원핵생물 명명법은 이 중 특이한데, 1980년에 명명법 체계가 사실상 재구축되었기 때문이다. 이 과정에서 당시까지 제안된 모든 박테리아 명칭은 다수의 동의어와 불충분하거나 비일관적인 설명으로 인해 무효화되었으며, '승인된 박테리아 명칭 목록'이 수립되었다. 해당 목록에 포함되지 않은 명칭들은 명명법상 지위를 상실했다[78].
모든 규약은 특정 종명을 위한 영구적 기준이 되는 유형 표본 또는 균주를 공통적으로 사용한다. 그러나 유형 재료의 구성(박스 3), 사용되는 구체적 계급, 각 계급에 대한 명명 규칙은 서로 다른 규약 간에 현저히 다르다[76, 79, 80]. 예를 들어, 원핵생물 명명 규약은 모든 명칭을 그 기원과 상관없이 라틴어로 취급할 것을 요구하며, 속 이상의 계급은 표본 속명의 어근을 기반으로 해야 한다고 규정한다[76]. 반면 바이러스 명명 규약은 명칭이 알파벳 순서만 준수하면 되며, 최근에는 상위 계급이 하위 계급 명칭을 기반으로 할 수 없다고 제안하였다[81, 82].
Fig. 1: Key events in prokaryotic taxonomy and nomenclature over the past 100 years.
Taxonomic events are shown in the left panel and nomenclatural events in the right panel. Time is shown on the vertical axis from 1920 (top) to present (bottom).
The complexity of multiple nomenclatural codes and sometimes conflicting application of rules even within one code led to proposals for unification and simplification of the different codes. A leading contender was the Biocode, which proposed to harmonise all biological nomenclature codes under a unified Code largely based on the rules of the Botanical Code [83,84,85]. However, it was met with a great deal of opposition due to the implicit loss of control by existing nomenclatural committees, and potential confusion created by harmonisation of terms that have different meanings for different codes [86, 87]. A revised draft was published in 2011 but continues to lack consensus support [88]. Another major contender for a unified nomenclature was the PhyloCode proposed in 1998 [89,90,91,92], which provided rules for naming clades and species through explicit reference to a phylogeny without the need for a hierarchical taxonomic framework. The plan was to use PhyloCode in parallel with existing Linnaean-based codes, with the goal of replacing them at a later date. In principle, phylogenetic trees provide precise coordinates for taxa, making a classification based on a hierarchical taxonomy redundant [93]. However in practice, uptake of the PhyloCode has not occurred highlighting the reluctance of biologists to move away from the Linnaean system.
복수의 명명법 규정이 복잡하고, 때로는 단일 규정 내에서도 규칙 적용이 상충되면서 다양한 규정을 통합 및 단순화하자는 제안이 제기되었다. 주요 후보 중 하나는 바이오코드(Biocode)로, 식물명명법 규정의 규칙을 주로 기반으로 한 통합된 규정 아래 모든 생물학적 명명법 규정을 조화시키자고 제안했다[83,84,85]. 그러나 기존 명명 위원회의 통제권 상실과 서로 다른 규약에서 상이한 의미를 지닌 용어의 조화로 인해 발생할 수 있는 혼란으로 인해 상당한 반대에 부딪혔다[86, 87]. 2011년 개정 초안이 발표되었으나 여전히 합의된 지지를 얻지 못하고 있다[88]. 통합 명명법의 또 다른 주요 경쟁자는 1998년 제안된 PhyloCode[89,90,91,92]로, 계통 분류학적 계층 구조 없이도 계통 발생을 명시적으로 참조하여 분류군과 종을 명명하는 규칙을 제공했다. 이 계획은 기존 린네식 분류 체계 기반 코드와 병행하여 파이로코드를 사용한 후, 추후 이를 대체하는 것을 목표로 했다. 원칙적으로 계통 발생 나무는 분류군에 대한 정확한 좌표를 제공하므로 계층적 분류학에 기반한 분류는 불필요해진다[93]. 그러나 실제로 파이로코드의 채택은 이루어지지 않았으며, 이는 생물학자들이 린네식 체계에서 벗어나기를 꺼리는 점을 부각시킨다.
Box 2 Cyanobacteria—caught between two Codes
Traditionally, Cyanobacteria have been classified as blue-green algae based on their morphological resemblance to algae and photosynthetic pigments, and as a consequence their nomenclature was developed under the Botanical Code as the phylum Cyanophyta [155]. As early as the 19th century, however, microbiologists suggested that Cyanobacteria are more closely related to bacteria than algae [17], which has since been validated by sequence analysis showing that the Cyanobacteria and algae do not even belong to the same domain of life [24, 156, 157]. In 1978, a formal proposal was made to govern the nomenclature of the Cyanobacteria under the provision of the Prokaryotic Code to reflect their natural position as bacteria [158]. This was never formally endorsed by the International Committee on Systematics of Bacteria, and the Cyanobacteria were not included in the 1980 reboot of bacterial nomenclature. Following a possibly unintended modification of the Prokaryotic Code approved in 1999, the Cyanobacteria were included in the Prokaryotic Code, but only a handful of cyanobacterial species names have been validly published under this code [155]. A special committee was established in 2012 to harmonise cyanobacterial nomenclature with the intention to prepare an ‘Approved List of Names of Cyanobacteria’ that would provide a consensus nomenclature acceptable to both botanists and bacteriologists. However, the activity of this committee has been minimal [155]. Over 40 years have passed since the first proposal to include the Cyanobacteria under the Prokaryotic Code yet they are still primarily governed by the Botanical Code due to the differences between the two Codes. An unfortunate consequence of this checkered history is that cyanobacterial nomenclature is conspicuously at odds with evolutionary relationships, as they have been primarily classified on morphological features resulting in numerous polyphyletic taxa [159, 160]. Further controversy has recently erupted around the proposed inclusion of phylogenetically related non-photosynthetic lineages in the phylum [116, 161]. This classification was actually already flying under the radar for many years in 16S rRNA gene databases [125, 129], but became more visible through comparative genomic analyses [161,162,163].
전통적으로 시아노박테리아는 조류와의 형태학적 유사성과 광합성 색소로 인해 청록색 조류로 분류되어 왔으며, 그 결과 식물명명법 코드 하에서 Cyanophyta 문으로 명명법이 발전되었다 [155]. 그러나 19세기 초부터 미생물학자들은 시아노박테리아가 조류보다 박테리아와 더 가까운 관계라고 제안해 왔으며[17], 이후 시퀀스 분석을 통해 시아노박테리아와 조류가 동일한 생명계 도메인에 속하지 않는다는 사실이 입증되었다[24, 156, 157].
1978년에는 시아노박테리아의 자연적 위치를 박테리아로 반영하기 위해 원핵생물 명명법 규정의 적용을 공식 제안하였다[158]. 그러나 이 제안은 국제 박테리아 계통 분류 위원회로부터 공식적으로 승인받지 못했으며, 시아노박테리아는 1980년 박테리아 명명법 재편성에도 포함되지 않았다. 1999년 승인된 원핵생물 명명 규약의 의도치 않은 수정 이후, 시아노박테리아는 원핵생물 명명 규약에 포함되었으나, 이 규약 하에 유효하게 출판된 시아노박테리아 종명은 극소수에 불과하다[155]. 2012년 시아노박테리아 명명법을 조화시키기 위한 특별 위원회가 설립되었으며, 식물학자와 세균학자 모두에게 수용 가능한 합의된 명명법을 제공할 '시아노박테리아 승인 명칭 목록'을 마련할 의도였다. 그러나 이 위원회의 활동은 미미했다 [155].
원핵생물 명명법에 시아노박테리아를 포함시키자는 최초 제안 이후 40년이 넘게 지났음에도, 두 명명법의 차이점 때문에 시아노박테리아는 여전히 주로 식물 명명법의 규제를 받고 있다. 이러한 복잡한 역사의 불행한 결과는 시아노박테리아 명명법이 진화적 관계와 현저히 불일치한다는 점이다. 주로 형태학적 특징에 기반해 분류되어 수많은 다계통 분류군(polyphyletic taxa)이 발생했기 때문이다 [159, 160]. 최근에는 계통학적으로 관련된 비광합성 계통을 문(門)에 포함시키자는 제안으로 인해 추가적인 논란이 불거졌다 [116, 161]. 이 분류는 사실 16S rRNA 유전자 데이터베이스에서 수년간 은밀히 존재해 왔으나 [125, 129], 비교 유전체 분석을 통해 더욱 가시화되었다 [161,162,163].
Show less
Box 3 The changing face of type material
Type material serves an essential role in traditional nomenclatural systems by providing physically stored material (or descriptions and illustrations) that serve to anchor names in hierarchical classifications as unambiguous points of reference. Type material gives priority to the earliest name of an entity, which prevents naming redundancy [80]. Dried plant specimens were the earliest examples of physical types, although not explicitly incorporated into nomenclatural codes until 1930 [164]. Different codes have different type material requirements, for example the Botanical Code requires non-living specimens with the exception of algae (including cyanobacteria; Box 2) and fungi, which can be preserved in a metabolically inactive (lyophilised) state [80]. The name of the species, which is attached to a specific specimen, becomes validly published by distribution of printed matter through generally accessible libraries or through online publication [80, 165]. By contrast, the Prokaryotic Code requires living axenic strains in dedicated culture collections most conveniently stored as lyophilised material to be designated as types, although written descriptions and illustrations alone were permissible up until January 2001. Since then, for valid publication of a species name, the type strain culture needs to be deposited in at least two publicly accessible culture collections in different countries from which subcultures must be available, and be published in the International Journal of Systematic and Evolutionary Microbiology either as an original article or by inclusion in a Validation List [103]. These stringent requirements mean that the majority of bacteria and archaea cannot currently be accommodated under the Prokaryotic Code due to the inability to bring them into pure culture despite extensive culture-independent characterisation of many as-yet-uncultured species. For this reason, Whitman proposed that sequence data alone, deposited in public sequence repositories, could serve as type material for microorganisms in lieu of cultivated representatives [105].
박스 3 유형 표본의 변화하는 모습
유형 표본은 계층적 분류 체계 내에서 명칭을 명확한 기준점으로 고정시키는 물리적 저장 물질(또는 설명 및 삽화)을 제공함으로써 전통적 명명 체계에서 핵심적 역할을 수행한다. 유형 표본은 개체에 대한 최초 명칭에 우선권을 부여하여 명명 중복을 방지한다 [80]. 건조된 식물 표본은 물리적 표본의 초기 사례였으나, 1930년까지 명명법 규약에 명시적으로 포함되지는 않았다[164]. 규약마다 표본 요구사항이 다르다. 예를 들어 식물명명법규약은 조류(시아노박테리아 포함; 박스 2)와 균류를 제외하고는 비생물 표본을 요구하며, 이들(조류 및 균류)은 대사 비활성 상태(동결건조)로 보존될 수 있다[80]. 특정 표본에 부착된 종명은 일반적으로 접근 가능한 도서관을 통한 인쇄물 배포 또는 온라인 출판을 통해 유효하게 출판된다[80, 165]. 반면 원핵생물 규정은 전용 배양 컬렉션에 보관된 생체 무균 균주를 유형으로 지정할 것을 요구하며, 가장 편리한 보관 형태는 동결건조 물질이다. 다만 2001년 1월까지는 서면 설명과 삽화만으로 허용되었다. 이후 종명 유효 공표를 위해서는 유형 균주 배양체를 서로 다른 국가의 공개 접근 가능한 배양 컬렉션 최소 두 곳에 기탁해야 하며, 여기서 하위 배양체를 확보할 수 있어야 한다. 또한 국제계통진화미생물학저널(International Journal of Systematic and Evolutionary Microbiology)에 원저 논문 형태로 또는 유효성 검증 목록(Validation List)에 포함되어 게재되어야 한다[103]. 이러한 엄격한 요건으로 인해, 현재 대다수의 박테리아와 고세균은 아직 배양되지 않은 많은 종에 대한 광범위한 배양 독립적 특성 분석에도 불구하고 순수 배양을 확보할 수 없어 원핵생물 명명 규약 하에 수용될 수 없습니다. 이러한 이유로, Whitman은 공개 서열 저장소에 등록된 서열 데이터만으로도 배양된 대표체 대신 미생물의 표본 재료로 기능할 수 있다고 제안했습니다[105].
Show less
(Lack of) nomenclature for uncultured diversity
Detailed molecular characterisation of uncultured microorganisms is a relatively recent innovation due to technological advances (see 16S rRNA and Genome-based classification). Such organisms pose a challenge to the Prokaryotic Code as their names cannot be validly published since species descriptions must be based on pure cultures of type strains (Box 3) and as a consequence they have been outside the rules of the Code [45, 76]. This has resulted in the widespread use of alphanumeric placeholder names for uncultured taxa, which is unregulated and has led to frequent synonymous naming, e.g., Marine Group A/SAR406 [7, 94], GN02/BD1-5 [95, 96] and CD12/BHI80-139 [8]. An early nomenclatural stop-gap for uncultured taxa was proposed in 1994 through the introduction of the provisional status of Candidatus [97, 98]. The word Candidatus is prefixed to a common name of any rank to indicate the provisional nature of the taxon and has no standing in prokaryotic nomenclature, and therefore no requirement for correct etymology or nomenclature type. Consequently, many Candidatus names do not conform to the Prokaryotic Code [99, 100]. Despite these shortcomings, no other proposals have been adopted to accommodate the formalised naming of uncultured taxa, and Candidatus has not been widely adopted representing only 4.9% of the 45,414 prokaryotic taxa in the Genome Taxonomy Database (Table 1 and Fig. 2).
배양 불가능한 다양성에 대한 명명법 (부재)
배양 불가능한 미생물에 대한 상세한 분자적 특성화는 기술 발전으로 인해 비교적 최근에 이루어진 혁신이다(16S rRNA 및 게놈 기반 분류 참조). 이러한 생물체는 종 설명이 유형 균주의 순수 배양을 기반으로 해야 하므로(Box 3) 그 명칭을 유효하게 출판할 수 없어 원핵생물 분류법에 도전장을 내밀고 있으며, 결과적으로 분류법 규칙의 적용을 받지 못하고 있다[45, 76]. 이로 인해 배양되지 않은 분류군에 대해 알파벳-숫자 임시 명칭이 널리 사용되었으며, 이는 규제되지 않아 빈번한 동의어 명명(예: Marine Group A/SAR406 [7, 94], GN02/BD1-5 [95, 96], CD12/BHI80-139 [8])을 초래했다. 배양되지 않은 분류군을 위한 초기 명명법적 임시 방편은 1994년 Candidatus의 잠정적 지위 도입을 통해 제안되었다[97, 98]. Candidatus라는 단어는 해당 분류군의 잠정적 성격을 나타내기 위해 모든 계급의 일반명 앞에 접두사로 붙이며, 원핵생물 명명법에서 정식 지위를 갖지 않으므로 올바른 어원이나 명명법 유형에 대한 요구사항이 없다. 결과적으로 많은 Candidatus 명칭이 원핵생물 명명법 규약(Prokaryotic Code)을 준수하지 않는다[99, 100]. 이러한 한계에도 불구하고, 배양되지 않은 분류군의 공식적 명명법을 수용하기 위한 다른 제안은 채택되지 않았으며, Candidatus는 Genome Taxonomy Database(GTDB)에 등록된 45,414개 원핵생물 분류군 중 4.9%만을 차지할 정도로 널리 채택되지 않았다(표 1 및 그림 2).
Fig. 2: Proportion of Latin, Candidatus and placeholder prokaryote names by taxonomic rank based on GTDB Release 05-RS95 [44].
Total number of taxa per rank are shown below each rank name. Most recognised prokaryotic taxa only have placeholder names, and the majority of these fall outside the Prokaryotic Code because they lack cultured representatives (Box 3). Only 7.2% of this excluded fraction have adopted the nomenclatural provisional status of Candidatus. The proportion of validly named taxa (Latin names) is likely to fall as MAG sequencing overtakes isolate sequencing. Note that there are no validly published names of phyla as the rank of phylum is not (yet) covered by the rules of the Prokaryotic Code [122].
Candidatus was originally proposed [98] with 16S rRNA environmental surveys in mind. It was expected that their descriptions would be limited in scope compared to isolates, comprising one or at most a few gene sequences, habitat origin (and inferred temperature range) and cell morphology if 16S rRNA-targeted fluorescence in situ hybridisation (FISH) had been successfully applied [36, 97, 101]. However, with the advent of near-complete or even complete MAGs and SAGs [65, 102], and a plethora of techniques able to describe a microorganism’s function without the need for isolation, or even enrichment [103], a Candidatus species can be described in great detail. In 2016, it was proposed that gene sequences serve as type material since they are able to provide unambiguous reference points for nomenclature, particularly whole-genome sequences [104, 105]. This would mean that Candidatus species (with high-quality genome sequences) could be used as type material and would give them nomenclatural priority (Box 3). Arguments against the use of genome sequences as type material include the lack of deposited physical biomass, lack of uniformly applied genome quality standards, the absence of directly measured phenotypic traits and the potential for nomenclatural chaos due to the much reduced requirements for naming an organism [106, 107]. Given the difficulties in incorporating nomenclature of uncultured microorganisms into the Prokaryotic Code, there have been calls to establish an independent code for these taxa [45, 108]. Proposed minimal standards include genome sequence quality (estimated completeness and contamination), ecological data, a complete 16S rRNA gene sequence, inferred metabolic functions and microscopic identification of the organism using taxon-specific FISH probes or related technique [108]. A key goal of establishing such a parallel code would be that it ultimately converge with the Prokaryotic Code to ensure a unified nomenclature for prokaryotes [45, 108]. A proposal to use sequence data as type material was rejected by the International Committee on Systematics of Prokaryotes (the committee which governs the Prokaryotic Code) in March 2020 [109]. However, if uncultured taxa are ever to be fully integrated into the Prokaryotic Code, sequence data (ideally genome sequences) will have to be accepted as type material, and if this is not possible, a separate nomenclatural code will likely emerge that accepts genomes as type material or does not use type material at all.
그림 2: GTDB Release 05-RS95 [44] 기준 분류군 계층별 라틴어, Candidatus 및 자리표시자 원핵생물 명칭 비율.
각 계급명 아래에는 해당 계급별 총 분류군 수가 표시되어 있다. 대부분의 인정된 원핵생물 분류군은 임시 명칭만을 보유하고 있으며, 이 중 대다수는 배양된 대표 표본이 없어 원핵생물 명명법 규정을 벗어난다(상자 3). 이 제외된 부분 중 Candidatus의 명명법상 잠정적 지위를 채택한 경우는 7.2%에 불과하다. MAG 시퀀싱이 분리체 시퀀싱을 대체함에 따라 유효 명명된 분류군(라틴어 명칭)의 비율은 감소할 것으로 예상된다. 문(門) 등급은 원핵생물 분류 규약의 규칙이 (아직) 적용되지 않으므로 유효하게 출판된 문(門) 명칭은 존재하지 않음을 유의하십시오 [122].
Candidatus는 원래 16S rRNA 환경 조사를 염두에 두고 제안되었습니다 [98]. 분리균에 비해 설명 범위가 제한될 것으로 예상되었으며, 16S rRNA 표적 형광 in situ 하이브리드화(FISH)가 성공적으로 적용되었다면[36, 97, 101] 한 개 또는 최대 몇 개의 유전자 서열, 서식지 기원(및 추론된 온도 범위), 세포 형태학으로 구성될 예정이었다. 그러나 거의 완전하거나 심지어 완전한 MAG 및 SAG의 등장[65, 102], 그리고 분리나 심지어 농축 없이도 미생물의 기능을 기술할 수 있는 수많은 기법[103] 덕분에 Candidatus 종은 매우 상세하게 기술될 수 있게 되었다. 2016년에는 유전자 서열, 특히 전체 게놈 서열이 명명법에 대한 명확한 기준점을 제공할 수 있으므로 유형 재료로 사용될 수 있다는 제안이 제기되었다[104, 105]. 이는 고품질 게놈 서열을 가진 Candidatus 종이 유형 재료로 사용될 수 있으며 명명법적 우선권을 부여받을 수 있음을 의미한다(박스 3). 유전체 서열을 유형 재료로 사용하는 것에 대한 반대 논거로는 물리적 생물량 보관의 부재, 일관되게 적용되는 유전체 품질 기준의 부재, 직접 측정된 표현형 특성의 부재, 그리고 생물 명명 요건이 크게 완화됨에 따른 명명학적 혼란 가능성 등이 있다[106, 107]. 배양 불가능한 미생물의 명명법을 원핵생물 코드에 통합하는 데 어려움이 있기에, 이러한 분류군을 위한 독립적인 코드 제정 요구가 제기되어 왔다[45, 108]. 제안된 최소 기준에는 게놈 서열 품질(완전성 및 오염 추정), 생태학적 데이터, 완전한 16S rRNA 유전자 서열, 추론된 대사 기능, 분류군 특이적 FISH 프로브 또는 관련 기술을 이용한 미생물의 현미경적 식별이 포함된다[108]. 이러한 병행 코드 수립의 핵심 목표는 궁극적으로 원핵생물 명명법을 통일하기 위해 원핵생물 명명법과 수렴하는 것이다 [45, 108]. 서열 데이터를 유형 재료로 사용하자는 제안은 2020년 3월 원핵생물 명명법을 관장하는 위원회인 국제 원핵생물 계통분류 위원회(International Committee on Systematics of Prokaryotes)에 의해 기각되었다 [109]. 그러나 미배양 분류군이 원핵생물 명명법에 완전히 통합되려면, 염기서열 데이터(이상적으로는 게놈 서열)가 유형 재료로 인정되어야 하며, 이것이 불가능할 경우 게놈을 유형 재료로 인정하거나 아예 유형 재료를 사용하지 않는 별도의 명명법이 등장할 가능성이 높다.
Nomenclatural scaling issues
A recent estimate of the global number of prokaryotic species is 2.2–4.3 million [110], down from previous potentially flawed estimates of trillions [111]. Even with this downwardly revised estimate, there is an enormous gap between millions of species and the current number of species with validly published names (~21K) and genomically described species (~25K) [9, 112]. We are likely to bridge this gap over the coming decades in terms of genome representation, but validation of names of such a large volume of new species via the Prokaryotic Code is not currently possible for uncultured taxa and is time-consuming for microbial isolates (Box 3). This is already being reflected in the high proportion of prokaryotic taxa with placeholder names (Fig. 2). However, it can be reasonably argued that not all identified species need to be given Latin names provided that a systematic taxonomic framework with unique and permanent object identifiers for genomically circumscribed species is established and maintained [1, 44]. Only species that are of sufficient interest to the scientific community would be the subject of more in-depth characterisation and naming. Alternatively, Pallen et al. recently demonstrated the high-throughput generation of grammatically correct Latin names is quite feasible using a combinatorial approach, suggesting that millions of taxa could be named [113]. However, adapting the existing Code or proposing a separate nomenclature for taxa that have not or cannot be obtained in pure culture would still be required.
명명법적 규모 문제
최근 전 세계 원핵생물 종 수 추정치는
220~430만 종으로 [110], 이전의 잠재적 오류가 있는 수조 종 추정치에서 감소했다 [111].
이 하향 조정된 추정치조차도 수백만 종과 현재 유효하게 출판된 명칭을 가진 종(약 21,000종) 및 게놈이 기술된 종(약 25,000종) 사이에는 엄청난 격차가 존재한다[9, 112].
향후 수십 년 동안 게놈 대표성 측면에서 이 격차를 해소할 수 있을 것으로 보이지만, 원핵생물 분류 규약(Prokaryotic Code)을 통해 이처럼 방대한 양의 새로운 종의 명칭을 검증하는 것은 현재 배양 불가능한 분류군에 대해서는 불가능하며, 미생물 분리체에 대해서도 시간이 많이 소요됩니다(Box 3). 이는 이미 자리표시자 명칭을 가진 원핵생물 분류군의 높은 비율에 반영되고 있습니다(Fig. 2). 그러나 게놈으로 정의된 종에 대해 고유하고 영구적인 객체 식별자를 제공하는 체계적인 분류학적 프레임워크가 구축 및 유지된다면, 모든 확인된 종에 라틴어 명칭을 부여할 필요는 없다는 주장이 타당하다[1, 44]. 과학계에서 충분한 관심을 받는 종만이 보다 심층적인 특성 분석과 명명 대상이 될 것이다. 대안으로, Pallen 등은 최근 조합적 접근법을 통해 문법적으로 올바른 라틴어 명칭을 대량 생성하는 것이 상당히 가능함을 입증하였으며, 이는 수백만 종의 분류군 명명 가능성을 시사한다[113]. 그러나 순수 배양으로 확보되지 않았거나 확보할 수 없는 분류군에 대해서는 기존 규약의 적용 또는 별도의 명명법 제정이 여전히 필요할 것이다.
Bones of contention between prokaryotic nomenclature and microbial ecology
Microbial ecologists have always appreciated the need to name the microorganisms that they study, however, most are not overly familiar with the rules of nomenclature. This has resulted in a number of points of contention between the two disciplines, which could expand once uncultured taxa are more formally taken into consideration under the Prokaryotic Code or under a new code. First, the Code requires strict adherence to correct Latin grammar, and names are routinely checked for etymological correctness by a small group of experts before publication in the International Journal of Systematic and Evolutionary Microbiology (IJSEM) as original articles or in Validation Lists [76]. Candidatus names, by contrast, are not held to these exacting standards as evidenced by a recent compilation in IJSEM, where 35% of 1091 compiled Candidatus names required grammatical corrections [100]. Second, since the 1975 revision of the Prokaryotic Code, there is a requirement that higher rank names up to class be formed from the stem of a genus name and a standardised suffix (Rules 8 and 9; [76]). There has been a recent proposal to extend this requirement to the rank of phylum using the suffix -ota, which necessitates small variations to numerous existing phylum names, such as Planctomycetes to Planctomycetota and Thermotogae to Thermotogota (Table 1 in [114]). Moreover, the requirement to form higher rank names on subordinate genus stems has resulted in proposals to completely change the names of a number of higher taxa, although there is latitude in the Code to retain older names predating this requirement. For example, it was proposed that the Class Epsilonproteobacteria be renamed to Campylobacteria after the genus Campylobacter [115]. Such changes can create unrest amongst microbial ecologists who value continuity of names in the literature ahead of strict compliance with the Prokaryotic Code. Despite these potential shortcomings (from the ecological viewpoint), the great majority of validated higher taxon names satisfy the genus stem requirement with a few well-established and high-profile exceptions such as the proteobacterial classes and class Actinobacteria [114]. However, if the rank of phylum and Candidatus taxa are formally recognized, the number of discrepancies and associated name changes will increase.
A crossroads for prokaryotic taxonomy and nomenclature
Prokaryotic taxonomy and nomenclature are at an interesting crossroads. On the positive side, we have never been better placed to develop a taxonomy based on objective evolutionary relationships using the burgeoning resource of sequenced microbial genomes [108, 116]. Microbial taxonomies have evolved over time in response to improved methodologies (Fig. 1), and it has been argued that for this reason, an official taxonomy should be avoided to prevent the possibility of it becoming methodologically outdated [1]. However, genomes are the most fundamental blueprints of life making it unlikely that a widely accepted alternative methodology resulting in a radically different and improved taxonomy will be developed. Although there are bioinformatic scaling challenges associated with developing a comprehensive genome-based taxonomy, the high degree of concordance between independent initiatives using different combinations of marker genes bodes well for a robust evolutionary framework [57, 117] that could form the basis of a stable taxonomy.
While the idea of a polyphasic approach to taxonomy is understandable, particularly the goal of using multiple features to define ecologically coherent units [118], we believe that genome sequences alone, specifically the subset of conserved vertically inherited core operating genes, should form the basis of a taxonomic framework. All other phenotypic, genotypic and ecological data can then be usefully overlaid onto this framework in order to understand their individual distributions and evolutionary trajectories relative to the species tree. The benefits of a single consistent taxonomy universally accepted by the scientific community would be manifold, including improved interoperability and communication. This was the impetus for developing the GTDB [44] (Table 1), which has a heavy emphasis on inclusion (i.e., using as much high-quality sequence data as possible from both cultured and uncultured taxa) and systematisation (e.g., uniform and reproducible approaches for defining species representatives and ranks, and provision of full taxonomic assignments from domain to species [9, 44]).
A standardised taxonomic framework needs a nomenclature that is similarly reproducible and objective and will scale with the task at hand. The official prokaryotic nomenclature was developed before the advent of large-scale genome sequencing and characterisation of uncultured taxa, and consequently does not cover the uncultured microbial majority. This impasse will need to be overcome either by development of a separate nomenclature based on genome sequences as type material, or a significant modification of the rules governing Candidatus taxa in the Prokaryotic Code [45, 105, 108]. If development of a separate nomenclature does become necessary, it could provide an opportunity to take the best elements of the Prokaryotic Code and streamline other parts mired in historical legacy that are not user friendly [1, 119], and do not scale well to the challenge of big sequence data. One example would be simplification or automated formation of names derived from Latin or Greek with correct etymology, which otherwise only a handful of practitioners worldwide are capable of ensuring [120].
On the negative side, adoption of a universal standardised taxonomy will inevitably be accompanied by growing pains. Several industries have become invested in particular taxonomies and associated nomenclature, which do not necessarily follow an evolutionary framework. For example the well-known bacterial genus Shigella is phylogenetically intertwined with Escherichia and should be made a synonym based on an evolutionary taxonomy; however, it is maintained as a separate genus to avoid confusion in clinical practice [121]. Similarly, the genus Lactobacillus has a high profile in the probiotic sector with many species being familiar to a general audience including L. acidophilus and L. casei. From a phylogenetic perspective, however, the genus is too deep and also polyphyletic. A recent genome-based revision of the taxonomy of Lactobacillus divided it into 24 distinct genera [117], which was accompanied by an outreach campaign to educate probiotic consumers endorsed by the International Scientific Association for Probiotics and Prebiotics. Development of an additional nomenclature while presenting an opportunity for modernisation does carry with it the potential negative of interoperability challenges with the existing Prokaryotic Code. However, this is not unprecedented as exemplified by the case of Cyanobacteria (Box 2), and therefore should be manageable with an open dialogue between nomenclatural committees. With careful management and adequate resourcing, a genome-based taxonomy and streamlined nomenclature would be welcomed by a new generation of researchers who use modern approaches to study the microbial world.
원핵생물 명명법과 미생물 생태학 사이의 논쟁점
미생물 생태학자들은 연구 대상 미생물에 이름을 붙일 필요성을 항상 인식해 왔으나, 대부분 명명법 규칙에 익숙하지 않습니다. 이로 인해 두 학문 분야 간 여러 논쟁점이 발생했으며, 원핵생물 코드나 새로운 코드 하에서 배양되지 않은 분류군이 공식적으로 고려되기 시작하면 이러한 논쟁은 확대될 수 있습니다. 첫째, 규약은 정확한 라틴어 문법에 대한 엄격한 준수를 요구하며, 명칭은 국제계통진화미생물학저널(IJSEM)에 원저 논문이나 검증 목록[76]으로 게재되기 전에 소수의 전문가 그룹에 의해 어원적 정확성을 정기적으로 검토받습니다. 반면 Candidatus 명칭은 이러한 엄격한 기준을 적용받지 않는데, 최근 IJSEM에 집계된 1091개의 Candidatus 명칭 중 35%가 문법적 수정이 필요했던 사례[100]가 이를 입증한다. 둘째, 1975년 원핵생물 명명법 개정 이후로, 과급 이상의 상위 계급 명칭은 속명의 어근과 표준화된 접미사 (규칙 8 및 9; [76]). 최근에는 이 요구사항을 문(門) 계급까지 확장하여 접미사 -ota를 사용하자는 제안이 있었는데, 이는 Planctomycetes를 Planctomycetota로, Thermotogae를 Thermotogota로 변경하는 등 수많은 기존 문 명칭에 소규모 변형을 필요로 한다([114]의 표 1). 또한 상위 분류군 명칭을 하위 속 명칭을 기반으로 형성해야 한다는 요구사항으로 인해 다수의 상위 분류군 명칭을 완전히 변경하자는 제안이 제기되었으나, 이 요구사항 이전의 기존 명칭을 유지할 수 있는 여지가 규약에 존재한다. 예를 들어, Epsilonproteobacteria 계급을 Campylobacter 속을 따서 Campylobacteria로 개명하자는 제안이 있었다[115]. 이러한 변경은 원핵생물 명명법 규정의 엄격한 준수를 넘어 문헌상의 명칭 연속성을 중시하는 미생물 생태학자들 사이에 불안을 야기할 수 있다. 이러한 잠재적 단점(생태학적 관점에서)에도 불구하고, 검증된 상위 분류군 명칭의 대다수는 속 명칭 기준을 충족하며, 프로테오박테리아강 및 액티노박테리아강[114]과 같이 잘 확립되고 주목받는 몇 가지 예외를 제외하면 그렇다. 그러나 문(門) 등급과 Candidatus 분류군이 공식적으로 인정된다면, 불일치 사례와 관련 명칭 변경 건수는 증가할 것이다.
원핵생물 분류학 및 명명법의 기로
원핵생물 분류학 및 명명법은 흥미로운 기로에 서 있다. 긍정적인 측면에서, 우리는 급증하는 미생물 게놈 서열 정보 자원을 활용하여 객관적인 진화적 관계를 기반으로 한 분류학을 발전시킬 수 있는 최적의 위치에 있습니다[108, 116]. 미생물 분류학은 개선된 방법론에 대응하여 시간이 지남에 따라 진화해 왔습니다(그림 1). 이러한 이유로 공식적인 분류학은 방법론적으로 구식이 될 가능성을 방지하기 위해 피해야 한다는 주장이 제기되어 왔습니다[1]. 그러나 게놈은 생명의 가장 근본적인 청사진이므로, 근본적으로 달라지고 개선된 분류학을 낳는 널리 수용된 대체 방법론이 개발될 가능성은 희박하다. 포괄적인 게놈 기반 분류학 개발에는 생물정보학적 확장성 문제가 따르지만, 서로 다른 표지 유전자 조합을 사용하는 독립적 연구들 간의 높은 일치도는 견고한 진화적 틀[57, 117]의 가능성을 시사하며, 이는 안정적인 분류학의 기반이 될 수 있다.
분류학에 대한 다단계 접근법, 특히 생태학적으로 일관된 단위를 정의하기 위해 여러 특징을 활용하려는 목표[118]는 이해할 수 있지만, 우리는 게놈 서열 자체, 특히 수직적으로 상속되는 보존된 핵심 기능 유전자 하위 집합이 분류학적 체계의 기초를 형성해야 한다고 믿습니다. 이후 모든 다른 표현형, 유전자형 및 생태학적 데이터는 종 계통수에 대한 개별 분포와 진화적 궤적을 이해하기 위해 이 체계 위에 유용하게 중첩될 수 있다. 과학계가 보편적으로 수용하는 단일하고 일관된 분류체계의 이점은 상호운용성 및 의사소통 개선을 포함하여 다방면에 걸쳐 있을 것이다. 이러한 필요성이 GTDB[44] (표 1) 개발의 동력이 되었으며, 이는 포괄성(즉, 배양 가능 및 불가능 분류군 모두에서 가능한 한 많은 고품질 서열 데이터 활용)과 체계화(예: 종 대표체 및 계급 정의에 대한 균일하고 재현 가능한 접근법, 도메인부터 종까지의 완전한 분류학적 할당 제공[9, 44])에 중점을 두고 있습니다.
표준화된 분류 체계에는 마찬가지로 재현 가능하고 객관적이며 해당 작업 규모에 맞춰 확장 가능한 명명법이 필요하다. 공식적인 원핵생물 명명법은 대규모 게놈 시퀀싱과 미배양 분류군의 특성 분석이 등장하기 전에 개발되었기에, 미배양 미생물 대다수를 포괄하지 못한다. 이러한 난관은 게놈 서열을 유형 재료로 삼은 별도의 명명법 개발이나, 원핵생물 명명법에서 Candidatus 분류군을 규율하는 규칙의 상당한 수정을 통해 극복해야 할 것이다 [45, 105, 108]. 별도의 명명법 개발이 필요해진다면, 이는 원핵생물 명명법의 장점을 취하고 역사적 유산에 얽매여 사용자 친화적이지 않으며[1, 119] 대규모 서열 데이터의 도전에 잘 대응하지 못하는 다른 부분을 간소화할 기회를 제공할 수 있다. 한 가지 예로, 올바른 어원을 바탕으로 라틴어 또는 그리스어에서 유래한 명칭의 단순화 또는 자동 생성이 있을 수 있습니다. 그렇지 않으면 전 세계적으로 소수의 전문가만이 이를 보장할 수 있습니다[120].
부정적인 측면으로는, 보편적인 표준 분류법의 채택은 필연적으로 성장통을 동반할 것입니다. 여러 산업 분야는 진화론적 틀을 따르지 않는 특정 분류체계와 관련 명명법에 이미 투자된 상태입니다. 예를 들어 잘 알려진 세균 속 Shigella는 계통발생학적으로 Escherichia와 얽혀 있으며 진화 분류학에 기반하면 동의어로 만들어야 합니다. 그러나 임상 실무에서의 혼란을 피하기 위해 별도의 속으로 유지되고 있습니다 [121]. 마찬가지로, Lactobacillus 속은 프로바이오틱스 분야에서 높은 인지도를 가지며, L. acidophilus 및 L. casei를 포함하여 많은 종이 일반 대중에게 친숙하다. 그러나 계통 발생학적 관점에서 이 속은 너무 깊고 또한 다계통적이다. 최근 유전체 기반의 Lactobacillus 분류 개정에서는 이를 24개의 별개 속으로 분할하였으며[117], 국제 프로바이오틱스 및 프리바이오틱스 과학 협회(ISAPP)의 지지를 받아 프로바이오틱스 소비자 교육 캠페인이 동반되었다. 새로운 명명법 개발은 현대화의 기회를 제공하지만, 기존 원핵생물 명명법(Prokaryotic Code)과의 상호운용성 문제라는 잠재적 부정적 요소를 동반한다. 그러나 청색균(Box 2) 사례에서 보듯 이는 전례 없는 일이 아니므로 명명위원회 간 열린 대화를 통해 관리 가능할 것이다. 신중한 관리와 충분한 자원 투입을 통해 유전체 기반 분류체계와 간소화된 명명법은 현대적 접근법으로 미생물계를 연구하는 신세대 연구자들에게 환영받을 것이다.
References
Rosselló-Móra R, Whitman WB. Dialogue on the nomenclature and classification of prokaryotes. Syst Appl Microbiol. 2019;42:5–14.
Larson JL. Linnaeus and the natural method. Isis. 1967;58:304–20.
Rosselló-Móra R, Amann R. Past and future species definitions for Bacteria and Archaea. Syst Appl Microbiol. 2015;38:209–16.
Thewissen JGM, Cooper LN, Clementz MT, Bajpai S, Tiwari BN. Whales originated from aquatic artiodactyls in the Eocene epoch of India. Nature. 2007;450:1190–4.
Oren A, Garrity GM. Then and now: a systematic review of the systematics of prokaryotes in the last 80 years. Antonie van Leeuwenhoek. 2014;106:43–56.
Woese CR. There must be a prokaryote somewhere: microbiology’s search for itself. Microbiol Rev. 1994;58:1–9.
Rappé MS, Giovannoni SJ. The uncultured microbial majority. Annu Rev Microbiol. 2003;57:369–94.
Rinke C, Schwientek P, Sczyrba A, Ivanova NN, Anderson IJ, Cheng J-F, et al. Insights into the phylogeny and coding potential of microbial dark matter. Nature. 2013;499:431–7.
Parks DH, Chuvochina M, Chaumeil P-A, Rinke C, Mussig AJ, Hugenholtz P. A complete domain-to-species taxonomy for Bacteria and Archaea. Nat Biotechnol. 2020;38:1079–86.
Vandamme P, Pot B, Gillis M, De Vos P, Kersters K, Swings J. Polyphasic taxonomy, a consensus approach to bacterial systematics. Microbiol Rev. 1996;60:407–38.
Yarza P, Yilmaz P, Pruesse E, Glöckner FO, Ludwig W, Schleifer K-H, et al. Uniting the classification of cultured and uncultured bacteria and archaea using 16S rRNA gene sequences. Nat Rev Microbiol. 2014;12:635–45.
Mayr E. Biological classification: toward a synthesis of opposing methodologies. Science. 1981;214:510–6.
Bergey DH, Harrison FC, Breed RS, Hammer BW, Huntoon FM. Bergey’s manual of determinative bacteriology. 1st ed. Baltimore: Williams & Wilkins Co.; 1923.
Sneath PHA, Sokal RR. Numerical taxonomy. Nature. 1962;193:855–60.
Sokal RR. Numerical taxonomy. Sci Am. 1966;215:106–17.
Sneath PHA, Sokal RR. Numerical taxonomy. The principles and practice of numerical classification. San Francisco: W. H. Freeman and Co.; 1973.
Stanier RY, van Niel CB. The main outlines of bacterial classification. J Bacteriol. 1941;42:437–66.
van Niel CB. The classification and natural relationships of bacteria. In: Cold Spring Harbor Symposia on Quantitative Biology. New York: Cold Spring Harbor Laboratory Press; 1946. p. 285–301.
Stanier RY, van Niel CB. The concept of a bacterium. Arch Mikrobiol. 1962;42:17–35.
Zuckerkandl E, Pauling L. Molecules as documents of evolutionary history. J Theor Biol. 1965;8:357–66.
|
|