|
|
Abstract
Medicinal plants are the main source of natural metabolites with specialised pharmacological activities and have been widely examined by plant researchers. Numerous omics studies of medicinal plants have been performed to identify molecular markers of species and functional genes controlling key biological traits, as well as to understand biosynthetic pathways of bioactive metabolites and the regulatory mechanisms of environmental responses. Omics technologies have been widely applied to medicinal plants, including as taxonomics, transcriptomics, metabolomics, proteomics, genomics, pangenomics, epigenomics and mutagenomics. However, because of the complex biological regulation network, single omics usually fail to explain the specific biological phenomena. In recent years, reports of integrated multi-omics studies of medicinal plants have increased. Until now, there have few assessments of recent developments and upcoming trends in omics studies of medicinal plants. We highlight recent developments in omics research of medicinal plants, summarise the typical bioinformatics resources available for analysing omics datasets, and discuss related future directions and challenges. This information facilitates further studies of medicinal plants, refinement of current approaches and leads to new ideas.
약용 식물은
특수한 약리학적 활성을 가진 천연 대사물의 주요 원천으로,
식물 연구자들에 의해 광범위하게 연구되어 왔습니다.
약용 식물에 대한 수많은 오믹스 연구가 수행되어
종의 분자 마커와 핵심 생물학적 특성을 조절하는 기능 유전자를 식별하며,
생물활성 대사물의 생합성 경로와 환경 반응의 조절 메커니즘을 이해하는 데 기여해 왔습니다.
오믹스 기술은
분류학, 전사체학, 대사체학, 단백체학, 유전체학, 판게노믹스, 에피게노믹스, 돌연변이체학 등
다양한 분야에서 약용 식물에 적용되어 왔습니다.
그러나
복잡한 생물학적 조절 네트워크로 인해 단일 오믹스 기술만으로는
특정 생물학적 현상을 설명하기 어렵습니다.
최근 몇 년간
약용 식물의 통합 다중 오믹스 연구 보고가 증가하고 있습니다.
현재까지 약용 식물의 오믹스 연구에서
최근 발전과 미래 트렌드를 평가한 연구는 거의 없습니다.
본 연구에서는
약용 식물의 오믹스 연구에서 최근 발전된 내용을 소개하고,
오믹스 데이터셋 분석을 위한 대표적인 생물정보학 자원을 요약하며,
관련 미래 방향과 과제를 논의합니다.
이 정보는
약용 식물 연구의 추가 연구, 현재 접근법의 개선, 새로운 아이디어 도출에
기여할 것입니다.
medicinal plant, single omics, multi-omics analysis, bioinformatics resource
Issue Section:
Introduction
Medicinal plants (MPs) are the main source of natural metabolites such as pigments, condiments, insecticides and medicines. MPs have been used to treat diverse diseases in China, India and Egypt for 5000 years and are still used today, despite the availability of pharmaceuticals [1]. Plant-derived monomers (morphine, artemisinin, taxol, digitali, vinblastine, etc.) are essential for chemical drug development, and mixed secondary metabolites such as total saponins and tanshinones exert strong therapeutic effects [2]. In addition, various well-known MPs, such as Panax ginseng and Panax quiquefolium, which enhance physical function and improve memory, have been widely used as supplements and in healthcare products [3].
Discovering novel and pharmacologically relevant compounds and determining their biosynthetic pathways in MPs are challenging. The continuous introduction of novel omics concepts and rapid development of sequencing technologies has greatly facilitated the comprehensive dissection of biological processes occurring in plants at the genetic, transcriptional and metabolic levels, leading to the rapid development of omics-based plant studies over the last two decades (Figure 1). Meanwhile, omics studies of MPs are gradually transitioning from single- to multi-omics, the integrated multi-omics studies are becoming abundant and the number of omics-based MPs studies is increasing rapidly (Figure 2). Most omics studies of MPs have focused on (i) identifying DNA and chemical markers for classifying MPs [4, 5], (ii) locating functional genes controlling specific agronomic traits [6–8], (iii) identifying key metabolic pathways involved in the biosynthesis of active compounds [9–11] and (iv) determining the molecular mechanisms of stress responses [12–14]. These studies provide a theoretical basis for obtaining large quantities of specific compounds through synthetic biology and can enhance the molecular breeding of MPs.
소개
약용 식물(MPs)은
색소, 향신료, 살충제, 약물 등 자연 대사물의 주요 원천입니다.
MPs는
중국, 인도, 이집트 등에서 5,000년 이상 다양한 질병 치료에 사용되어 왔으며,
약물이 널리 보급된 현재에도 여전히 사용되고 있습니다[1].
식물 유래 단일체(모르핀, 아르테미시닌, 택솔, 디지털리스, 빈블라스틴 등)는
화학 약물 개발에 필수적이며,
총 사포닌과 탄신론과 같은 혼합 2차 대사산물은 강력한 치료 효과를 발휘합니다[2].
또한,
신체 기능을 강화하고 기억력을 개선하는 것으로 알려진
Panax ginseng과 Panax quiquefolium과 같은 다양한 MP는
보조제 및 건강 제품에 널리 사용되고 있습니다[3].
MPs에서 새로운 약리학적 관련 화합물을 발견하고
그 생합성 경로를 규명하는 것은 어려운 과제입니다.
새로운 오믹스 개념의 지속적인 도입과 시퀀싱 기술의 급속한 발전은
식물에서 유전적, 전사적, 대사적 수준에서 발생하는 생물학적 과정을
포괄적으로 분석하는 것을 크게 촉진했으며,
이는 지난 20년간 오믹스 기반 식물 연구의 급속한 발전을 이끌었습니다(그림 1).
한편,
MP에 대한 오믹스 연구는
단일 오믹스에서 다중 오믹스로 점차 전환되고 있으며,
통합 다중 오믹스 연구가 풍부해지고
오믹스 기반 MP 연구의 수가 급속히 증가하고 있습니다(그림 2).
MPs에 대한 대부분의 오믹스 연구는
(i) MPs 분류를 위한 DNA 및 화학 마커 식별 [4, 5],
(ii) 특정 농경학적 특성을 조절하는 기능적 유전자 위치 확인 [6–8],
(iii) 활성 화합물 생합성에 관여하는 핵심 대사 경로 식별 [9–11],
(iv) 스트레스 반응의 분자적 메커니즘 규명 [12–14]에 초점을 맞추어 진행되었습니다.
이러한 연구는
합성 생물학을 통해 특정 화합물을 대량으로 생산하는 데 이론적 기반을 제공하며,
MP의 분자 육종을 향상시킬 수 있습니다.
Figure 1
Timeline for omics technology development and typical omics-based plant studies over the past two decades. The proposal of omics concepts is shown in yellow, key events related to the development of omics technologies are indicated in green boxes and typical omics-based plant studies were illustrated by blue. Abbreviations: NGS, next-generation sequencing; SMRT, single molecule real-time; MSI, mass spectrometry imaging; Smart-seq, switching mechanism at 5′ end of the RNA transcript sequencing; ATAC-seq, assay for transposase-accessible chromatin with high-throughput sequencing; CRISPR/Cas9, clustered regularly interspaced short palindromic repeats/CRISPR-associated9; ONT, Oxford Nanopore Technology.
Figure 2
Summary of research pattern and bibliometrics of omics studies on medicinal plants. (A) The pattern of omics studies on medicinal plants: (I) Taxonomics mainly involves identification and classification of medicinal plants based on phenotyping, DNA markers and chemical markers. (II) Transcriptomics studies contain bulk RNA-seq, single-cell RNA-seq (scRNA-seq), spatial RNA-seq (spRAN-seq), as well as degradome and ncRNAs. (III) Metabolomics mainly involves targeted, widely targeted, untargeted metabolome and spatial metabolome studies on secondary metabolites. (IV) Proteomics focuses on structures, functions and protein–protein interaction of protein molecules. (V) Genomics can be divided into structural and functional genomics studies. (VI) Pangenomics lays particular emphasis on the effects of SNPs, indels and SVs. (VII) Epigenomics mainly involves three aspects: DNA methylation, histone modification and chromatin remodeling. (VII) Mutagenomics aims at gaining desired species by random mutagenesis, targeted genome modifications and reverse genetics strategy. (B) The number of articles of omics studies on medicinal plants published from 2000 to 2022 from PubMed database. Keywords of medicinal plant taxonomic, transcriptome, metabolomic, proteomic, genomic, pangenome, DNA methylation and mutagenesis are searched, under the Title/Abstract term in the query box.
Here, we comprehensively review recent advances and future trends in omics studies of MPs to promote the development of novel ideas and methods related to integrated multi-omics research.
그림 2
의약식물 관련 오믹스 연구의 연구 패턴 및 문헌 분석 요약.
(A) 의약식물 관련 오믹스 연구의 패턴: (I) 분류학은 주로 형질 분석, DNA 마커 및 화학 마커를 기반으로 한 의약식물의 식별 및 분류를 포함합니다. (II) 트랜스크립토믹스 연구에는 대량 RNA-seq, 단일 세포 RNA-seq (scRNA-seq), 공간적 RNA-seq (spRAN-seq), 분해체 및 비코딩 RNA (ncRNA) 연구가 포함됩니다. (III) 대사체학은 2차 대사산물에 대한 표적, 광범위 표적, 비표적 대사체 및 공간적 대사체 연구를 주로 다룹니다. (IV) 프로테오믹스는 단백질 분자의 구조, 기능 및 단백질-단백질 상호작용에 초점을 맞춥니다. (V) 게노믹스는 구조적 게노믹스와 기능적 게노믹스 연구로 나뉩니다. (VI) 판게노믹스는 SNP, 인델 및 SV의 영향을 특히 강조합니다. (VII) 에피게노믹스는 DNA 메틸화, 히스톤 변형 및 크로마틴 재구성 세 가지 측면을 주로 다룹니다. (VII) 뮤테게노믹스는 무작위 돌연변이, 표적 유전체 변형 및 역유전학 전략을 통해 원하는 종을 얻는 것을 목표로 합니다.
(B) 2000년부터 2022년까지 PubMed 데이터베이스에서 발표된 의약 식물 관련 오믹스 연구 논문 수. 의약 식물 분류학, 트랜스크립토믹스, 대사체학, 프로테오믹스, 게노믹스, 판게노믹스, DNA 메틸화 및 돌연변이 유발과 관련된 키워드를 제목/초록 용어로 검색 상자에 입력했습니다.
여기서 우리는 의약 식물(MPs)의 오믹스 연구에서 최근 진전과 미래 트렌드를 종합적으로 검토하여 통합 다오믹스 연구와 관련된 새로운 아이디어와 방법의 개발을 촉진하기 위해 노력합니다.
Phenotypes and DNA markers are used in taxonomy
Phenotyping is the most intuitive approach for identifying and classifying plants but is time-consuming, laborious and often destructive to plants. High-throughput phenotyping platforms with high-resolution, advanced sensors and fully automatic data collection systems are promising advancements in plant phenotyping [15]. Bioinformatics tools and image databases have also been developed for handling the massive amounts of phenotypic data and plant images collected using high-throughput phenotyping platforms (Table 1; [16, 17]).
형질과 DNA 마커는 분류학에 사용됩니다
형질 분석은 식물을 식별하고 분류하는 가장 직관적인 접근 방식이지만 시간 소모적이며 노동 집약적이며 식물에 파괴적일 수 있습니다. 고해상도 센서와 완전 자동화된 데이터 수집 시스템을 갖춘 고효율 형질 분석 플랫폼은 식물 형질 분석 분야의 유망한 발전입니다[15]. 고효율 형질 분석 플랫폼을 통해 수집된 대규모 형질 데이터와 식물 이미지를 처리하기 위해 생물정보학 도구와 이미지 데이터베이스도 개발되었습니다(표 1; [16, 17]).
OmicsTool/database nameBrief descriptionURLReferences
| Taxonomics | Image Harvest | An open-source software for high-throughput plant image processing and analysis | http://cropstressgenomics.org/ | [16] |
| SpaTemHTP | A pipeline for analysing spatial temporal high-throughput phenotyping data | https://github.com/ICRISAT-GEMS/SpaTemHTP | [17] | |
| MPID | Medicinal plant images database | https://library.hkbu.edu.hk/electronic/libdbs/mpd/ | Null | |
| PlantCLEF 2019 | Image-based identification database for plant species | https://www.imageclef.org | Null | |
| MMDBD | Medicinal materials DNA barcode database | www.cuhk.edu.hk/icm/mmdbd.htm | [18] | |
| Transcriptomics | HISAT+StringTie | A combination approach for reference genome-based RNA-seq read alignment | Null | [19] |
| Trinity | A de novo transcriptome assembler of RNA-seq data without reference genome | https://github.com/trinityrnaseq/trinityrnaseq/wiki | [20] | |
| PPRD | A comprehensive online database for data mining and expression analysis | http://ipf.sustech.edu.cn/pub/plantrna/ | [21] | |
| ARS | An online database for exploring public Arabidopsis RNA-seq libraries | http://ipf.sustech.edu.cn/pub/athrna/ | [22] | |
| scDeepSort | A pre-trained cell-type annotation approach for single-cell transcriptomics based on deep learning | https://github.com/ZJUFanLab/scDeepSort | [23] | |
| PsctH | An integrated online tool for exploring plant single-cell transcriptome landscape | http://jinlab.hzau.edu.cn/PsctH/ | [24] | |
| PlantscRNAdb | A database dedicated to plant single-cell RNA analysis | http://ibi.zju.edu.cn/plantscrnadb/ | [25] | |
| CellTrek | A computational toolkit that can achieve single-cell spatial mapping | Null | [26] | |
| SpatialDB | A database for spatially resolved transcriptomes | https://www.spatialomics.org/SpatialDB | [27] | |
| psRNATarget | A small RNA target analysis server for plants | http://plantgrn.noble.org/psRNATarget/ | [28] | |
| PLncPRO | Predicting lncRNAs in plants | http://ccbb.jnu.ac.in/plncpro/ | [29] | |
| PcircRNA_finder | Predicting circRNAs in plants | http://ibi.zju.edu.cn/bioinplant/tools/manual.htm | [30] | |
| PAREameters | A tool for inferring miRNA targeting criteria in plants | http://srna-workbench.cmp.uea.ac.uk/ | [31] | |
| MepmiRDB | Medicinal plant miRNA and degradome-seq database | http://mepmirdb.cn/mepmirdb/index.html | [32] | |
| Metabolomics | CRISP | A deep learning framework for identifying, simulating and analysing contour regions of interest in metabolomics map | https://github.com/vivekmathema/GCxGC-CRISP | [33] |
| MAPPS | A web-based tool for metabolic pathway prediction and network analysis | https://mapps.lums.edu.pk | [34] | |
| MetaboAnalyst 5.0 | A web-based platform for metabolomics data analysis and interpretation | https://www.metaboanalyst.ca | [35] | |
| METLIN | A highly annotated database with over 850 000 molecular standards | http://metlin.scripps.edu | [36] | |
| Proteomics | Prosit | Proteome-wide prediction of peptide tandem mass spectra by deep learning | https://github.com/kusterlab/prosit | [37] |
| piNET | A web platform for downstream analysis and visualization of proteomics data | http://pinet-server.org | [38] | |
| PRIDE | A hub for mass spectrometry-based proteomics evidence | https://www.ebi.ac.uk/pride/ | [39] | |
| PPDB | The plant proteomics database | http://ppdb.tc.cornell.edu | [40] | |
| AlphaFold v2.0 | A 3D high-accuracy protein-structure prediction database | https://alphafold.ebi.ac.uk | [41] | |
| STRING v11 | Database for providing association networks of protein–protein interactions | http://string-db.org | [42] | |
| BioGRID | Database for storage of protein, genetic and chemical interactions from humans and major model species | https://thebiogrid.org | [43] | |
| Genomics | SVision | A deep learning approach to resolve complex structural variants in genome | https://github.com/xjtu-omics/SVision | [44] |
| MetaLogo | A heterogeneity-aware sequence logo generator used to display conservations and variations in a batch of DNA or protein sequences | http://metalogo.omicsnet.org | [45] | |
| TCMPG | Traditional Chinese medicine plant genome database | http://cbcb.cdutcm.edu.cn/TCMPG/ | [46] | |
| MPGR | Medicinal plants genomics resource | http://medicinalplantgenomics.msu.edu/ | Null | |
| Pangenomics | PATO | A pangenome analysis toolkit | https://github.com/irycisBioinfo/ PATO | [47] |
| Panache | A viewer based on web browser for linearized pan-genome | https://github.com/SouthGreenPlatform/panache | [48] | |
| GreenPhylDB v5 | A comparative plant pangenomics database | https://www.greenphyl.org | [49] | |
| Epigenomics | ChINN | A machine learning-based method for predicting chromatin interactions from DNA sequences | https://github.com/mjflab/chinn | [50] |
| PlantPan3.0 | A resource for reconstruction of transcriptional regulatory networks from plant ChIP-seq experiments | http://PlantPAN.itps.ncku.edu.tw/ | [51] | |
| Mutagenomics | CRISPRidentify | Identification of CRISPR arrays based on machine learning approach | https://github.com/BackofenLab/CRISPRidentify | [52] |
| Integrated multi-omics | multiSLIDE | A web tool for interactive heatmap-based exploration and visualization of multi-omics datasets | https://github.com/soumitag/multiSLIDE | [53] |
| PaintOmics 4 | A web tool for integrating and visualizing multi-omics datasets based on biological pathway maps | https://paintomics.org/ | [54] | |
| OmicsAnalyst | A web-based platform for analysis and results visualization of multi-omics datasets | https://www.omicsanalyst.ca | [55] | |
| OmicsNet 2.0 | A web-based tool for multi-omics integration and network visual analytics | http://www.omicsnet.ca | [56] | |
| MPOD | Integrated multi-omics database for medicinal plants | http://medicinalplants.ynau.edu.cn/ | [57] | |
| 1 K-MPGD | An integrated database combining genome and metabolites of medicinal plants | http://www.herbgenome.com/ |
Table 1
The list of typical bioinformatics resources available for omics studies on medicinal plants
OmicsTool/database nameBrief descriptionURLReferences
| Taxonomics | Image Harvest | An open-source software for high-throughput plant image processing and analysis | http://cropstressgenomics.org/ | [16] |
| SpaTemHTP | A pipeline for analysing spatial temporal high-throughput phenotyping data | https://github.com/ICRISAT-GEMS/SpaTemHTP | [17] | |
| MPID | Medicinal plant images database | https://library.hkbu.edu.hk/electronic/libdbs/mpd/ | Null | |
| PlantCLEF 2019 | Image-based identification database for plant species | https://www.imageclef.org | Null | |
| MMDBD | Medicinal materials DNA barcode database | www.cuhk.edu.hk/icm/mmdbd.htm | [18] | |
| Transcriptomics | HISAT+StringTie | A combination approach for reference genome-based RNA-seq read alignment | Null | [19] |
| Trinity | A de novo transcriptome assembler of RNA-seq data without reference genome | https://github.com/trinityrnaseq/trinityrnaseq/wiki | [20] | |
| PPRD | A comprehensive online database for data mining and expression analysis | http://ipf.sustech.edu.cn/pub/plantrna/ | [21] | |
| ARS | An online database for exploring public Arabidopsis RNA-seq libraries | http://ipf.sustech.edu.cn/pub/athrna/ | [22] | |
| scDeepSort | A pre-trained cell-type annotation approach for single-cell transcriptomics based on deep learning | https://github.com/ZJUFanLab/scDeepSort | [23] | |
| PsctH | An integrated online tool for exploring plant single-cell transcriptome landscape | http://jinlab.hzau.edu.cn/PsctH/ | [24] | |
| PlantscRNAdb | A database dedicated to plant single-cell RNA analysis | http://ibi.zju.edu.cn/plantscrnadb/ | [25] | |
| CellTrek | A computational toolkit that can achieve single-cell spatial mapping | Null | [26] | |
| SpatialDB | A database for spatially resolved transcriptomes | https://www.spatialomics.org/SpatialDB | [27] | |
| psRNATarget | A small RNA target analysis server for plants | http://plantgrn.noble.org/psRNATarget/ | [28] | |
| PLncPRO | Predicting lncRNAs in plants | http://ccbb.jnu.ac.in/plncpro/ | [29] | |
| PcircRNA_finder | Predicting circRNAs in plants | http://ibi.zju.edu.cn/bioinplant/tools/manual.htm | [30] | |
| PAREameters | A tool for inferring miRNA targeting criteria in plants | http://srna-workbench.cmp.uea.ac.uk/ | [31] | |
| MepmiRDB | Medicinal plant miRNA and degradome-seq database | http://mepmirdb.cn/mepmirdb/index.html | [32] | |
| Metabolomics | CRISP | A deep learning framework for identifying, simulating and analysing contour regions of interest in metabolomics map | https://github.com/vivekmathema/GCxGC-CRISP | [33] |
| MAPPS | A web-based tool for metabolic pathway prediction and network analysis | https://mapps.lums.edu.pk | [34] | |
| MetaboAnalyst 5.0 | A web-based platform for metabolomics data analysis and interpretation | https://www.metaboanalyst.ca | [35] | |
| METLIN | A highly annotated database with over 850 000 molecular standards | http://metlin.scripps.edu | [36] | |
| Proteomics | Prosit | Proteome-wide prediction of peptide tandem mass spectra by deep learning | https://github.com/kusterlab/prosit | [37] |
| piNET | A web platform for downstream analysis and visualization of proteomics data | http://pinet-server.org | [38] | |
| PRIDE | A hub for mass spectrometry-based proteomics evidence | https://www.ebi.ac.uk/pride/ | [39] | |
| PPDB | The plant proteomics database | http://ppdb.tc.cornell.edu | [40] | |
| AlphaFold v2.0 | A 3D high-accuracy protein-structure prediction database | https://alphafold.ebi.ac.uk | [41] | |
| STRING v11 | Database for providing association networks of protein–protein interactions | http://string-db.org | [42] | |
| BioGRID | Database for storage of protein, genetic and chemical interactions from humans and major model species | https://thebiogrid.org | [43] | |
| Genomics | SVision | A deep learning approach to resolve complex structural variants in genome | https://github.com/xjtu-omics/SVision | [44] |
| MetaLogo | A heterogeneity-aware sequence logo generator used to display conservations and variations in a batch of DNA or protein sequences | http://metalogo.omicsnet.org | [45] | |
| TCMPG | Traditional Chinese medicine plant genome database | http://cbcb.cdutcm.edu.cn/TCMPG/ | [46] | |
| MPGR | Medicinal plants genomics resource | http://medicinalplantgenomics.msu.edu/ | Null | |
| Pangenomics | PATO | A pangenome analysis toolkit | https://github.com/irycisBioinfo/ PATO | [47] |
| Panache | A viewer based on web browser for linearized pan-genome | https://github.com/SouthGreenPlatform/panache | [48] | |
| GreenPhylDB v5 | A comparative plant pangenomics database | https://www.greenphyl.org | [49] | |
| Epigenomics | ChINN | A machine learning-based method for predicting chromatin interactions from DNA sequences | https://github.com/mjflab/chinn | [50] |
| PlantPan3.0 | A resource for reconstruction of transcriptional regulatory networks from plant ChIP-seq experiments | http://PlantPAN.itps.ncku.edu.tw/ | [51] | |
| Mutagenomics | CRISPRidentify | Identification of CRISPR arrays based on machine learning approach | https://github.com/BackofenLab/CRISPRidentify | [52] |
| Integrated multi-omics | multiSLIDE | A web tool for interactive heatmap-based exploration and visualization of multi-omics datasets | https://github.com/soumitag/multiSLIDE | [53] |
| PaintOmics 4 | A web tool for integrating and visualizing multi-omics datasets based on biological pathway maps | https://paintomics.org/ | [54] | |
| OmicsAnalyst | A web-based platform for analysis and results visualization of multi-omics datasets | https://www.omicsanalyst.ca | [55] | |
| OmicsNet 2.0 | A web-based tool for multi-omics integration and network visual analytics | http://www.omicsnet.ca | [56] | |
| MPOD | Integrated multi-omics database for medicinal plants | http://medicinalplants.ynau.edu.cn/ | [57] | |
| 1 K-MPGD | An integrated database combining genome and metabolites of medicinal plants | http://www.herbgenome.com/ | [58] |
URL, uniform resource locator;Null represents no URL or Reference.
However, delimitation of certain taxa derived from congeneric species is difficult because of the existence of morphological intermediates. Therefore, many DNA barcodes such as 5S ribosomal RNA, 18S ribosomal RNA, internal transcribed spacer, matK, rbcL, trnH-psbA and trnL-F have been widely applied since 2008 for analysing the taxonomy of MPs [4]. In addition, specific types of DNA markers, such as single-nucleotide polymorphisms (SNPs) and simple sequence repeats, can be used to identify MPs. Currently, an interactive database of DNA barcodes from medicinal materials is regularly updated to support medicinal material identification and MP taxonomy studies [18]. Combining DNA barcodes with metabolomics data has been recommended for more accurately taxonomizing MPs and identifying their subspecies or varieties [12,59].
The availability of bioinformatics resources for taxonomic studies of MPs remains limited; thus, it is necessary to construct a standardised taxonomic system that combines phenotypic images with DNA markers and specific metabolites. Accurate taxonomic classification of MP species can not only confirm the authenticity of medicinal raw materials but also ensure the high quality of medicinal products produced from these materials.
그러나 동속 종에서 유래한 특정 분류군의 분류는 형태학적 중간형의 존재로 인해 어려움이 있습니다. 따라서 2008년부터 MP의 분류학 분석을 위해 5S 리보솜 RNA, 18S 리보솜 RNA, 내부 전사 스페이서, matK, rbcL, trnH-psbA 및 trnL-F와 같은 많은 DNA 바코드가 널리 적용되어 왔습니다[4]. 또한 단일 뉴클레오티드 다형성(SNPs)과 단순 반복 서열과 같은 특정 유형의 DNA 마커는 MP를 식별하는 데 사용될 수 있습니다. 현재 약용 재료의 DNA 바코드 상호작용 데이터베이스가 정기적으로 업데이트되어 약용 재료 식별 및 MP 분류학 연구를 지원하고 있습니다[18]. DNA 바코드와 대사체학 데이터를 결합하는 것이 MP의 분류를 더 정확히 수행하고 그 아종 또는 변종을 식별하는 데 권장되었습니다[12,59].
MP 분류 연구를 위한 생물정보학 자원 가용성은 여전히 제한적이며, 따라서 형질 이미지, DNA 마커, 특정 대사물을 결합한 표준화된 분류 체계를 구축하는 것이 필요합니다. MP 종의 정확한 분류는 의약 원료의 진위 여부를 확인하는 것뿐 아니라 이러한 원료에서 생산된 의약품의 고품질 확보에도 기여합니다.
Transcriptomics is the most widely used approach for studying gene expression
Transcriptomics can be divided into microarrays based on hybridization and RNA sequencing (RNA-seq) based on sequencing methods. The major difference between these approaches is that microarray can only detect the expression levels of known genes in samples, whereas RNA-seq can detect the expression information of all genes. In microarray analysis, the roles of specific mRNAs and microRNAs (miRNAs) can be determined under given stress conditions and identify molecular markers of specific compositions in plants [60,61]. RNA-seq can provide a dynamic genetic map of the spatiotemporal expression patterns of genes in different parts and developmental stages of plants. The transcriptomes of MPs with multiple medicinal parts have been sequenced using next-generation sequencing (NGS) platforms to investigate the organ- and tissue-specific expression patterns of genes [62–64]. Dynamic transcriptional changes in MPs under different stress conditions [65] and at different developmental stages [66] have been extensively studied. Compared with NGS, long-read sequencing technologies, such as PacBio and Oxford Nanopore Technologies, can reveal the complexity of transcriptomes, including post-transcriptional modifications, alternative splicing and fusion transcripts; thus, combining NGS and PacBio platforms can provide a finer transcriptome landscape of complex gene expression [67]. Two mainstream methods for transcriptome assembly, the combination of HISAT and StringTie [19] and Trinity [20], are applicable to the availability and non-availability of reference genomes, respectively. Currently, two databases of plant transcriptome data, PPRD and ARS, have important reference value for studying MP transcriptomes (Table 1; [21,22]).
전사체학은 유전자 발현 연구에 가장 널리 사용되는 접근 방식입니다
전사체학은
하이브리드화 기반 마이크로어레이와
시퀀싱 방법 기반 RNA 시퀀싱(RNA-seq)으로 나눌 수 있습니다.
이 두 접근법의 주요 차이점은
마이크로어레이는 샘플 내 알려진 유전자의 발현 수준만을 탐지할 수 있지만,
RNA-seq은 모든 유전자의 발현 정보를 탐지할 수 있다는 점입니다.
마이크로어레이 분석을 통해
특정 스트레스 조건 하에서
특정 mRNA와 마이크로RNA(miRNA)의 역할을 규명하고
식물 내 특정 성분의 분자 표지자를 식별할 수 있습니다[60,61].
RNA-seq은
식물의 다양한 부위와 발달 단계에서
유전자의 공간적·시간적 발현 패턴의 동적 유전 지도를 제공할 수 있습니다.
다중 약용 부위를 가진 MP의 전사체는
차세대 시퀀싱(NGS) 플랫폼을 사용하여
유전자들의 장기 및 조직 특이적 발현 패턴을 조사하기 위해 시퀀싱되었습니다 [62–64].
다양한 스트레스 조건 하에서 [65] 및 다양한 발달 단계에서 [66]
MP의 동적 전사 변화는 광범위하게 연구되었습니다.
NGS와 비교하여 PacBio 및 Oxford Nanopore Technologies와 같은
장독자 시퀀싱 기술은
전사체 복잡성, 즉 전사 후 변형, 대안적 스플라이싱 및 융합 전사체를 드러낼 수 있습니다.
따라서
NGS와 PacBio 플랫폼을 결합하면
복잡한 유전자 발현의 더 세밀한 전사체 지도를 제공할 수 있습니다 [67].
전사체 조립의 두 가지 주요 방법인 HISAT과 StringTie의 조합[19]과 Trinity[20]는
각각 참조 게놈의 유무에 따라 적용 가능합니다.
현재 식물 전사체 데이터베이스인 PPRD와 ARS는
MP 전사체 연구에 중요한 참조 가치를 가지고 있습니다(표 1; [21,22]).
Novel advancements in technology have improved the resolution of transcriptomic research from bulk RNA-seq to single-cell RNA-seq (scRNA-seq). Although limited by reference genomes and current technologies, scRNA-seq has been applied in plants such as Zea mays, Oryza sativa, Solanum lycopersicum and Arabidopsis thaliana, and a single-nucleus transcriptome atlas of S. lycopersicum and A. thaliana was reported [68]. Application of scRNA-seq and target genome-editing techniques has been proposed for supporting precise crop breeding, as clustered regularly interspaced short palindromic repeat droplet sequencing (CRISPR-seq) depends on a guide RNA vector with a unique barcode that can be detected using scRNA-seq [69]. Moreover, scRNA-seq can be combined with transposase-accessible chromatin with high-throughput sequencing (ATAC-seq) for multi-omics co-labelling, which can simultaneously capture information on transcripts and open chromatin from each cell. A pre-trained deep learning-based method, scDeepSort, can be used to annotate cell types in single-cell transcriptomic datasets [23]. The online tool Plant Single Cell Transcriptome Hub and continuously updated PlantscRNAdb were developed for plant scRNA-seq research [24,25]. These resources promoted scRNA-seq studies on MPs and pave the way for the combined application of scRNA-seq with other omics or techniques.
기술의 새로운 발전은 전사체 연구의 해상도를 대량 RNA-seq에서 단일 세포 RNA-seq(scRNA-seq)로 향상시켰습니다. 참조 게놈과 현재 기술의 한계에도 불구하고, scRNA-seq은 Zea mays, Oryza sativa, Solanum lycopersicum 및 Arabidopsis thaliana와 같은 식물에 적용되었으며, S. lycopersicum과 A. thaliana의 단일 핵 전사체 아틀라스가 보고되었습니다[68]. scRNA-seq과 표적 유전체 편집 기술의 결합은 정밀 작물 육종을 지원하기 위해 제안되었습니다. 이는 CRISPR-seq이 scRNA-seq을 통해 검출 가능한 고유 바코드를 가진 가이드 RNA 벡터를 기반으로 하기 때문입니다 [69].
또한 scRNA-seq은 고효율 시퀀싱을 갖춘 전이효소 접근 가능 염색질(ATAC-seq)과 결합되어 다중 오믹스 공동 표지화를 가능하게 하며, 이는 각 세포에서 전사체와 개방된 염색질 정보를 동시에 포착할 수 있습니다. 사전 훈련된 딥러닝 기반 방법인 scDeepSort는 단일 세포 전사체 데이터셋에서 세포 유형을 주석화하는 데 사용될 수 있습니다 [23]. 식물 scRNA-seq 연구를 위해 온라인 도구 Plant Single Cell Transcriptome Hub와 지속적으로 업데이트되는 PlantscRNAdb가 개발되었습니다 [24,25]. 이러한 자원은 MP에 대한 scRNA-seq 연구를 촉진했으며, scRNA-seq와 다른 오믹스 또는 기술의 결합 적용을 위한 기반을 마련했습니다.
Spatial transcriptome sequencing (spRNA-seq) can compensate for the loss of spatial location information of cells evaluating using scRNA-seq. The first spatially resolved transcriptome profile of plant fields was obtained from A. thaliana in 2017 to determine the processes involved in plant development and evolution [70]. Subsequent spatial transcriptome studies of peanut tissue suggested that the spatial information of cells, independent of marker genes, is more useful for non-model species [71]. A spatiotemporal atlas of organogenesis of orchid flowers revealed that floral organ development is co-regulated by numerous specialised genes that function in different tissues and developmental stages [72]. Two spRNA-seq platforms (10X Visium, 10X Genomics, Pleasanton, CA, USA; and GeoMx DSP, NanoString Technologies, Seattle, WA, USA) have been commercially available since 2019; however, these platforms cannot achieve single-cell resolution. Subsequently, an excellent computational method, CellTrek, was developed that combines two datasets to perform single-cell spatial mapping [26]. Thus, a combination of spRNA-seq and scRNA-seq can accurately depict the spatiotemporal developmental trajectory and biological functions of certain cells of interest in MPs. In addition, a database for spatially resolved transcriptomes, SpatialDB, provides a repository for researchers studying the spatial cellular structure of tissues and the cellular microenvironment [27].
Degradome and non-coding RNAs (ncRNAs) sequencing, another direction for transcriptome data research, provides abundant information on RNA degradation, miRNAs and long ncRNAs and contributes to the identification of miRNA-mediated cleavage of target genes and functional studies of ncRNAs [73]. Combined analysis of degradome sequencing and miRNA profiles has been widely applied in MP research [14,74]. Corresponding bioinformatics tools and databases, such as psRNATarget, PLncPRO, PcircRNA_finder, PAREameters and MepmiRDB, have been developed to identify and determine the functions of novel ncRNAs in plants (Table 1; [28–32]).
공간적 전사체 시퀀싱(spRNA-seq)은 scRNA-seq을 통해 평가할 때 세포의 공간적 위치 정보 손실을 보완할 수 있습니다. 2017년 A. thaliana에서 식물 필드의 첫 번째 공간적으로 분해된 전사체 프로파일이 식물 발달 및 진화 과정 파악을 위해 얻어졌습니다 [70]. 후속 공간적 전사체 연구에서 땅콩 조직의 공간적 정보는 마커 유전자에 독립적으로 더 유용하다는 것이 제안되었습니다 [71]. 난초 꽃의 기관 발생에 대한 공간적-시간적 아틀라스는 꽃 기관 발달이 다양한 조직과 발달 단계에서 기능하는 수많은 특수화된 유전자에 의해 공동 조절된다는 것을 보여주었습니다 [72]. 2019년부터 상업적으로 이용 가능한 두 가지 spRNA-seq 플랫폼(10X Visium, 10X Genomics, Pleasanton, CA, USA; 및 GeoMx DSP, NanoString Technologies, Seattle, WA, USA)이 존재하지만, 이 플랫폼들은 단일 세포 해상도를 달성할 수 없습니다. 이후 두 데이터셋을 결합하여 단일 세포 공간 매핑을 수행하는 우수한 계산 방법인 CellTrek이 개발되었습니다 [26]. 따라서 spRNA-seq과 scRNA-seq의 결합은 MP 내 특정 관심 세포의 공간적·시간적 발달 경로와 생물학적 기능을 정확히 묘사할 수 있습니다. 또한 공간적으로 분해된 전사체 데이터베이스인 SpatialDB는 조직의 공간적 세포 구조와 세포 미세환경을 연구하는 연구자들에게 데이터 저장소를 제공합니다 [27].
전사체 데이터 연구의 또 다른 방향인 Degradome 및 비코딩 RNA(ncRNA) 시퀀싱은 RNA 분해, miRNA 및 장쇄 ncRNA에 대한 풍부한 정보를 제공하며, miRNA 매개 표적 유전자 절단 및 ncRNA의 기능 연구에 기여합니다[73]. Degradome 시퀀싱과 miRNA 프로파일의 결합 분석은 MP 연구에서 널리 적용되었습니다[14,74]. psRNATarget, PLncPRO, PcircRNA_finder, PAREameters 및 MepmiRDB와 같은 대응하는 생물정보학 도구 및 데이터베이스는 식물에서 새로운 ncRNA의 식별 및 기능 규명을 위해 개발되었습니다(표 1; [28–32]).
Metabolomics defines end-products of gene expression
The metabolome is a direct determinant of the authenticity and quality of MPs. Currently, studies based on metabolomics are focused in targeted, widely targeted and untargeted directions. The targeted metabolome is a suitable choice for distinguishing crude medicinal materials from congeneric species in compound preparations of traditional Chinese medicines [75]. A widely targeted metabolome study of Pueraria lobata and its varieties suggested that differences in the nutritional value among these species can be explained by changes in nutrient abundance, whereas medicinal quality can be assessed according to the contents of secondary metabolites [76]. Sixteen key metabolites useful for distinguishing different Ficus deltoidea varieties were identified in untargeted metabolome analysis and were stable regardless of the growth environment and geographical origin [77]. Therefore, chemical markers are important factors for MP authentication, whereas the contents of specific metabolites can be used to evaluate the quality of medicinal raw materials. Metabolite profiling of mutagenic lines with loss- or gain-of-function genes reveal specific metabolites that are synthesized under the control of target genes, thereby bridging the gap between genes and metabolites. In addition, a metabolomics-oriented reverse genetic approach can be used to further explore the genes responsible for the chemical structure diversity of secondary metabolites [78]. Therefore, analysis of biosynthetic regulation cascades involved in active metabolite production in MPs, as the first step toward molecular breeding and synthetic biology, has been largely driven by metabolomics-based analyses.
A deep learning framework, CRISP, was developed to identify, simulate and analyse contour regions of interest in metabolomic maps [33]. MAPPS is useful for metabolic network analysis and pathway prediction, whereas MetaboAnalyst 5.0 is a user-friendly platform for analysing raw metabolomics data and exploring metabolite functions [34,35]. The enormous structural diversity of plant-derived compounds suggests that medicinally relevant compounds can still be discovered in plants. METLIN, a highly annotated database containing over 850 000 molecular standards, is useful for screening plant-derived bioactive compounds [36].
Spatial metabolomics overcomes the limitations of bulk metabolomics and can accurately determine the types, contents and spatial distributions of metabolites, and then characterise the chemical makeup of a tissue or organ at spatial resolution [79]. Thus, spatial metabolomics can provide abundant spatial distribution albums of metabolites and achieve ‘real-time reporting’ of the metabolome in organisms. The in situ presentation and spatiotemporal transformation of metabolites can simplify various biological problems in MPs, such as the biosynthetic pathways of natural metabolites [80] and fruit development [81]. Combining spatial metabolomics with spRNA-seq is an exciting approach for investigating biological processes in specialised cell types of MPs.
대사체학은 유전자 발현의 최종 산물을 정의합니다
대사체는
MP의 진정성과 품질의 직접적인 결정 요인입니다.
현재 대사체학 기반 연구는
표적, 광범위 표적 및 비표적 방향으로 진행되고 있습니다.
표적 대사체는
전통 중국 의약품의 복합 제제에서 동속 종의 원료 약재를 구분하는 데 적합한 선택입니다 [75].
Pueraria lobata와 그 품종에 대한 광범위 타겟팅 대사체학 연구는 종 간의 영양 가치 차이를 영양소 풍부도 변화로 설명할 수 있으며, 약용 품질은 2차 대사체 함량에 따라 평가될 수 있음을 제안했습니다[76]. 비타겟팅 대사체학 분석을 통해 Ficus deltoidea 품종을 구분하는 데 유용한 16개의 핵심 대사체가 식별되었으며, 이는 성장 환경과 지리적 기원에도 불구하고 안정적이었습니다[77]. 따라서 화학 표지자는 MP 인증의 중요한 요인이며, 특정 대사체 함량은 약용 원료의 품질 평가에 활용될 수 있습니다. 기능 상실 또는 기능 획득 유전자를 가진 돌연변이 계통의 대사체 프로파일링은 표적 유전자에 의해 조절되는 특정 대사체를 밝혀내어 유전자와 대사체 사이의 간극을 메우는 역할을 합니다. 또한 대사체학 기반 역유전학 접근법은 2차 대사체의 화학적 구조 다양성을 담당하는 유전자를 추가로 탐구하는 데 활용될 수 있습니다 [78]. 따라서 MP에서 활성 대사체 생산에 관여하는 생합성 조절 캐스케이드의 분석은 분자 육종과 합성 생물학으로의 첫 걸음으로서, 대사체학 기반 분석에 의해 크게 주도되어 왔습니다.
심층 학습 프레임워크인 CRISP는 대사체 지도에서 관심 영역의 윤곽을 식별, 시뮬레이션 및 분석하기 위해 개발되었습니다 [33]. MAPPS는 대사 네트워크 분석과 경로 예측에 유용하며, MetaboAnalyst 5.0은 원시 대사체 데이터 분석과 대사체 기능 탐색을 위한 사용자 친화적인 플랫폼입니다 [34,35]. 식물 유래 화합물의 방대한 구조적 다양성은 식물에서 의약적으로 유용한 화합물이 여전히 발견될 수 있음을 시사합니다. METLIN은 85만 개 이상의 분자 표준을 포함하는 고도로 주석이 달린 데이터베이스로, 식물 유래 생물활성 화합물 스크리닝에 유용합니다 [36].
공간 대사체학은 대량 대사체학의 한계를 극복하고 대사체의 유형, 함량 및 공간 분포를 정확히 결정하며, 조직이나 장기 내 화학 구성물을 공간 해상도로 특성화할 수 있습니다 [79]. 따라서 공간적 대사체학은 대사체의 풍부한 공간적 분포 데이터를 제공하며, 생물체 내 대사체군의 '실시간 보고'를 달성할 수 있습니다. 대사체의 현장 표현과 시공간적 변환은 MP에서 자연 대사체의 생합성 경로[80] 및 과일 발달[81]과 같은 다양한 생물학적 문제를 단순화할 수 있습니다. 공간적 대사체학과 spRNA-seq의 결합은 MP의 특수 세포 유형에서 생물학적 과정을 조사하는 흥미로운 접근 방식입니다.
Proteomics: a hub linking the transcriptome and metabolome
As proteins are directly involved in performing and controlling almost all biological processes, proteomics is essential for understanding the regulatory mechanisms responsible for the development and secondary metabolism of MPs [82]. iTRAQ quantitative proteomics of Rehmannia glutinosa roots revealed that many prenyltransferase present higher expression level at the expansion and maturation stage than the elongation stage [83]. Label-free quantitative proteomic study on P. ginseng leaves under heat revealed the molecular mechanism of stress and the influences of ginsenoside production at proteins level [84]. Proteins expressed in Chrysobalanus icaco, Bauhinia variegata and Bauhinia forficata have also been characterised and differentiated to determine the differences in their medicinal properties [85]. Notably, a recent study suggested that plant odorant-binding proteins bind specific metabolites, leading to changes in transcription activation, gene expression, protein function and metabolism, and play important roles in plant communication and defensive responses, which inspires researchers to further think about that whether the production and accumulation of desired metabolites can be induced by changing the expression and function of specific odourant-binding proteins [86]. The biological functions of a protein depend not only on the linear arrangement of the amino acid sequence but also on its spatial structure; post-translational modifications also have diverse effects on the activity and function of protein molecules [87].
Prosit is a proteome-wide prediction network based on deep learning that can enable larger numbers of identifications at >10x lower false discovery rates [37]. PiNET—a versatile web platform—is used for downstream analysis of proteomic data and visualisation of the results [38]. To date, there is no protein database specific for MPs; however, comprehensive protein databases, such as the continuously updated PRIDE and PPDB, are available for functional studies of proteins in MPs (Table 1; [39,40]). A breakthrough in protein-structure prediction, the AlphaFold protein-structure database, an artificial intelligence (AI) system developed by DeepMind, enables state-of-the-art predictions of protein structures based on their amino acid sequences, allowing biomedical researchers to obtain 3D structural models for almost any protein sequence [41]. In addition, protein–protein interaction networks are useful for functional studies of proteins, in which protein functions can be inferred based on interactions between known and unknown proteins [88]. Information on protein–protein interactions in plants has been deposited in the STRING and BioGRID databases, which are open to the public for MP investigations (Table 1; [42,43]).
프로테오믹스: 트랜스크립토믹스와 대사체학을 연결하는 허브
단백질은
거의 모든 생물학적 과정의 수행과 조절에 직접 관여하기 때문에,
프로테오믹스는 MP의 발달과 2차 대사 조절 메커니즘을 이해하는 데 필수적입니다 [82].
Rehmannia glutinosa 뿌리의 iTRAQ 정량 프로테오믹스 분석 결과,
많은 프렌틸트랜스퍼레이즈가 확장 및 성숙 단계에서 연장 단계보다 높은 발현 수준을 보였습니다 [83].
열 스트레스 하에서 P. ginseng 잎의 라벨 프리 정량 프로테오믹스 연구는
스트레스의 분자적 메커니즘과 진세노사이드 생산에 대한 단백질 수준에서의 영향을 밝혔습니다 [84].
Chrysobalanus icaco, Bauhinia variegata 및 Bauhinia forficata에서 발현되는 단백질도 특성화 및 구분되어 약리학적 특성 차이를 규명하기 위해 연구되었습니다 [85]. 특히 최근 연구는 식물 향기 결합 단백질이 특정 대사산물과 결합하여 전사 활성화, 유전자 발현, 단백질 기능 및 대사 변화를 유발하며, 식물 간 통신과 방어 반응에 중요한 역할을 한다는 것을 제안했습니다. 이는 연구자들이 특정 향기 결합 단백질의 발현과 기능을 조절하여 원하는 대사산물의 생산과 축적을 유도할 수 있는지 탐구하도록 영감을 주고 있습니다 [86]. 단백질의 생물학적 기능은 아미노산 서열의 선형 배열뿐만 아니라 공간적 구조에 의존하며, 번역 후 변형도 단백질 분자의 활성과 기능에 다양한 영향을 미칩니다 [87].
Prosit은 딥러닝을 기반으로 한 프로테옴 전체 예측 네트워크로, 거짓 발견률(FDR)을 10배 이상 낮추며 더 많은 식별을 가능하게 합니다 [37]. PiNET—다목적 웹 플랫폼—은 프로테오믹스 데이터의 하류 분석 및 결과 시각화에 사용됩니다 [38]. 현재 MP에 특화된 단백질 데이터베이스는 존재하지 않지만, PRIDE 및 PPDB와 같은 지속적으로 업데이트되는 포괄적인 단백질 데이터베이스는 MP 내 단백질의 기능 연구에 활용 가능합니다 (표 1; [39,40]). 단백질 구조 예측 분야의 혁신인 DeepMind에서 개발한 인공지능(AI) 시스템인 AlphaFold 단백질 구조 데이터베이스는 아미노산 서열을 기반으로 최첨단 단백질 구조 예측을 가능하게 하며, 생물의학 연구자들이 거의 모든 단백질 서열에 대한 3D 구조 모델을 얻을 수 있도록 합니다 [41]. 또한 단백질-단백질 상호작용 네트워크는 단백질 기능 연구에 유용하며, 알려진 단백질과 미지의 단백질 간의 상호작용을 기반으로 단백질 기능을 추론할 수 있습니다[88]. 식물에서의 단백질-단백질 상호작용 정보는 STRING 및 BioGRID 데이터베이스에 공개되어 MP 연구에 활용 가능합니다(표 1; [42,43]).
Structural and functional genomics
Structural genomics relies on molecular markers that are available for tagging and mapping of candidate genes related to species traits. Currently, quantitative trait locus (QTLs) mapping and genome-wide association studies (GWAS) are the two most important approaches for studying traits in plants. QTLs has been widely applied in MPs to link complex phenotypes of interest to specific regions on chromosomes and then identifying the number, locations, interactions and functions of these regions [7,89]. GWAS focus on detecting genetic variations in multiple individuals from a population to determine genotypes, followed by statistical analyses between genotypes and phenotypes at the population level to screen genetic variations most likely to affect traits of interest. This method has been applied to evaluate the genes controlling the stem thickness and dry root weight of P. notogensing [8], amorpha-4,11-diene synthase gene expansion and ultimately results in higher artemisinin content [90] and high α-linolenic acid content in the seed oil of Perilla [91]. Studies of the relationship between the traits and genotypes of MPs based on GWAS and QTLs have contributed to subsequent utilisation of functional genomics in molecular breeding and genetic improvement.
After plant genome resources became available, a combination of genomics and breeding techniques resulted in development of the novel concept of ‘genomics-assisted breeding’ for crop improvement in 2005 [92]. The advent of NGS has greatly improved the throughput of genome sequencing, and the introduction of long-read sequencing and Hi-C has enabled chromosome-level genome assembly and research. The genome of Cannabis sativa was sequenced on Roche/454 (Basel, Switzerland) and Illumina (San Diego, CA, USA) platforms in 2011 [93], and that of Dendrobium officinale was sequenced on Illumina and PacBio (Menlo Park, CA, USA) platforms in 2015 [94]. Specifically, the number of chromosome-level genomes from various MPs, such as P. notoginseng [9], Artemisia annua [90], Opium poppy [95], Medicago sativa [96] and Bletilla striata [97], has sharply increased in the last few years. These studies suggest that chromosome-level genomes are important for delineating biological processes occurring in MPs, as they can be used to reduce the negative effects caused by false and incomplete genome assembly. Notably, gene duplication, rearrangement, introgression and fusion events may have directly relationship with the specialised secondary metabolites [95]. Thus, functional genomics is a prerequisite for the precise molecular breeding of MPs to improve their medicinal traits [97]. In addition, some pivotal transcription factors are indispensable for regulating the biosynthesis of active compounds in MPs [98].
SVision was developed to resolve complex structural variations (SVs) in the genome [44], and online bioinformatics tools and continually updated genome databases [45,46] have provided important support for genomic studies of MPs (Table 1).
구조 및 기능 유전체학
구조적 유전체학은
종의 특성과 관련된 후보 유전자를 태그링 및 매핑하는 데 사용되는
분자 마커에 의존합니다.
현재 식물에서 특성을 연구하는 데 가장 중요한 두 가지 접근 방식은
정량적 형질座位(QTL) 매핑과 전장 유전체 연관 연구(GWAS)입니다.
QTL은 복잡한 형질과 염색체상의 특정 지역을 연결하고, 이러한 지역의 수, 위치, 상호작용 및 기능을 식별하는 데 MP에 널리 적용되었습니다[7,89]. GWAS는 인구 내 다수 개체에서 유전적 변이를 탐지하여 유전형을 결정한 후, 인구 수준에서 유전형과 형질 간의 통계적 분석을 통해 관심 형질에 영향을 미칠 가능성이 높은 유전적 변이를 선별하는 데 초점을 맞춥니다. 이 방법은 P. notogensing의 줄기 두께와 건조 뿌리 무게를 조절하는 유전자 평가[8], amorpha-4,11-diene synthase 유전자 확장 및 최종적으로 아르테미시닌 함량 증가[90], Perilla 종자의 종자 기름에 높은 α-리놀렌산 함량[91]에 적용되었습니다. GWAS와 QTL을 기반으로 한 MP의 형질과 유전형 간의 관계 연구는 기능 유전체학을 분자 육종 및 유전적 개선에 활용하는 데 기여했습니다.
식물 유전체 자원이 이용 가능해진 후, 유전체학과 육종 기술의 결합은 2005년 작물 개선을 위한 새로운 개념인 ‘유전체학 지원 육종’의 개발로 이어졌습니다 [92]. NGS의 등장으로 유전체 해독 속도가 크게 향상되었으며, 장독서열 해독과 Hi-C 기술의 도입은 염색체 수준 유전체 조립과 연구를 가능하게 했습니다. Cannabis sativa의 유전체는 2011년 Roche/454(바젤, 스위스) 및 Illumina(샌디에고, 캘리포니아, 미국) 플랫폼에서 해독되었으며 [93], Dendrobium officinale의 유전체는 2015년 Illumina 및 PacBio(멘로 파크, 캘리포니아, 미국) 플랫폼에서 해독되었습니다 [94]. 특히, P. notoginseng [9], Artemisia annua [90], Opium poppy [95], Medicago sativa [96] 및 Bletilla striata [97]와 같은 다양한 MP에서 염색체 수준 게놈의 수는 최근 몇 년간 급격히 증가했습니다. 이러한 연구들은 염색체 수준 게놈이 MP에서 발생하는 생물학적 과정을 규명하는 데 중요함을 시사합니다. 이는 잘못된 또는 불완전한 게놈 조립으로 인한 부정적 영향을 줄일 수 있기 때문입니다. 특히, 유전자 중복, 재배열, 도입, 융합 사건은 특수화된 2차 대사산물과 직접적인 관련이 있을 수 있습니다 [95]. 따라서 기능적 게노믹스는 MP의 약리적 특성을 개선하기 위한 정밀 분자 육종의 필수 조건입니다 [97]. 또한, 일부 핵심 전사 인자는 MP에서 활성 화합물의 생합성을 조절하는 데 필수적입니다 [98].
SVision은 유전체 내 복잡한 구조 변이(SV)를 해결하기 위해 개발되었으며 [44], 온라인 생물정보학 도구와 지속적으로 업데이트되는 유전체 데이터베이스 [45,46]는 MP의 유전체 연구에 중요한 지원을 제공했습니다(표 1).
Pangenomics focuses on the dynamic genome
With the increasing of genomic studies, researchers realized that a single reference genome is insufficient to represent the genetic diversity of a species. Notably, a comparative genomic study of four Panax species illustrated how reshuffling of the ancestral core-eudicot genome results in a highly dynamic genome and causes metabolic diversification of extant eudicot plants [99]. Thus, a new era of pangenomic studies of MPs has emerged. The concept of the pangenome was initially proposed in 2005 and applied to bacteria to account for intraspecific variability. Pangenome refers to collection of all genes in a specific species, these genes can be divided into the core genes shared by all individuals and the dispensable genes present in a specific individual. Currently, pangenome studies of crops such as rice, maize, tomato, cucumber, wheat and soybean have demonstrated that dispensable genes are vital for maintaining the genetic diversity of species, because dispensable genes exhibit higher variability compared with core genes and contain higher-density SNPs and indels [100,101]. Large-scale structural variations (SVs), including copy number variants and presence/absence variants (PAVs) at the population level, are currently the most important focus of crop pangenome studies [102]. SVs directly affect dispensable genes in the pangenome of a species; these genes tend to be responsible for specific plant traits such as fruit traits, flowering time and seed size, environmental adaptation and disease resistance [103]. Moreover, SVs can be used to study gene expression divergence and quantitative trait variations, whereas PAVs can be used as markers in GWAS studies. Bioinformatics tools have also been developed for pangenome analysis (Table 1; [47,48]). In addition, a comparative pangenomics database, GreenPhyIDB v5, was constructed for investigating gene families and homologous relationships among plant genomes [49].
Assembly of the plant genome and pangenome is challenging because of the occurrence of general polyploidization and presence of large number of repetitive sequences. However, long-read sequencing technologies are powerful for pangenome construction in plants with large genome sizes and can span complex repetitive regions in the genome to identify large-scale SVs. Notably, by combining differential gene identification and CRIPSR/Cas9, enables gene functions can be comprehensively dissected and validated. Pangenomic studies of crops have provided valuable references for constructing MP pangenomes. Pangenomes are expected to gradually replace single reference genomes and become a new standard for studying evolutionary clades and genetic variations in plants and MPs.
판게노믹스는 동적 유전체에 초점을 맞춥니다
유전체 연구가 증가함에 따라 연구자들은 단일 참조 유전체만으로는 종의 유전적 다양성을 대표하기에 부족하다는 것을 깨달았습니다. 특히, 네 가지 Panax 종의 비교 유전체 연구는 조상적 핵심 유두식물 유전체의 재편성이 현존하는 유두식물 식물의 대사 다양화를 초래하는 고도로 동적 유전체를 생성한다는 것을 보여주었습니다 [99]. 따라서 MP의 판게노믹스 연구의 새로운 시대가 열렸습니다. 파게노믹스의 개념은 2005년에 처음 제안되었으며, 종 내 변이성을 설명하기 위해 세균에 적용되었습니다. 파게노믹스는 특정 종의 모든 유전자를 수집한 것으로, 이 유전자들은 모든 개체에 공통된 핵심 유전자와 특정 개체에 존재하는 선택적 유전자로 구분됩니다. 현재 쌀, 옥수수, 토마토, 오이, 밀, 콩 등 작물의 판게놈 연구는 선택적 유전자가 종의 유전적 다양성을 유지하는 데 필수적임을 보여주었습니다. 선택적 유전자는 핵심 유전자에 비해 변이성이 높고, 더 높은 밀도의 단일 염기 다형성(SNPs)과 삽입/삭제 변이(indels)를 포함하기 때문입니다 [100,101]. 집단 수준에서 복제 수 변이(copy number variants)와 존재/부재 변이(PAVs)를 포함한 대규모 구조적 변이(SVs)는 현재 작물 판게놈 연구의 가장 중요한 연구 대상입니다[102]. SVs는 종의 판게놈 내 선택적 유전자에 직접적인 영향을 미치며, 이러한 유전자들은 과일 특성, 개화 시기, 종자 크기, 환경 적응, 질병 저항성 등 특정 식물 특성에 관여하는 경향이 있습니다[103]. 또한 SV는 유전자 발현 차이 및 정량적 형질 변이를 연구하는 데 활용될 수 있으며, PAV는 GWAS 연구의 마커로 사용될 수 있습니다. 파게놈 분석을 위한 생물정보학 도구도 개발되었습니다(표 1; [47,48]). 또한 식물 유전체 간의 유전자 가족 및 동족 관계 분석을 위해 비교 파게놈 데이터베이스인 GreenPhyIDB v5가 구축되었습니다[49].
식물 게놈과 판게놈의 조립은 일반적인 다배체화 현상과 대규모 반복 서열의 존재로 인해 도전적입니다. 그러나 대규모 게놈을 가진 식물에서 판게놈 구축에 강력한 도구로 작용하는 장독서 시퀀싱 기술은 게놈 내 복잡한 반복 영역을 포괄하여 대규모 SV를 식별할 수 있습니다. 특히, 차등 유전자 식별과 CRISPR/Cas9를 결합하면 유전자 기능을 포괄적으로 분석하고 검증할 수 있습니다. 작물의 판게노믹스 연구는 MP 판게놈 구축에 귀중한 참고 자료를 제공했습니다. 판게놈은 점차 단일 참조 게놈을 대체하고 식물과 MP의 진화적 계통과 유전적 변이를 연구하는 새로운 표준이 될 것으로 기대됩니다.
Epigenomics is an important supplement to genomics
Epigenetics involves changes in heritable traits caused by DNA methylation, histone modification and chromatin remodeling. Studies of epigenetic phenomena can be carried out on a genome-wide scale; thus, a new omics, epigenomics, combining epigenetics with genomics, has been developed [104]. Epigenomic studies have been performed to analyse epigenetic events occurring during the growth and development of plants, and to evaluate abnormalities caused by stress [105]. In addition, divergence in epigenetic regulation during polyploidization has led to high biochemical diversity among secondary metabolites in the Panax genus [99]. Since the DNA methylation pattern of the A. thaliana genome was reported in 2008 [106], DNA methylation studies have gradually become universally conducted to evaluate MPs. The pleiotropic roles of DNA methylation in MPs have been reviewed in detail [107]. Chromatin immunoprecipitation sequencing (ChIP-seq) can reveal information on histone modifications in studies of plant development and environmental memory [108], and ATAC-seq can be used to analyse genome-wide chromatin accessibility to explore the possible mechanisms of plant environmental adaptability [109]. Therefore, ChIP-seq and ATAC-seq are complementary methods that show highly consistent results [110]. Furthermore, ATAC-seq and RNA-seq can be combined to study differentially regulated transcription factors in key biological processes in plants [111]. The machine learning-based method chromatin interaction neural network (ChINN) is useful for predicting chromatin interactions based on DNA sequences, and PlantPan3.0 can be used to analyse the results of ChIP-seq experiments on MPs [50,51].
Currently, epigenomics is widely used to study epigenetic phenomena and the underlying epigenetic modification events in MPs. Several studies suggested that epigenetic modifications are closely related to the phenotypic traits of MPs and biosynthetic processes of secondary metabolites. These findings are expected to be applied in epigenetic engineering.
에피게노믹스는 게노믹스의 중요한 보완 분야입니다
에피제네틱스는 DNA 메틸화, 히스톤 변형 및 염색질 재편성으로 인한 유전적 특성의 변화입니다. 에피제네틱 현상은 게놈 전체 규모로 연구될 수 있으며, 이에 따라 게노믹스와 에피제네틱스를 결합한 새로운 오믹스 분야인 에피게노믹스가 개발되었습니다 [104]. 에피게노믹스 연구는 식물의 성장 및 발달 과정에서 발생하는 에피제네틱 사건을 분석하고 스트레스로 인한 이상을 평가하기 위해 수행되었습니다 [105]. 또한, 다배수화 과정에서 에피제네틱 조절의 차이는 Panax 속의 2차 대사산물에서 높은 생화학적 다양성을 초래했습니다 [99]. 2008년 A. thaliana 유전체 DNA 메틸화 패턴이 보고된 이후 [106], DNA 메틸화 연구는 MP 평가를 위해 점차 보편적으로 수행되고 있습니다. DNA 메틸화의 MP에 대한 다중 효과는 상세히 검토되었습니다 [107]. 크로마틴 면역침전 시퀀싱(ChIP-seq)은 식물 발달과 환경 기억 연구에서 히스톤 변형 정보를 제공하며 [108], ATAC-seq는 식물 환경 적응 메커니즘을 탐구하기 위해 전장 크로마틴 접근성을 분석하는 데 사용될 수 있습니다 [109]. 따라서 ChIP-seq와 ATAC-seq는 보완적인 방법으로 높은 일관성을 보여줍니다 [110]. 또한 ATAC-seq와 RNA-seq을 결합하여 식물에서 핵심 생물학적 과정에서의 차등 조절 전사 인자를 연구할 수 있습니다[111]. 기계 학습 기반 방법인 염색질 상호작용 신경망(ChINN)은 DNA 서열을 기반으로 염색질 상호작용을 예측하는 데 유용하며, PlantPan3.0은 MP에서의 ChIP-seq 실험 결과를 분석하는 데 사용될 수 있습니다[50,51].
현재 에피게노믹스는 MP에서 에피게노믹 현상과 그 기반이 되는 에피게노믹 변형 사건을 연구하는 데 널리 사용됩니다. 여러 연구에서 에피게노믹 변형이 MP의 형질적 특성 및 2차 대사산물 생합성 과정과 밀접하게 관련되어 있음을 제안했습니다. 이러한 결과는 에피게노믹 공학에 적용될 것으로 기대됩니다.
Mutagenomics for obtaining plant species with desired variations
Mutagenesis is one of the most effective approaches for obtaining species with desired variations and primarily involves random mutagenesis and targeted genome modifications. Random mutagenesis can produce many mutant individuals with diverse traits but requires large-scale screening, which is typically time-consuming and laborious because of the randomness of mutations. In the last two decades, several breakthroughs have been made in the genome-editing field, particularly in the CRISPR/Cas9 system, which is a site-directed mutagenesis technology for introducing targeted genome modifications. Using this system, targeted genome modifications were made in rice, tobacco and sorghum as early as 2013 [112]. Subsequently, this system was implemented in MPs (S. miltiorrhiza, O. poppy, Camelina sativa and Dioscorea zingiberensis) to produce pharmacologically bioactive metabolites through fine-scale targeted mutagenesis [113]. Transgenic herbal raw materials cannot be commercialised at present because of the specific nature of MPs (transgene introgression may lead to unpredictable changes in components and properties of herbal materials); thus, transgene-free genome editing may be important for avoiding transgene incorporation [114]. Transgene-free genome editing based on CRISPR/cas9 may be an optimal choice for improving the quality and yield of valuable MPs and achieving commercialisation. Notably, a machine learning-based approach, CRISPRidentify, can detect and differentiate true from false CRISPR arrays, greatly facilitating the application of CRISPR/Cas9 [52].
For genes with known functions, targeted genome modification is an excellent approach for rapidly and accurately obtaining a desired species. For genes with unknown or uncertain functions produced using genome sequencing and random mutagenesis, reverse genetics technologies can reveal associations between the differential genes and their functions and subsequently verify the functions of candidate genes. Integrated application of functional genomics and mutagenomics is currently the best approaches for improving species traits. Although mutagenomics has not been as widely used in MPs as in crops, its use in MP species is expected to increase with continuous improvements in MP genome resources and rapid development of suitable transformation and regeneration approaches.
원하는 변이를 가진 식물 종을 얻기 위한 뮤테게노믹스
변이유도는 원하는 변이를 가진 종을 얻는 가장 효과적인 접근법 중 하나로, 주로 무작위 변이유도와 표적 유전체 변형을 포함합니다. 무작위 돌연변이 유발은 다양한 특성을 가진 많은 돌연변이 개체를 생성할 수 있지만, 돌연변이의 무작위성으로 인해 대규모 선별이 필요하며 이는 일반적으로 시간 소모적이고 노동 집약적입니다. 지난 20년간 유전체 편집 분야, 특히 CRISPR/Cas9 시스템에서 여러 혁신이 이루어졌으며, 이는 표적 유전체 변형을 도입하는 위치 특이적 돌연변이 유발 기술입니다. 이 시스템을 활용해 2013년 이미 쌀, 담배, 수수에서 표적 유전체 변형이 이루어졌습니다[112].
이후 이 시스템은 MP(S. miltiorrhiza, O. poppy, Camelina sativa, Dioscorea zingiberensis)에 적용되어 정밀한 표적 돌연변이를 통해 약리학적 활성을 가진 대사물을 생산했습니다[113]. 현재 MP의 특이성(전유전자 도입이 약재 성분 및 특성 변화로 이어질 수 있음)으로 인해 전유전자 변형 약용 식물 원료는 상업화될 수 없습니다. 따라서 전유전자 도입을 피하기 위해 전유전자 없는 유전체 편집이 중요할 수 있습니다[114]. CRISPR/Cas9 기반 전유전자 없는 유전체 편집은 가치 있는 MP의 품질과 수확량을 개선하고 상업화를 달성하는 데 최적의 선택이 될 수 있습니다. 특히, 기계 학습 기반 접근법인 CRISPRidentify는 진정한 CRISPR 배열과 가짜 배열을 구분하여 CRISPR/Cas9 적용을 크게 용이하게 합니다 [52].
기능이 알려진 유전자에 대해 표적 유전체 변형은 원하는 종을 신속하고 정확하게 얻는 우수한 접근 방식입니다. 유전체 시퀀싱과 무작위 돌연변이화를 통해 생성된 기능이 알려지지 않거나 불확실한 유전자에 대해 역유전학 기술은 차등 유전자와 그 기능 간의 연관성을 밝히고 후보 유전자의 기능을 검증할 수 있습니다. 기능 유전체학과 돌연변이 유전체학의 통합적 적용은 현재 종 특성 개선을 위한 최상의 접근 방식입니다. 변이유전학은 작물에서만큼 MP에서 널리 사용되지 않았지만, MP 종에서의 활용은 MP 유전체 자원 개선과 적합한 변형 및 재생 기술의 빠른 발전과 함께 증가할 것으로 예상됩니다.
Multi-omics studies of medicinal plants are the future development trend
Rapid development of omics technologies is a prerequisite for successfully performing advanced omics studies. However, each omics technology, such as transcriptomics (including microarray technology, bulk RNA-seq, scRNA-seq and spRNA-seq), metabolomics (including bulk metabolomics and spatial metabolomics), proteomics (including iTRAQ quantitative and label-free quantitative technology) and genomics (including NGS and long-read sequencing technologies) has inherent advantages and disadvantages (Table 2). Therefore, integrated analysis of multi-omics datasets, such as the integration of scRNA-seq and spRNA-seq, spRNA-seq and spatial metabolomics, bulk RNA-seq and metabolomics, and RNA-seq and proteomics, can compensate for the limitations of other methods when comprehensively studying biological processes. Currently, omics studies of MPs are gradually transitioning from single- to multi-omics, which has provided more comprehensive insights into biological processes of interest. Integrated multi-omics studies of MPs have mainly focused on four factors (Figure 3). First, combined analysis of phenotypes, DNA markers and metabolomic data enables the accurate identification of MPs and processed medicinal materials [59,115]. Second, functional genes controlling the key agronomic traits of MPs can be located by linking extrinsic phenotypes to intrinsic genotype control [6,7,116]. Combining GWAS with other omics techniques may contribute to the identification of functional genes regulating complex traits [117]. Third, multi-omics integration can reveal the biosynthetic pathways of secondary metabolites in MPs [9–11,65]. Notably, integration of omics with gene editing tools is useful for the development of precision plant breeding [117]. Finally, multi-omics integration can explain the regulatory mechanisms involved in the responses of MPs to stress [12,13,118]. With the increasing diversity of omics technologies, researchers often obtain different types of omics datasets derived from the same or different samples, providing highly scientific and reliable access to specific biological processes in MPs. However, these findings also create challenges for the integrated and associated analysis of multiple omics data types.
의약 식물의 다중 오믹스 연구는 미래 발전 트렌드입니다
오믹스 기술의 빠른 발전은
고급 오믹스 연구를 성공적으로 수행하기 위한 필수 조건입니다.
그러나
전사체학(마이크로어레이 기술, 대량 RNA-seq, 단일 세포 RNA-seq 및 단일 스파이크 RNA-seq),
대사체학(대량 대사체학 및 공간 대사체학),
단백체학(iTRAQ 정량 및 라벨 프리 정량 기술) 및 유전체학(NGS 및 장독서 시퀀싱 기술)과 같은
각 오믹스 기술은 고유한 장점과 단점을 가지고 있습니다(표 2).
따라서
scRNA-seq와 spRNA-seq, spRNA-seq와 공간 대사체학,
대량 RNA-seq와 대사체학,
RNA-seq와 프로테오믹스 등 다중 오믹스 데이터셋의 통합 분석은
생물학적 과정을 종합적으로 연구할 때 다른 방법의 한계를 보완할 수 있습니다.
현재 MP에 대한 오믹스 연구는
단일 오믹스에서 다중 오믹스로 점차 전환되고 있으며,
이는 관심 있는 생물학적 과정에 대한 더 포괄적인 통찰을 제공했습니다.
MPs에 대한 통합 다중 오믹스 연구는
주로 네 가지 요소에 초점을 맞추고 있습니다(그림 3).
첫째, 형질, DNA 마커 및 대사체학 데이터의 결합 분석을 통해 MPs와 가공된 약용 재료의 정확한 식별이 가능합니다[59,115].
둘째, 외적 형질과 내적 유전자형 조절을 연결함으로써 MPs의 주요 농경학적 특성을 조절하는 기능적 유전자를 위치시킬 수 있습니다[6,7,116]. GWAS와 다른 오믹스 기술을 결합하면 복잡한 형질을 조절하는 기능적 유전자의 식별에 기여할 수 있습니다[117].
세 번째로, 다중 오믹스 통합은 MP의 2차 대사산물 생합성 경로를 밝힐 수 있습니다[9–11,65]. 특히, 오믹스와 유전자 편집 도구의 통합은 정밀 식물 육종 개발에 유용합니다[117].
마지막으로, 다중 오믹스 통합은 MP가 스트레스에 반응하는 데 관여하는 조절 메커니즘을 설명할 수 있습니다 [12,13,118].
오믹스 기술의 다양성이 증가함에 따라 연구자들은 동일한 또는 다른 샘플에서 파생된 다양한 유형의 오믹스 데이터셋을 자주 획득하게 되며, 이는 MP의 특정 생물학적 과정에 대한 과학적이고 신뢰할 수 있는 접근을 제공합니다. 그러나 이러한 결과는 다중 오믹스 데이터 유형의 통합 및 연관 분석에 대한 도전 과제를 제기합니다.
Table 2
Advantages and disadvantages of the leading technologies for omics
OmicsTechnologiesAdvantagesDisadvantagesMain application in plant fieldsRepresentative research
| Transcriptomics | Microarray | (i) The fidelity of gene expression is high because amplification is not required. (ii) It is very suitable for research with high requirement for quantification of genes expression. | (i) The template needs to be designed prior to the experiment. (ii) Novel transcripts cannot be detected. (iii) The detection result is inaccurate when the gene expression level is too low or high. (iv) The number of genes detected at one time is limited. | Identifying molecular markers for specific composition, revealing the regulatory mechanisms of stress response. | [60,61] |
| Bulk RNA-seq | (i) All genes expressed at a certain time node or development stage of an organism can be detected simultaneously. (ii) Novel transcripts and splice isoforms or even genes can be found. | (i) The imbalance of PCR amplification processes will destroy the true concentration proportion of different fragments in the samples, resulting in errors in the calculation of gene expression. (ii) It only represents the average gene expression level of a sample. | Studying plant growth and development, stress response and the regulatory mechanisms of genes involved in accumulation and distribution of secondary metabolites. | [62–66] | |
| ScRNA-seq | (i) Revealing the genes expression state of single cell and reflecting the heterogeneity between cells. (ii) Discovering novel and rare cell types. (iii) Exploring regulatory mechanisms of genes expression during cell development and differentiation. (iv) It is very suitable for rare sample or sample with a small number of cells. | (i) The process of dissociating tissues may cause changes in gene expression, especially in plant cells. (ii) Different types of cells may have different degrees of difficulty in dissociation, which may lead to rare cell types cannot be captured, and the proportion of cell types finally obtained is biased. (iii) The sample must be fresh living tissue. | Analyzing cell differentiation trajectory, inferring the development process of the tissue and finding the heterogeneity between distinct cell types in the tissue. | [68] | |
| SnRNA-seq | In addition to the advantages of scRNA-seq, snRNA-seq is also applicable to (i) frozen tissue, (ii) samples that are difficult to dissociate, (iii) cells with irregular shape, such as nerve cells and muscle cells. | (i) It loses RNAs in cytoplasm, may resulting in the loss of transcripts information with important biological significances. (ii) It is usually necessary to use a flow cytometer to sort the nucleus, which leads to longer experimental time and more transcription changes without biological significance. | Similar to scRNA-seq studies. | [68] | |
| SpRNA-seq | Combining spatial location information with genes expression to display genes transcription information at different locations in tissues or samples. | Single-cell resolution has not been achieved yet due to technology limitation. | Identifying key genes and regulatory pathways responsible for development process of tissues and organs. | [70–72] | |
| Metabolomics | Bulk metabolomics | It can provide all metabolites (including types and content) of any sample at specific developmental stage or environmental condition. | It only represents the average level of metabolites. | Studying the content of nutrient and secondary metabolites, identifying the quality and authenticity of raw medicinal materials. | [75–77] |
| Spatial metabolomics | It can accurately characterize types, contents and spatial distributions of metabolites, and achieved ‘real-time reporting’ of metabolome in organisms. | Mass spectrometry imaging (MSI) technology mostly belongs to solid sampling, its sensitivity and detection limit often differ from that of bulk metabolomics. | Studying biosynthesis and distribution of natural metabolites, fruit development and maturity. | [80,81] | |
| Proteomics | LC–MS/MS-based iTRAQ Quantitative Proteomics | (i) Wide analysis range and good separation effect. (ii) Reliable qualitative and accuracy quantitative results. | (i) It can only detect differential expressed proteins. (ii) It is easy to introduce errors in sample processing. | Study differential expressed proteins under different growth condition or development stage. | [83] |
| LC–MS/MS-based Label-free Quantitative Proteomics | (i) The number of samples is not limited and applicable to large sample size. (ii) The detection range of peptide fragments is wide and conducive to detection of low abundance proteins. (iii) It can identify whether proteins exist. | (i) Complex data processing. (ii) High dependence on the stability of mass spectrometry results. | Study differential expressed proteins under different growth condition or development stage. | [84] | |
| Genomics | NGS-based | (i) High sequencing throughput. (ii) Low cost. (iii) Low sequencing error rate. | (i) Short reads. (ii) High assembly error rate. (iii) Unable to obtain high-quality reference genome. | It was used for genome sequencing in the early stage, but now it is mainly used for transcriptome sequencing. | [62–66,93] |
| Long-read sequencing-based | (i) Long reads, combing with Hi-C can provide chromosome-level genome. (ii) It can span complex repetitive regions in the genome to discover larger-scale structural variations. | (i) High sequencing error rate. (ii) High cost. | Obtaining chromosome-level genome. | [94–97] |
Several bioinformatics tools for integrating and analysing multi-omics datasets were recently developed [53–56]. MPOD and 1 K-MPGD are specific for multi-omics studies of MPs, and will be continuously updated to provide long-term support for combined analysis of multi-omics datasets (Table 1) [57,58]. Furthermore, data obtained using integrated multi-omics approaches can complement and validate each other when investigating changes in certain biological processes, making the analytical results more comprehensive and credible. Integrated multi-omics approaches will be widely applied in MP research to understand specific biological processes.
Figure 3
The application summary of integrated multi-omics approaches in medicinal plants. It is mainly involved in four aspects: (i) identifying medicinal plants species by integration of phenotype and DNA markers or chemical markers (purple box); (ii) locating function genes by combination of transcriptomics with degradome and ncRNAs, function genomics with mutagenomics, phenotype with structural genomics (green box); (iii) unearthing metabolic pathways by the integration of transcriptomics and genomics, proteomics, metabolomics, as well as the combination of genomics with transcriptomics and epigenomics (blue box) and (iv) unveiling regulation mechanisms response to stress by integration of transcriptomics and metabolomics, and physiological indices (red box).
그림 3
의약 식물에서 통합 다오믹스 접근법의 적용 요약.
이는 주로 네 가지 측면에 초점을 맞추고 있습니다:
(i) 형질과 DNA 마커 또는 화학 마커의 통합을 통해 의약 식물 종을 식별하는 것 (보라색 상자);
(ii) 트랜스크립토믹스와 분해체, 비코딩 RNA를 결합하여 기능 유전자를 위치시키는 것, 기능 유전체학과 돌연변이 유전체학을 결합하는 것, 형질과 구조 유전체학을 결합하는 것 (녹색 상자);
(iii) 전사체학 및 유전체학, 단백체학, 대사체학의 통합, 그리고 유전체학과 전사체학 및 에피유전체학의 결합을 통해 대사 경로를 규명하는 것(파란색 상자) 및
(iv) 전사체학 및 대사체학, 생리학적 지표의 통합을 통해 스트레스에 대한 조절 메커니즘을 규명하는 것(빨간색 상자).
Conclusion
Recent developments in diverse omics technologies have provided an unprecedented opportunity for plant researchers to obtain considerable biological knowledge through integrated analysis of multiple omics datasets. Genomes, transcriptomes, proteomes, metabolomes and other omics datasets derived from various MPs have been reported, and corresponding bioinformatic tools and databases have been developed. Integrated analysis of multi-omics datasets is highly comprehensive for investigating MPs. Results based on multi-omics datasets not only provide a foundation for obtaining MP species with high yield, good quality and disease resistance through molecular breeding but also provide a theoretical basis for achieving steady biotransformation of desired secondary metabolites through synthetic biology. Notably, it is now feasible to identify functional genes controlling key biological traits and determine the catalytic mechanisms of key enzymes involved in biosynthetic pathways of active compounds by performing multi-omics and bioinformatic studies. However, there are many unsettled issues in genome editing and the knockout or overexpression of functional genes for MPs because of the lack of suitable transformation and regeneration approaches. Synthetic biology involves strain improvement, microbial system development and reconstruction and optimisation of metabolic models suitable for specific metabolite types, which are very challenging.
Although MPs have been widely examined in omics studies, further detailed examination is required. There have been few scRNA-seq and spRNA-seq studies of MPs because of the limitations of reference genomes and technologies. Furthermore, transgene-free genome modifications based on the CRISPR/Cas9 system have not been widely applied to MPs, as suitable transformation and regeneration approaches are lacking. Increasing evidence has shown that epigenetic modifications have non-negligible effects on gene expression; however, there are fewer epigenomic studies of MPs than of crops. In addition, ncRNAs play important roles in regulating gene expression; however, there is only one miRNA database specific for MPs, and no database exists for circRNAs and long ncRNAs in MPs. Finally, it remains challenging to integrate different results from multiple omics research, establish correlations between results and provide reasonable explanations for causalities because of differences in the representation of different omics datasets, particularly for more than three omics data types. The lack of bioinformatic tools and omics databases limits the interpretation of specific phenomena, inhibiting the understanding of certain biological processes. Therefore, more comprehensive bioinformatics sources for integrated analysis and visualisation of different omics datasets are urgently needed. Although a wide range of integrative bioinformatics tools have been proposed for analysing multi-omics datasets, biological interpretation is difficult because of the limitations of the tools themselves. Notably, machine learning and artificial intelligence are promising approaches for integrating and analysing multi-omics datasets based on their predictive performance, flexibility and capability to capture hierarchical and nonlinear features [119].
An increasing number of studies of MPs will lead to further omics databases and bioinformatics tools, enabling research to progress from single- to multi-omics. Integrated multi-omics studies on MPs are expected to expand and facilitate the development of molecular breeding of MPs as well as synthetic biology approaches.
결론
다양한 오믹스 기술의 최근 발전은
식물 연구자들이 다중 오믹스 데이터셋의 통합 분석을 통해
상당한 생물학적 지식을 획득할 수 있는 전례 없는 기회를 제공했습니다.
다양한 MP에서 유래한 게놈, 트랜스크립톰, 프로테옴, 대사체 및 기타 오믹스 데이터셋이 보고되었으며,
이에 대응하는 생물정보학 도구와 데이터베이스가 개발되었습니다.
다중 오믹스 데이터셋의 통합 분석은
MP 연구에 매우 포괄적입니다.
다중 오믹스 데이터셋을 기반으로 한 결과는
분자 육종을 통해 고수율, 우수한 품질 및 질병 저항성을 갖춘 MP 종을 확보하는 데 기반을 제공할 뿐만 아니라,
합성 생물학을 통해 원하는 2차 대사산물의 안정적인 생물전환을 달성하는 데 이론적 기반을 제공합니다.
특히,
다중 오믹스 및 생물정보학 연구를 통해
활성 화합물의 생합성 경로에 관여하는 핵심 생물학적 특성을 조절하는 기능적 유전자를 식별하고,
해당 효소의 촉매 메커니즘을 규명하는 것이 가능해졌습니다.
그러나 적합한 변형 및 재생 접근법의 부족으로 인해 MP를 위한 유전자 편집 및 기능적 유전자의 노크아웃 또는 과발현에 대한 많은 미해결 문제가 존재합니다. 합성 생물학은 특정 대사체 유형에 적합한 대사 모델의 개발, 미생물 시스템 개발 및 재구성, 최적화를 포함하며, 이는 매우 도전적인 과제입니다.
MPs는 오믹스 연구에서 널리 조사되었지만, 추가적인 상세한 분석이 필요합니다. 참조 게놈과 기술의 한계로 인해 MPs에 대한 scRNA-seq 및 spRNA-seq 연구는 아직 많지 않습니다. 또한 CRISPR/Cas9 시스템을 기반으로 한 전유전자 없는 게놈 변형은 적합한 변형 및 재생 기술이 부족해 MPs에 널리 적용되지 않았습니다. 증가하는 증거는 에피제네틱 변이가 유전자 발현에 무시할 수 없는 영향을 미친다는 것을 보여주고 있지만, 작물보다 MP에 대한 에피제노믹 연구는 적습니다. 또한 ncRNA는 유전자 발현 조절에 중요한 역할을 하지만, MP에 특화된 miRNA 데이터베이스는 하나뿐이며, MP의 circRNA 및 장쇄 ncRNA에 대한 데이터베이스는 존재하지 않습니다. 마지막으로, 다양한 오믹스 연구 결과의 통합, 결과 간의 상관관계 확립, 인과 관계에 대한 합리적인 설명은 오믹스 데이터셋의 표현 방식 차이, 특히 세 가지 이상의 오믹스 데이터 유형을 포함할 경우 더욱 어려움에 직면합니다. 생물정보학 도구와 오믹스 데이터베이스의 부족은 특정 현상의 해석을 제한하며, 특정 생물학적 과정의 이해를 방해합니다. 따라서 다양한 오믹스 데이터셋의 통합 분석 및 시각화를 위한 더 포괄적인 생물정보학 자료가 시급히 필요합니다. 다양한 통합 생물정보학 도구가 다중 오믹스 데이터셋 분석을 위해 제안되었지만, 도구 자체의 한계로 인해 생물학적 해석이 어렵습니다. 특히 기계 학습과 인공 지능은 예측 성능, 유연성, 계층적 및 비선형적 특성을 포착하는 능력으로 인해 다중 오믹스 데이터셋의 통합 및 분석에 유망한 접근 방식입니다[119].
MPs에 대한 연구가 증가함에 따라 더 많은 오믹스 데이터베이스와 생물정보학 도구가 개발될 것이며, 이는 연구를 단일 오믹스에서 다중 오믹스로 발전시키는 데 기여할 것입니다. MPs에 대한 통합 다중 오믹스 연구는 MPs의 분자 육종 및 합성 생물학 접근법의 개발을 확대하고 촉진할 것으로 기대됩니다.
Key Points
Authors’ contributions
L.Y. wrote the manuscript; L.H., Y.Y. and X.C. provided valuable advice for the manuscript and Y.L. conceived the initial idea and reviewed the manuscript.
Funding
This work was supported by the Yunnan Major Scientific and Technological Projects [grant number KKAN20222025]; National Natural Science Foundation of China [grant number 31960134]; Establishment of Sustainable Use for Valuable Chinese Medicine Resources [grant number 2060302] and Major Science and Technology Special Project of Yunnan Province [grant number 202102AA310034].
Lifang Yang is a PhD student at Kunming University of Science and Technology, China. She is interested in the bulk RNA-seq, scRNA-seq and metabolomics studies on Panax genus.
Ye Yang is a professor at Kunming University of Science and Technology, China. His research interests mainly involve the molecular mechanisms of plants response to stresses.
Luqi Huang, the academician of the Chinese Academy of Engineering, studies the development of traditional Chinese medicine, Chinese Academy of Chinese Medical Sciences, China.
|
|