|
KORE-Map 1.0: Korean medicine Omics Resource Extension Map on transcriptome data of tonifying herbal medicine
Scientific Data volume 11, Article number: 974 (2024) Cite this article
Abstract
Traditional herbal medicine, rooted in a long history of use in East Asia, combines several herbs to create treatments showing high efficacy with minimal side effects, for specific diseases. Such combination therapies represent a potential reservoir of new drugs for treating multifactorial and incurable chronic diseases. However, the complexity of their mechanisms of action due to the combination of multiple compounds, has limited their research integration into modern pharmacological science. To address this challenge, we constructed drug-induced transcriptome data for herbal medicines through systematic experiments, analyzed with the aid of various omics databases. We introduce KORE-Map 1.0 (Korean medicine Omics Resource Extension Map), the first comprehensive resource of drug-derived transcriptome data for representative tonifying herbal medicines, effective in enhancing the immune system. This dataset aims to provide novel insights into the combinatorial mechanisms of these herbal medicines and to aid in the discovery of new therapeutic targets and indications for various incurable diseases.
전통 한방 의학은 동아시아에서 오랜 사용 역사를 바탕으로
여러 약초를 조합해 특정 질환에 대해
높은 효능과 최소한의 부작용을 보이는 치료법을 개발합니다.
이러한 복합 치료법은
다인자성 및 불치성 만성 질환 치료를 위한
새로운 약물의 잠재적 자원으로서 주목받고 있습니다.
그러나
다중 화합물의 조합으로 인한 작용 메커니즘의 복잡성은
현대 약리학 연구와의 통합을 제한해 왔습니다.
이 문제를 해결하기 위해 우리는 체계적인 실험을 통해
한방 약물의 약물 유도 전사체 데이터를 구축하고,
다양한 오믹스 데이터베이스를 활용해 분석했습니다.
우리는
면역 체계 강화에 효과적인 대표적 보양 한약재의 약물 유도 전사체 데이터
첫 번째 종합 자원인 KORE-Map 1.0 (한약 오믹스 자원 확장 지도)을 소개합니다.
이 데이터셋은
이러한 한약재의 조합적 작용 메커니즘에 대한 새로운 통찰을 제공하고,
다양한 불치병의 새로운 치료 표적 및 적응증 발견을 지원하기 위해 설계되었습니다.
Similar content being viewed by others
Article Open access06 May 2025
Article Open access20 August 2021
Overview and limitations of database in global traditional medicines: A narrative review
Article 02 August 2024
Background & Summary
Herbal medicine has long been used effectively for disease treatment in East Asia, notably in Korea and China1. These medicines exemplify combination therapy, employing multiple compounds to treat diseases2. Such therapy is effective in multifactorial diseases as it addresses multiple targets3, and offers the advantage of fewer side effects such as drug resistance4. Tonifying herbal medicine (THM), a form of combination therapy, not only targets diseases directly but also aims to activate immunity5. Thus, THMs have the capacity to: (1) treat multifactorial diseases, (2) minimize drug resistance, and (3) manage conditions challenging to treat with conventional drugs by bolstering the immune system. This study therefore proposes a new paradigm in disease treatment.
Despite its numerous benefits, research on THM faces limitations, particularly in accurately identifying the mechanism of action (MOA) due to the involvement of multiple compounds. One solution is drug-induced transcriptome analysis6,7, a method of measuring relative expression levels of mRNA after treating a cell line with a specific drug. This method reveals the MOA of drugs through complex pharmacodynamic processes as reflected in mRNA expression8, providing insights into the therapeutic effects of both single drugs and compound combinations. Furthermore, it facilitates the identification of transcriptomic signatures responsive to these treatments, confirming the therapeutic mechanism of each approach. Therefore, transcriptome analysis, by elucidating the MOA of combination therapies, is pivotal in revealing the therapeutic mechanisms of herbal medicine prescriptions beyond individual herbs.
배경 및 요약
한방 약물은
동아시아, 특히 한국과 중국에서 질병 치료에 효과적으로 사용되어 왔습니다1.
이러한 약물은
여러 성분을 결합하여 질병을 치료하는 복합 요법의 대표적인 예입니다2.
이러한 요법은
다인성 질환에 효과적이며,
다중 표적을 타겟팅하기 때문입니다3.
또한 약물 내성 등 부작용이 적다는
장점을 제공합니다4.
한방 약물의 한 형태인 보양 한방 약물(THM)은
질병을 직접 타겟팅할 뿐만 아니라
면역력을 활성화하는 것을 목표로 합니다5.
Tonifying herbal medicine
따라서
THM은 다음과 같은 능력을 갖추고 있습니다:
(1) 다인자성 질환 치료,
(2) 약물 내성 최소화,
(3) 면역 체계 강화로 전통적 약물로 치료가 어려운 질환 관리.
본 연구는 따라서 질병 치료에 새로운 패러다임을 제안합니다.
그러나
THM 연구는 다중 화합물의 관여로 인해
작용 메커니즘(MOA)을 정확히 규명하는 데 한계가 있습니다.
한 가지 해결책은
특정 약물로 세포주를 처리한 후 mRNA의 상대적 발현 수준을 측정하는
이 방법은
mRNA 발현에 반영된 복잡한 약동학 과정을 통해
약물의 MOA를 밝히며,
단일 약물과 복합 조합의 치료 효과를 이해하는 데 기여합니다.
또한
이러한 치료법에 반응하는 전사체 서명을 식별하는 데 도움을 주어
각 접근법의 치료 메커니즘을 확인합니다.
따라서
전사체 분석은
개별 약초를 넘어 한방 처방의 치료 메커니즘을 밝히는 데 결정적인 역할을 합니다.
To uncover the therapeutic MOA of herbal medicines using transcriptome analysis, it is important to consider a variety of factors. One such variable to consider is the choice of cell line9. As the dominantly expressed genes vary across cell lines, analysis across diverse cell lines essential for confirming the MOA of herbal medicines on multiple targets. Therefore, generating transcriptome data from various cell lines is an efficient strategy that not only validates the therapeutic effects of herbal medicines, but also elucidates their mechanisms of action in various organs. Another critical factor is drug concentration, which can significantly influence the MOA of drugs10. For example, Finasteride, a well-known treatment for benign prostatic hyperplasia, demonstrates different effects at varying doses—acting on prostate cancer at higher doses (5 mg/day), and delaying hair loss at lower doses (1 mg/day)11. This variability demonstrates the importance of dose determination in confirming the MOA of herbal medicines. Additionally, the choice of solvent plays a pivotal role7, as natural products comprise both hydrophilic and hydrophobic compounds. Therefore, the fractions of compounds extracted from water and ethanol solvents vary, indicating different processing mechanisms. To reveal the therapeutic mechanisms of herbal medicine, multiple variables must be considered. Transcriptome data, produced in consideration of these variables, are important in elucidating the MOA of the drug.
전사체 분석을 통해 한방 약물의 치료적 MOA를 규명하려면
다양한 요소를 고려해야 합니다.
고려해야 할 변수 중 하나는
세포주 선택입니다9.
세포주에 따라 주로 발현되는 유전자가 다르기 때문에,
다양한 세포주에서의 분석은
한약재가 다중 표적에 미치는 MOA를 확인하는 데 필수적입니다.
따라서
다양한 세포주에서 전사체 데이터를 생성하는 것은
한약재의 치료 효과를 검증할 뿐만 아니라
다양한 장기에서의 작용 메커니즘을 규명하는 효율적인 전략입니다.
또 다른 중요한 요소는
약물 농도로, 이는 약물의 작용 메커니즘에 크게 영향을 미칠 수 있습니다10.
예를 들어,
양성 전립선 비대증의 잘 알려진 치료제인
피나스테라이드는 용량에 따라 다른 효과를 나타냅니다
—고용량(5mg/일)에서는 전립선 암에 작용하고,
저용량(1mg/일)에서는 탈모를 지연시킵니다11.
이 변동성은
한약재의 작용 메커니즘을 확인하는 데
용량 결정의 중요성을 보여줍니다.
또한
용매의 선택은 중요한 역할을 합니다7,
자연 제품은
친수성과 소수성 화합물을 모두 포함하기 때문입니다.
따라서
물과 에탄올 용매에서 추출된 화합물의 분획은 다르게 나타나며,
이는 다른 처리 메커니즘을 나타냅니다.
한약재의 치료 메커니즘을 밝히기 위해서는
다양한 변수를 고려해야 합니다.
이러한 변수를 고려하여 생성된
전사체 데이터는 약물의 MOA를 규명하는 데 중요합니다.
In this Data Descriptor, we introduce KORE-Map 1.0 (Korean Medicine Omics Resource Extension-Map), featuring THM-derived transcriptome data available on the NCBI gene expression omnibus (GEO) platform. The data were generated from four THMs commonly used in clinical practice, along with the 10 herbs constituting them. The transcript expression information was derived from both water and ethanol extracts of THMs and herbs, prepared at three different concentrations and applied to four representative human-derived cell lines (A549, HepG2, HT29, and SW1783). Utilizing the MGIEasy RNA directional library prep kit and the MGISEQ-2000 sequencing system, both widely used worldwide, not only facilitates easy data reuse but also ensures excellent compatibility with other transcriptome datasets. The THM-derived transcriptome data produced in this study could serve multiple purposes, such as aiding in the identification of therapeutic MOAs involving multiple compounds, which is crucial for understanding therapeutic mechanisms in multifactorial or comorbid conditions. In addition, the transcriptome data, spanning various cell lines and concentrations, hold potential for applications in drug repositioning, side effect detection, and more, by enabling the simultaneous evaluation of the effects of multiple compounds on multiple targets and organs.
이 데이터 설명서에서는 NCBI 유전자 발현 오미버스(GEO) 플랫폼에 공개된 한약재 유래 전사체 데이터를 포함하는 KORE-Map 1.0(한의학 오믹스 자원 확장 지도)을 소개합니다.
데이터는 임상에서 널리 사용되는 4가지 THM과
이를 구성하는 10가지 약재로부터 생성되었습니다.
전사체 발현 정보는
THM과 약재의 물 및 에탄올 추출물에서 추출되었으며,
3가지 다른 농도로 준비되어
4가지 대표 인간 유래 세포 라인(A549, HepG2, HT29, SW1783)에 적용되었습니다.
MGIEasy RNA 방향성 라이브러리 준비 키트와 MGISEQ-2000 시퀀싱 시스템을 사용함으로써,
전 세계적으로 널리 사용되는 이 기술은
데이터 재사용을 용이하게 할 뿐만 아니라
다른 전사체 데이터셋과의 우수한 호환성을 보장합니다.
본 연구에서 생성된 THM 유래 전사체 데이터는
다중 화합물 관련 치료 메커니즘을 이해하는 데 중요한
다중 화합물 치료 메커니즘(MOA) 식별에 도움을 줄 수 있습니다.
또한 다양한 세포주와 농도를 포괄하는 전사체 데이터는
다중 화합물이 다중 표적 및 장기에 미치는 영향을 동시에 평가함으로써
약물 재위치화, 부작용 탐지 등에 적용될 잠재력을 가지고 있습니다.
Methods
Preparation of herbs
Dried medicinal plants, conforming to the Korean Pharmacopoeia standards, were provided by Kwangmyung-dang Medicinal Herbs Co., located in Ulsan, Republic of Korea. These samples underwent an organoleptic examination by Dr. Choi Goya, a herbal medicine organoleptic examination expert appointed by the Korea Food and Drug Administration. The identification to species level was accomplished through DNA barcode region sequencing. Voucher specimens have been stored at the Korean Herbarium of Standard Herbal Resources, within the Herbal Medicine Resources Research Center, at the Korea Institute of Oriental Medicine in Naju, Republic of Korea (Table 1). All herbs and extracts, which were sourced from the Oriental Medicine Resources Research Center (KIOM), are available online at https://oasis.kiom.re.kr/herblib.
약초 준비
한국 약전 기준에 부합하는 건조 약용 식물은 대한민국 울산시에 위치한 광명당 약초 주식회사에서 제공되었습니다. 이 샘플은 한국 식품의약품안전처에서 지정한 한약재 관능 검사 전문가인 최고야 박사에 의해 관능 검사를 받았습니다. 종 수준 식별은 DNA 바코드 지역 시퀀싱을 통해 수행되었습니다. 표본은 대한민국 나주시에 위치한 한국한약자원연구센터 내 한약자원연구센터의 한국한약표본관에 보관되어 있습니다(표 1). 한국한약자원연구센터(KIOM)에서 공급받은 모든 약재 및 추출물은 온라인에서 https://oasis.kiom.re.kr/herblib에서 확인할 수 있습니다.
Table 1 Herbal Medicine Information and Yields.
Code Num.HerbsExtractsMedicinal nameScientific NameFamilyVoucher numberD, Yield (%)Voucher numberE, Yield (%)Voucher number
22-01D &E | Poria Sclerotium | Macrohyporia cocos (Schwein.) I.Johans. & Ryvarden | Polyporaceae | 2-22-0221 | 2.5 | 3-22-0019 | 4.9 | 3-22-0020 |
22-02D &E | Atractylodis Rhizoma Alba | Atractylodes macrocephala Koidz. | Compositae | 2-22-0212 | 60.2 | 3-22-0017 | 19.7 | 3-22-0018 |
22-03D &E | Glycyrrhizae Radix et Rhizoma | Glycyrrhiza glabra L. | Leguminosae | 2-22-0211 | 28.8 | 3-22-0015 | 32.8 | 3-22-0016 |
22-04D &E | Ginseng Radix | Panax ginseng C.A.Mey. | Araliaceae | 2-22-0215 | 25.4 | 3-22-0013 | 20.9 | 3-22-0014 |
22-05D &E | Angelica Root | Angelica acutiloba (Siebold & Zucc.) Kitag. | Umbelliferae | 2-22-0217 | 46.2 | 3-22-0011 | 37.8 | 3-22-0012 |
22-06D &E | Paeoniae Radix | Paeonia lactiflora Pall. | Paeoniaceae | 2-22-0216 | 30.0 | 3-22-0009 | 28.7 | 3-22-0010 |
22-07D &E | Cnidii Rhizoma | Ligusticum officinale (Makino) Kitag. | Umbelliferae | 2-22-0218 | 42.2 | 3-22-0007 | 40.8 | 3-22-0008 |
22-08D &E | Rehmanniae Radix Preparata | Rehmannia glutinosa (Gaertn.) DC. | Scrophulariaceae | 2-22-0219 | 63.5 | 3-22-0004 | 67.1 | 3-22-0005 |
22-09D &E | Cinnamomi Cortex | Cinnamomum cassia (L.) J.Presl | Lauraceae | 2-22-0214 | 5.4 | 3-22-0003 | 11.5 | 3-22-0004 |
22-10D &E | Astragali Radix | Astragalus mongholicus Bunge | Leguminosae | 2-22-0213 | 19.6 | 3-22-0001 | 37.1 | 3-22-0002 |
Preparation method of hot water and 70% ethanol extracts of herbs and THMs
Hot water and 70% ethanol extracts of each plant were prepared and supplied by KOC Biotech Co., located in Daejeon, Republic of Korea. Initially, dried plants (1,000 g) were pulverized and extracted in 10 L of hot distilled water for 3 h using a reflux extraction system (MS-DM609; MTOPS, Seoul, Republic of Korea), or in 10 L of 70% ethanol for 1 h using an ultrasonication system (VCP-20, Lab companion, Dajeon, Republic of Korea) twice. The resulting extract solutions were filtered through a 5 µm cartridge filter, concentrated using a rotary evaporator (Ev-1020, SciLab, Seoul, Republic of Korea), and finally lyophilized in a freeze dryer (LP-20, Ilshin-Bio-Base, Dongducheon, Republic of Korea) to produce the final extracts. These extracts were then finely homogenized and packaged in glass bottles with desiccant silica gel. THMs were prepared by blending and homogenizing these extracts in accordance with the composition ratios and extract yields of the individual medicinal herbs, according to the Korean Pharmacopoeia (Table 2). For in vitro applications, extracts (100 mg) were vigorously vortexed for 30 min in 10 mL of phosphate-buffered saline (PBS; Thermo Fisher Scientific, Rockford, IL, USA) containing 2% DMSO. This mixture was then sterilized by filtration through a 0.22 µm membrane to obtain a stock solution (10 mg/mL), which was divided into small aliquots and stored at −80 °C until their use.
허브와 THMs의 뜨거운 물 추출물 및 70% 에탄올 추출물의 제조 방법
각 식물의 뜨거운 물 추출물과 70% 에탄올 추출물은
대한민국 대전시에 위치한 KOC Biotech Co.에서 준비 및 공급되었습니다.
먼저,
건조된 식물(1,000g)을 분쇄한 후,
대한민국 서울시에 위치한 MTOPS 사의 반사 추출 시스템(MS-DM609)을 사용하여
10L의 뜨거운 증류수에서 3시간 동안 추출했습니다.
또는
70% 에탄올 10L에 초음파 추출 시스템(VCP-20, Lab companion, 대전, 대한민국)을 사용하여
1시간 동안 두 번 추출했습니다.
70% 에탄올 초음파 추출은
초음파 에너지를 사용해서 식물 세포벽을 파괴하고,
에탄올이 유효 성분을 더 잘 용해하도록 돕는 방법
추출액은 5µm 카트리지 필터를 통해 필터링한 후 회전 증발기(Ev-1020, SciLab, 서울, 대한민국)로 농축하고, 최종적으로 동결 건조기(LP-20, Ilshin-Bio-Base, 동두천, 대한민국)에서 동결 건조하여 최종 추출물을 제조했습니다. 이 추출물은 건조제 실리카겔을 넣은 유리 병에 세밀하게 균질화하여 포장했습니다. THMs는 한국 약전(Table 2)에 따라 각 약초의 구성 비율과 추출 수율을 고려하여 이 추출물을 혼합 및 균질화하여 제조되었습니다. in vitro 응용을 위해 추출물(100 mg)은 2% DMSO를 함유한 인산 완충 식염수(PBS; Thermo Fisher Scientific, Rockford, IL, USA) 10 mL에서 30분 동안 강하게 vortexing했습니다. 이 혼합물은 0.22µm 필터를 통해 필터링하여 멸균한 후, 10mg/mL 농도의 원액으로 제조되었습니다. 이 원액은 소량으로 분주하여 −80°C에서 보관되었습니다.
Table 2 Tonifying Herbal Medicine Mixing Information.
THMHerbsMass (g)Proportion (%)
Sagunja-tang | Poria Sclerotium | 1.56 | 25 |
Atractylodis Rhizoma Alba | 1.56 | 25 | |
Glycyrrhizae Radix et Rhizoma | 1.56 | 25 | |
Ginseng Radix | 1.56 | 25 | |
Total mass | 6.24 | 100 | |
Samul-tang | Angelica Root | 1.33 | 25 |
Paeoniae Radix | 1.33 | 25 | |
Cnidii Rhizoma | 1.33 | 25 | |
Rehmanniae Radix Preparata | 1.33 | 25 | |
Total mass | 5.32 | 100 | |
Palmul-tang | Glycyrrhizae Radix et Rhizoma | 1.5 | 12.5 |
Angelica Root | 1.5 | 12.5 | |
Paeoniae Radix | 1.5 | 12.5 | |
Atractylodis Rhizoma Alba | 1.5 | 12.5 | |
Poria Sclerotium | 1.5 | 12.5 | |
Rehmanniae Radix Preparata | 1.5 | 12.5 | |
Ginseng Radix | 1.5 | 12.5 | |
Cnidii Rhizoma | 1.5 | 12.5 | |
Total mass | 12 | 100 | |
Sibjeondeabo-tang | Ginseng Radix | 1 | 10.53 |
Atractylodis Rhizoma Alba | 1 | 10.53 | |
Poria Sclerotium | 1 | 10.53 | |
Glycyrrhizae Radix et Rhizoma | 0.5 | 5.26 | |
Angelica Root | 1 | 10.53 | |
Cnidii Rhizoma | 1 | 10.53 | |
Paeoniae Radix | 1 | 10.53 | |
Rehmanniae Radix Preparata | 1 | 10.53 | |
Astragali Radix | 1 | 10.53 | |
Cinnamomi Cortex | 1 | 10.53 | |
Total mass | 9.5 | 100.00 |
Cell culture
All cell lines were purchased from the American Type Culture Collection (Manassas, VA, USA) and were cultured in a basal medium enriched with 10% heat-inactivated fetal bovine serum, 100 IU/mL penicillin, and 100 µg/mL streptomycin, all within a humidified incubator (Table 3). Cell confluence levels between 80–90% prompted the replacement of the growth medium every 3–4 days to maintain optimal growth conditions. To ensure the absence of mycoplasma contamination, the MycoAlert PLUS mycoplasma detection kit (Lonza, Rockland, ME, USA) was employed for regular testing.
세포 배양모든 세포주는 미국 유형 배양 컬렉션(American Type Culture Collection, Manassas, VA, USA)에서 구매했으며, 10% 열처리된 태아 소 혈청, 100 IU/mL 페니실린, 100 μg/mL 스트렙토마이신으로 강화된 기본 배지에서 습도 조절된 배양기에서 배양되었습니다(표 3). 세포 밀도가 80–90%에 도달하면 최적의 성장 조건을 유지하기 위해 성장 배지를 3–4일마다 교체했습니다. 마이코플라스마 오염을 방지하기 위해 MycoAlert PLUS 마이코플라스마 검출 키트(Lonza, Rockland, ME, USA)를 정기적으로 사용했습니다.
Table 3 Information of Cell Lines.
Cell LineInformation of cell lineGrowth TypeDescription (Human)TissueATCC No.PassageMycoplasma test
A549 | Adherent | Non-small cell lung carcinoma | Lung | CCL-185 | 85 | negative |
HepG2 | Adherent | Hepatocellular carcinoma cell line | Liver | HB-8065 | 81 | negative |
HT29 | Adherent | Colorectal adenocarcinoma | Colon | HTB-38 | 135 | negative |
SW1783 | Adherent | Astrocytoma | Brain | HTB-13 | 30 | negative |
Cell Line | Culture condition | Cell density for test | ||||
Medium for culture | Incubator | Maintanance | 96 well for IC20 | 6 well for RNA samp. | ||
A549 | RPMI + 10% FBS + antibiotics(P/S) | 5% CO2, 37 °C | Trypsinize, 1:6, 3days | 1 × 104cell/100uL | 3 × 105 cells/3 mL | |
HepG2 | DMEM + 10% FBS + antibiotics(P/S) | 5% CO2, 37 °C | Trypsinize, 1:4, 3days | 2 × 104cell/100uL | 6 × 105 cells/3 mL | |
HT29 | DMEM + 10% FBS + antibiotics(P/S) | 5% CO2, 37 °C | Trypsinize, 1:4, 3days | 2 × 104cell/100uL | 6 × 105 cells/3 mL | |
SW1783 | Leibovitz’s L-15 + 10%FBS + antibiotics(P/S) | 0% CO2, 37 °C | Trypsinize, 1:4, 4days | 5 × 103cells/100uL | 1.5 × 105cells/3 mL |
Drug treatment and total RNA preparation for RNA sequencing (RNA-seq) analysis
To determine the appropriate treatment drug concentrations, we performed cell cytotoxicity tests to investigate drug doses that maintained 80% cell viability (IC20s), which were then adopted as the maximal doses for RNA-seq data collection. For drugs whose IC20s could not be determined, the highest treatment concentrations were capped at 500 µg/mL for extracts, considering both their solubility and relevance for clinical application. To confirm the influence of concentration, cells were treated with three different concentrations using 1/5 serial dilutions, thereby exposing them to low, medium, and high doses. Positive control drugs such as wortmannin (Sigma, W1628), LY294002 (Sigma, L9908), and Thioridazine (Sigma, T9025) were incorporated into the assay for comparative analysis against the connectivity map (CMap) data. Cells treated with a 2% DMSO/PBS solution served as the vehicle control. One day before drug administration, cells were seeded into 6-well culture plates with 3 mL of growth medium. Following a 24 h treatment period, the cells were washed with ice-cold PBS, and total RNA was isolated using QIAzol RNA isolation reagents (Thermo Fisher Scientific) in accordance with the manufacturer’s instructions.
약물 치료 및 RNA 시퀀싱(RNA-seq) 분석을 위한 총 RNA 추출
적절한 약물 농도를 결정하기 위해 세포 독성 시험을 수행하여 80%의 세포 생존율을 유지하는 약물 농도(IC20)를 조사했으며, 이 농도를 RNA-seq 데이터 수집을 위한 최대 농도로 채택했습니다. IC20를 결정할 수 없는 약물의 경우, 용해도와 임상 적용 가능성을 고려해 추출물 기준 최대 농도를 500 μg/mL로 제한했습니다. 농도 영향 확인을 위해 세포를 1/5 연속 희석으로 세 가지 다른 농도에 노출시켜 저농도, 중농도, 고농도 조건을 적용했습니다. 비교 분석을 위해 연결성 지도(CMap) 데이터와 대비하기 위해 워트만닌(Sigma, W1628), LY294002(Sigma, L9908), 티오리다진(Sigma, T9025)과 같은 양성 대조 약물이 실험에 포함되었습니다. 2% DMSO/PBS 용액으로 처리된 세포는 차량 대조군으로 사용되었습니다. 약물 투여 하루 전, 세포는 3mL의 배양액과 함께 6-웰 배양 접시에 접종되었습니다. 24시간 처리 후, 세포는 얼음 냉각 PBS로 세척된 후, 제조사의 지침에 따라 QIAzol RNA 분리 시약 (Thermo Fisher Scientific)을 사용하여 총 RNA를 분리했습니다.
RNA-seq data generation and preprocessing
Total RNA (over 500 ng) from each sample was processed for the mRNA sequencing library using the MGIEasy RNA directional library prep kit (MGI Tech Co., Ltd., China), following the manufacturer’s instructions. The library concentration was quantified using the QuantiFluor® ssDNA System (Promega Corporation, WI, USA). The prepared DNA nanoball was sequenced on an MGISEQ system (MGI Tech Co., Ltd., China) employing 100 bp paired-end reads. The RNA-seq data quality was assessed using FastQC (v0.11.9). To remove common MGISEQ adapter sequences, TrimGalore (v0.6.6) was utilized. Trimmed reads were then mapped to the human reference genome assembly GRCh38 (hg38) using the STAR aligner (v2.7.3a) with default settings12. Gene transcript abundance, including expected read counts and transcripts per million, was quantified using RSEM (v1.3.3), with the gene annotation GRCh38.8413. The raw sequence data (FASTQ files) and the preprocessed expression values for each gene have been deposited in the GEO under accession numbers GSE244687, GSE244707, GSE244694, and GSE245912.
RNA-seq 데이터 생성 및 전처리
각 샘플에서 추출한 총 RNA (500 ng 이상)는 제조사의 지침에 따라 MGIEasy RNA 방향성 라이브러리 준비 키트 (MGI Tech Co., Ltd., China)를 사용하여 mRNA 시퀀싱 라이브러리로 처리되었습니다. 라이브러리 농도는 QuantiFluor® ssDNA 시스템 (Promega Corporation, WI, USA)을 사용하여 정량화되었습니다. 준비된 DNA 나노볼은 MGISEQ 시스템 (MGI Tech Co., Ltd., 중국)을 사용하여 100 bp 페어드-엔드 리드 방식으로 시퀀싱되었습니다. RNA-seq 데이터 품질은 FastQC (v0.11.9)를 사용하여 평가되었습니다. MGISEQ 어댑터 시퀀스를 제거하기 위해 TrimGalore (v0.6.6)가 사용되었습니다. 정제된 읽기 데이터는 STAR aligner (v2.7.3a)를 사용하여 기본 설정12로 인간 참조 게놈 조립체 GRCh38 (hg38)에 매핑되었습니다. 유전자 전사체 풍부도는 RSEM (v1.3.3)을 사용하여 예상 읽기 수 및 백만당 전사체 수를 포함하여 정량화되었으며, 유전자 주석은 GRCh38.8413을 사용했습니다. 원시 시퀀스 데이터(FASTQ 파일)와 각 유전자에 대한 사전 처리된 발현 값은 GEO에 액세스 번호 GSE244687, GSE244707, GSE244694, 및 GSE245912로 등록되었습니다.
Differential gene expression analysis
Using the gene symbols of protein-coding genes, we utilized the collapseRows function from the WGCNA package (v.1.72-1)14, specifically designed to merge expression data for genes represented by multiple probes. This approach effectively reduces redundancy and potential noise, enhancing the clarity of subsequent analyses. Additionally, the filterByExpr function from the genefilter package (v.1.78.0)15 was utilized to exclude genes that failed to meet predetermined expression criteria across samples. This filtering ensured that only genes most likely to provide reliable and relevant signals were retained for analysis.
For evaluation of each set of treatment conditions—encompassing four cell lines, 14 herbs and THMs, two extraction methods, and three concentration levels— we conducted differential gene expression (DGE) analysis against the corresponding control samples. This analysis was performed using the Wald test statistic as implemented in the DESeq. 2 package (v.1.36.0)16. Differentially expressed genes (DEGs) were determined based on a fold-change threshold of 1.5 and an adjusted P-value of less than 0.05.
차이 유전자 발현 분석
단백질 코딩 유전자의 유전자 심볼을 사용하여, WGCNA 패키지(v.1.72-1)14의 collapseRows 함수를 활용했습니다. 이 함수는 다중 프로브로 표현된 유전자의 발현 데이터를 병합하도록 특별히 설계되었습니다. 이 접근 방식은 중복과 잠재적 노이즈를 효과적으로 줄여 후속 분석의 명확성을 높입니다. 또한 genefilter 패키지(v.1.78.0)15의 filterByExpr 함수를 사용하여 샘플 간에 사전 설정된 발현 기준을 충족하지 못한 유전자를 제외했습니다. 이 필터링을 통해 분석에 가장 신뢰할 수 있고 관련성이 높은 신호를 제공하는 유전자만 유지되었습니다.
각 치료 조건 세트(4개 세포 라인, 14개 허브 및 THMs, 2개 추출 방법, 3개 농도 수준)에 대해 대조군 샘플 대비 차등 유전자 발현(DGE) 분석을 수행했습니다. 이 분석은 DESeq. 2 패키지(v.1.36.0)16에 구현된 Wald 검정 통계를 사용하여 수행되었습니다. 차이 유의 유전자(DEG)는 1.5의 배율 변화 임계값과 조정 P-값 0.05 미만을 기준으로 결정되었습니다.
Clustering analysis
The fold-change values derived from the DGE analysis across all treatment conditions were clustered using the t-distributed stochastic neighbor embedding (t-SNE) algorithm. This machine learning technique, designed for dimensionality reduction, excels in visualizing high-dimensional datasets, making it a valuable tool for interpreting complex gene expression patterns. The analysis was conducted utilizing the Rtsne package (v.0.16), with the perplexity parameter set to 1017.
군집 분석
모든 처리 조건에서 DGE 분석에서 도출된 배율 변화 값은 t-분포 확률적 이웃 임베딩(t-SNE) 알고리즘을 사용하여 군집화되었습니다. 차원 축소를 위해 설계된 이 기계 학습 기술은 고차원 데이터 세트를 시각화하는 데 탁월하여 복잡한 유전자 발현 패턴을 해석하는 데 유용한 도구입니다. 분석은 Rtsne 패키지(v.0.16)를 사용하여 수행되었으며, 퍼플렉시티 매개 변수는 1017로 설정되었습니다.
Comparisons with connectivity map transcriptome data
Connectivity Map data were obtained from the Clue.io platform(clue.io/data/CMap2020#LINCS2020). For our analysis, we selected level five gene expression signatures with high reproducibility, defined by moderated z-scores that met specific criteria (distil_cc_q75 > 0.5 and pct_self_rank_q25 > 0.05), to compare with our RNA-seq data. The R package CMapR (v1.8.0) was used to manipulate the level 5 GCTX file (level5_beta_trt_cp_ n720216 × 12328.gctx). Given the variance in gene expression profiling between our RNA-seq data and L1000 assays9 used in CMap, a direct comparison between gene expression values was difficult due to distinct distributions of expression values. To navigate this, we employed gene set enrichment analysis (GSEA) as an alternative method to explore the genome-wide perturbing effects of treatments such as wortmannin at the pathway level18. We utilized 2,229 gene sets from several databases—Hallmark, Biocarta, KEGG, REACTOME, PID, and Wikipathways—available through MSigDB (https://www.gsea-msigdb.org/gsea/msigdb). The analysis involved performing GSEA on all genes, ranked according to their Wald test statistics or level5 z-scores. To obtain the MSigDB gene sets and conduct GSEA, we utilized the R package MSigDBR (v7.5.1) and FGSEA (v3.18). From the GSEA results, we defined pathway activity score (PAC) as ‘sign (enrichment score) × -log10(p-value)’ value to quantify the significance level. PAC vectors of equal lengths (n = 2,229) were generated for both our dataset and the CMap dataset. Subsequently, we determined the Pearson correlation coefficient to assess the relationship between the PACs from our samples and those from CMap (Fig. 1).
커넥티비티 맵 트랜스크립트 데이터와의 비교
연결성 맵 데이터는 Clue.io 플랫폼(clue.io/data/CMap2020#LINCS2020)에서 획득되었습니다. 분석을 위해, 특정 기준(distil_cc_q75 > 0.5 및 pct_self_rank_q25 > 0.05)을 충족하는 중간 z-스코어로 정의된 재현성이 높은 5단계 유전자 발현 시그니처를 선택하여 RNA-seq 데이터와 비교했습니다. R 패키지 CMapR(v1.8.0)을 사용하여 레벨 5 GCTX 파일(level5_beta_trt_cp_ n720216×12328.gctx)을 조작했습니다. 우리의 RNA-seq 데이터와 CMap에서 사용된 L1000 assay9 간의 유전자 발현 프로파일링 변동성으로 인해, 발현 값의 분포 차이가 커 직접적인 비교가 어려웠습니다. 이를 극복하기 위해, wortmannin과 같은 치료제의 유전체 수준에서의 경로별 교란 효과를 탐색하기 위해 유전자 세트 풍부도 분석(GSEA)을 대체 방법으로 활용했습니다18. 우리는 MSigDB (https://www.gsea-msigdb.org/gsea/msigdb)를 통해 접근 가능한 여러 데이터베이스(Hallmark, Biocarta, KEGG, REACTOME, PID, Wikipathways)에서 2,229개의 유전자 세트를 활용했습니다. 분석은 Wald 검정 통계량 또는 level5 z-스코어에 따라 순위를 매긴 모든 유전자에 대해 GSEA를 수행하는 방식으로 진행되었습니다. MSigDB 유전자 집합을 획득하고 GSEA를 수행하기 위해 R 패키지 MSigDBR(v7.5.1)과 FGSEA(v3.18)를 사용했습니다. GSEA 결과에서 경로 활동 점수(PAC)를 ‘부호(풍부도 점수) × -log10(p-값)’ 값으로 정의하여 유의수준을 정량화했습니다. 우리 데이터셋과 CMap 데이터셋 모두에 대해 동일한 길이(n = 2,229)의 PAC 벡터를 생성했습니다. 이후 우리 샘플의 PAC와 CMap의 PAC 사이의 관계를 평가하기 위해 피어슨 상관 계수를 계산했습니다(그림 1).
Fig. 1
Introduction to transcriptomic data production protocols and herbal drugs used. (A) Overview of standard operating procedures for producing standardized transcriptome data. (B) List of herbal drugs processed for transcriptome data production.
Data Records
All raw transcriptome data were uploaded to GEO in the FASTQ format using paired-end sequencing files. Each data file was presented in two fq.gz formats. Essential details such as the production method, adopted cell line, and dosage information were included in the metadata accompanying the GEO submission19,20,21,22 (Table 4). The dataset submitted to GEO comprised 1,092 RNA sequencing samples across 21 batches (Table 5, Supplementary Tables 1–6). Transcript samples were derived from four distinct cell lines: 270 (A549; accession number, GSE24468719), 270 (HepG2; accession number, GSE24468720), 273 (HT29; accession number, GSE24468721), and 279 (SW1783; accession number, GSE24468722). The difference in data volume between HT29 andSW1783 cell lines can be attributed to two factors:(1) A discrepancy in drugs used as positive controls, and (2) variations in the number of transcript production batches due to technical issues. Wortmannin, known for its anti-inflammatory properties, served as a universal positive control across all cell lines. Further, LY294002 produced in HT29 cells, and LY294002 and Thioridazine produced in SW1783 cells served as additional positive controls, contributing three and six samples, respectively. Consequently, six batches were specifically allocated for the SW1783 cell line, with an inclusion of three extra samples.
데이터 기록
모든 원시 전사체 데이터는 쌍말 시퀀싱 파일을 사용하여 FASTQ 형식으로 GEO에 업로드되었습니다. 각 데이터 파일은 두 개의 fq.gz 형식으로 제공되었습니다. 생산 방법, 사용된 세포주, 용량 정보 등 필수적인 세부 사항은 GEO 제출에 동반된 메타데이터에 포함되었습니다19,20,21,22 (표 4). GEO에 제출된 데이터셋은 21개 배치에 걸쳐 1,092개의 RNA 시퀀싱 샘플을 포함합니다 (표 5, 보충 표 1–6). 트랜스크립트 샘플은 네 가지 서로 다른 세포주에서 유래되었습니다: 270 (A549; 액세스 번호, GSE24468719), 270 (HepG2; 액세스 번호, GSE24468720), 273 (HT29; 액세스 번호, GSE24468721), 및 279 (SW1783; 액세스 번호, GSE24468722). HT29와 SW1783 세포주 간의 데이터 양 차이는 두 가지 요인에 기인합니다: (1) 양성 대조군으로 사용된 약물의 차이, 및 (2) 기술적 문제로 인한 전사체 생산 배치 수의 변동. 항염증 작용으로 알려진 워트만닌은 모든 세포주에서 보편적인 양성 대조군으로 사용되었습니다. 또한 HT29 세포에서 생산된 LY294002와 SW1783 세포에서 생산된 LY294002 및 Thioridazine이 추가 양성 대조군으로 사용되었으며, 각각 3개와 6개의 샘플을 기여했습니다. 이에 따라 SW1783 세포주에는 6개의 배치가 특별히 할당되었으며, 3개의 추가 샘플이 포함되었습니다.
Table 4 GEO accession number.
Table 5 Number of transcriptome data samples and batches per cell line.
Technical Validation
RNA quality and integrity
To ensure the suitability of samples for downstream sequencing, RNA quality and integrity were thoroughly evaluated. The optical density at 260 and 280 nm was measured using the Trinean Dropsense™96 micro-volume reader. The A260/A280 ratio serves as an estimate of RNA purity, with values exceeding 1.8 indicating relatively high purity. Our analysis revealed that the RNA samples typically exhibited a ratio close to 1.8, signifying a substantial proportion of pure RNA (Fig. 2a). Furthermore, the 28S/18S rRNA ratio and the RNA integrity number (RIN) were measured using an agilent bioanalyzer DNA chip to assess the extent of RNA degradation. All RNA samples demonstrated a 28S/18S ratio approximately equal to 2 and an RIN value of 7 or above, reflecting high RNA quality and integrity (Fig. 2b). These results suggest that the RNA is of suitable quality for downstream RNA sequencing23.
RNA 품질 및 완전성
다운스트림 시퀀싱에 적합한 샘플을 확보하기 위해 RNA 품질 및 완전성을 철저히 평가했습니다. Trinean Dropsense™96 마이크로 볼륨 리더를 사용하여 260nm 및 280nm에서의 광밀도를 측정했습니다. A260/A280 비율은 RNA 순도를 추정하는 지표로, 1.8을 초과하는 값은 상대적으로 높은 순도를 나타냅니다. 분석 결과, RNA 샘플은 일반적으로 1.8에 가까운 비율을 보여주었으며, 이는 순수한 RNA의 상당한 비율을 의미합니다(그림 2a). 또한 Agilent Bioanalyzer DNA 칩을 사용하여 28S/18S rRNA 비율과 RNA 무결성 수치(RIN)를 측정하여 RNA 분해 정도를 평가했습니다. 모든 RNA 샘플은 28S/18S 비율이 약 2에 가까우며 RIN 값이 7 이상으로, 높은 RNA 품질과 무결성을 반영했습니다(그림 2b). 이 결과는 RNA가 하류 RNA 시퀀싱에 적합한 품질을 갖추고 있음을 시사합니다23.
Fig. 2
Quality assessment of RNA samples. (A) The A260/A280 ratio for individual samples grouped by four cell lines. The minimum of values widely recognized as indicative of high purity RNA is represented by the dotted line. (B) The 28 s/18 s rRNA ratio (left) and RNA integrity number (right) for individual samples grouped by four cell lines. Each dotted line represents a minimum value widely known to reflect high RNA quality and integrity.
Quality of RNA-seq data
The quality of the raw RNA-seq data was assessed using FastQC (v0.11.9), a software that generates a detailed report, including metrics such as per-base quality scores and GC content distribution. A representative FastQC report indicated that the overall read quality was high (Fig. 3b). Similar quality metrics were observed in all other FastQC reports, qualifying them for further analysis. To obtain clean data, adapter sequences and low-quality bases (Phred score below 20) were removed using TrimGalore (v0.6.6). As a result, a high percentage of reads, with a median of 96.67%, were successfully and uniquely mapped to the human reference genome GRCh38 (hg38) (Fig. 3b)24.
RNA 샘플의 품질 평가. (A) 네 가지 세포 라인별로 그룹화된 개별 샘플의 A260/A280 비율. 고순도 RNA를 나타내는 것으로 널리 인정되는 최소 값은 점선으로 표시되었습니다. (B) 네 가지 세포 라인별로 그룹화된 개별 샘플의 28S/18S rRNA 비율(왼쪽)과 RNA 무결성 수치(오른쪽). 각 점선은 고품질 및 무결성을 반영하는 것으로 널리 알려진 최소 값을 나타냅니다.
RNA-seq 데이터의 품질
원시 RNA-seq 데이터의 품질은 FastQC (v0.11.9)를 사용하여 평가되었습니다. 이 소프트웨어는 베이스별 품질 점수 및 GC 함량 분포와 같은 지표를 포함한 상세한 보고서를 생성합니다. 대표적 FastQC 보고서는 전체 읽기 품질이 높음을 나타냈습니다(그림 3b). 다른 모든 FastQC 보고서에서도 유사한 품질 지표가 관찰되어 추가 분석에 적합했습니다. 깨끗한 데이터를 얻기 위해 TrimGalore (v0.6.6)를 사용하여 어댑터 시퀀스와 저품질 염기(Phred 점수 20 미만)를 제거했습니다. 결과적으로 인간 참조 게놈 GRCh38 (hg38)에 성공적으로 유일하게 매핑된 읽기의 비율이 중간값 96.67%로 높았습니다(그림 3b)24.
Fig. 3
Quality evaluation of RNA sequencing data. (A) Representative FastQC report showing per sequence quality scores (left) and GC content (right) for A549 cell line treated with dimethyl sulfoxide (DMSO). (B) Summary of unmapped, multiple-mapped, and uniquely mapped reads against the reference genome for each cell line.
Biological and technical reproducibility
To ensure the reproducibility of our RNA-seq data, we quantified biological and technical batch effects by analyzing expression levels (TPM values for 19,826 protein-coding genes). Initially, the biological reproducibility was assessed through the analysis of three independent biological replicates for each treatment condition; cell line, treatment, and dose. Each replicate involved separate RNA extraction, RNA-seq library preparation, and sequencing processes. We calculated the pairwise Pearson’s correlation coefficient among replicates to quantify their similarities. This revealed a high degree of biological reproducibility, with an average correlation coefficient of 0.994 across all conditions. Furthermore, 97.8% of the conditions exhibited an average expression level correlation exceeding 0.95 across the three replicates (Fig. 4a).
생물학적 및 기술적 재현성
RNA-seq 데이터의 재현성을 확보하기 위해, 우리는 19,826개의 단백질 코딩 유전자에 대한 발현 수준(TPM 값)을 분석하여 생물학적 및 기술적 배치 효과를 정량화했습니다. 초기 단계에서 생물학적 재현성은 각 처리 조건(세포주, 처리, 용량)에 대해 세 개의 독립적인 생물학적 복제군을 분석하여 평가되었습니다. 각 복제군은 별도의 RNA 추출, RNA-seq 라이브러리 준비, 시퀀싱 과정을 거쳤습니다. 반복 간 쌍간 피어슨 상관 계수를 계산하여 그 유사성을 정량화했습니다. 이 결과 모든 조건에서 평균 상관 계수 0.994를 보여 높은 생물학적 재현성을 나타냈습니다. 또한 3개 반복에서 97.8%의 조건이 평균 발현 수준 상관 계수 0.95를 초과했습니다(그림 4a).
Fig. 4
Replicability of RNA-seq profiles. (A) Distribution of Pearson’s correlation coefficients for replicates (yellow) versus different samples (gray). (B) Heatmap of Pearson’s correlation coefficients among replicate samples across various sequencing batches.
Technical reproducibility was subsequently evaluated to address potential batch effects arising from sequencing. Since a single sequencing lane can accommodate up to 60 samples, we distributed samples from the same cell line across six different sequencing batches (A to F). Control samples treated with the vehicle were included and sequenced in all six batches, to assess batch effects. The correlation coefficients between control samples from different batches were calculated, indicating minimal batch effects. Notably, all control samples exhibited high correlation coefficients (>0.99) with samples sequenced in different batches (Fig. 4b).
Comparisons with external drug-induced transcriptome data
To verify the reliability and reproducibility of our RNA-seq data, we compared our drug-induced transcriptome profiles to those generated by the CMap 9, a comprehensive database featuring gene expression profiles of human cell lines treated with various bioactive compounds. We chose wortmannin, an established positive control that is also included in the CMap dataset, as a benchmark for our analyses across three cell lines: A549, HEPG2, and HT29.
To facilitate direct comparison between transcriptome data generated from different platforms, we converted gene-level expression values to pathway-level scores. This approach aggregates the expression changes across genes within 2,229 well-defined biological pathways, providing a more robust and interpretable measure of pathway activation or inhibition.
We then compared the pathway-level scores resulting from wortmannin treatment in our study with those generated by CMap. The pathway-level scores from our wortmannin treatment analysis showed a high correlation with those obtained from CMap (Fig. 5). This notable concordance serves as strong evidence of the reliability and reproducibility of our RNA-seq data, affirming its ability to capture drug-induced changes in cellular pathways.
기술적 재현성은 시퀀싱으로 인해 발생할 수 있는 배치 효과를 평가하기 위해 추가로 평가되었습니다. 단일 시퀀싱 레인에는 최대 60개의 샘플을 수용할 수 있으므로, 동일한 세포 계통의 샘플을 6개의 서로 다른 시퀀싱 배치(A부터 F)에 분배했습니다. 차량으로 처리된 대조군 샘플은 모든 6개 배치에 포함되어 시퀀싱되었으며, 이는 배치 효과를 평가하기 위해 수행되었습니다. 서로 다른 배치에서 나온 대조군 샘플 간의 상관계수는 계산되었으며, 이는 배치 효과가 최소화되었음을 나타냈습니다. 특히, 모든 대조군 샘플은 서로 다른 배치에서 시퀀싱된 샘플과 높은 상관 계수(>0.99)를 나타냈습니다(그림 4b).
외부 약물 유도 전사체 데이터와의 비교
우리의 RNA-seq 데이터의 신뢰성과 재현성을 검증하기 위해, 우리는 우리 데이터와 CMap 9 데이터베이스에 포함된 인간 세포주에서 다양한 생물활성 화합물로 처리된 전사체 프로파일 데이터를 비교했습니다. CMap 데이터셋에 포함된 확립된 양성 대조군인 wortmannin을 기준으로, A549, HEPG2, HT29 세 가지 세포주에서 분석을 수행했습니다.
다양한 플랫폼에서 생성된 전사체 데이터 간의 직접적인 비교를 용이하게 하기 위해, 유전자 수준 발현 값을 경로 수준 점수로 변환했습니다. 이 접근 방식은 2,229개의 잘 정의된 생물학적 경로 내 유전자 간의 발현 변화를 집계하여, 경로 활성화 또는 억제의 더 견고하고 해석 가능한 지표를 제공합니다.
이후 우리 연구에서 wortmannin 처리로 얻은 경로 수준 점수를 CMap에서 생성된 점수와 비교했습니다. 우리 연구의 wortmannin 처리 분석에서 얻은 경로 수준 점수는 CMap에서 얻은 점수와 높은 상관관계를 보였습니다(그림 5). 이 주목할 만한 일치성은 우리 RNA-seq 데이터의 신뢰성과 재현성을 강력히 입증하며, 약물 유발 세포 경로 변화를 포착하는 능력을 확인합니다.
Fig. 5
Transcriptome data comparisons with CMap. Distribution of Pearson’s correlation coefficients for samples under the same treatment condition (yellow) versus different conditions (gray).
Code availability
All software used to analyze the RNA-seq data, along with their parameters are clearly described in the Methods section. Unless specified otherwise, default parameter settings recommended by the developers were used. The curation and validation of the dataset were conducted using custom R code, as detailed in the Materials and Methods section. The source code specifically employed for preprocessing the RNA-seq data is publicly available through the GitHub repository (https://github.com/LeeLab-Sysbio/KOREMAP.v1). Researchers are encouraged to cite this paper when utilizing the RNA-seq data uploaded in GEO.
References
|