|
|
주요 결과 (정량적 성능)
모델테스트 정확도 Kappa 민감도 (암 검출) 특이도 (정상 검출) AUC
| RF (단일 최고) | ~83% | - | - | - | - |
| Stacking 앙상블 | 86.5% | 0.719 | 77.3% | 93.3% | 0.945 |
논문의 학술적 기여도와 한계
강점 / novelty
주요 한계 (논문 저자들도 명시)
종합 평가
HRV 기반 암 스크리닝은
생리학적으로 설득력 있고,
5분 ECG라는 낮은 침습성 때문에 매력적이다.
그러나
현재 성능(AUC 0.945)은 매우 초기 단계이며,
진단 도구로 사용하려면
① 훨씬 큰 다기관 코호트(n > 1,000) 외부 검증
② 다른 주요 만성질환(심부전, CKD, 우울증 등)과의 특이도 비교
③ longitudinal 데이터로 예후 예측 가능성 탐색 이 세 가지가 반드시 뒤따라야 임상적 의미를 가질 수 있다.
현재 단계에서는
“HRV + ML로 암군과 정상군을 통계적으로 꽤 잘 구분한다”는
proof-of-concept 수준으로 보는 것이 적절하다.
향후 연구 방향으로는
wearable 기기 실시간 HRV + deep learning 조합,
또는 multi-omics 통합 모델이 유망해 보인다.
| HRV(Heart Rate Variability, 심박변동도) 지표는 크게 시간영역(time domain), 주파수영역(frequency domain), 비선형(non-linear) 세 카테고리로 나뉩니다. 특히 5분 단기 측정(짧은 ECG)에서 자주 사용되는 지표들을 중심으로, 이전 논문(암 분류 파일럿 연구)에서 선정된 top-5 지표(SDNN, RMSSD, pNN50, HRV triangular index, SD1)를 포함해 생리학·의공학 관점에서 상세히 설명하겠습니다. 1. 시간영역(Time Domain) 지표 RR 간격(정상 심박 간격, NN interval)의 통계적 특성을 직접 계산합니다. 계산이 간단하고 생리학적 해석이 비교적 직관적입니다.
|
https://www.nature.com/articles/s41598-021-01779-1
Abstract
Most cancer patients exhibit autonomic dysfunction with attenuated heart rate variability (HRV) levels compared to healthy controls. This research aimed to create and evaluate a machine learning (ML) model enabling discrimination between cancer patients and healthy controls based on 5-min-ECG recordings. We selected 12 HRV features based on previous research and compared the results between cancer patients and healthy individuals using Wilcoxon sum-rank test. Recursive Feature Elimination (RFE) identified the top five features, averaged over 5 min and employed them as input to three different ML. Next, we created an ensemble model based on a stacking method that aggregated the predictions from all three base classifiers. All HRV features were significantly different between the two groups. SDNN, RMSSD, pNN50%, HRV triangular index, and SD1 were selected by RFE and used as an input to three different ML. All three base-classifiers performed above chance level, RF being the most efficient with a testing accuracy of 83%. The ensemble model showed a classification accuracy of 86% and an AUC of 0.95. The results obtained by ML algorithms suggest HRV parameters could be a reliable input for differentiating between cancer patients and healthy controls. Results should be interpreted in light of some limitations that call for replication studies with larger sample sizes.
대부분의 암 환자들은
건강 대조군에 비해 심박변동도(HRV) 수준이 감소된 자율신경 기능장애(autonomic dysfunction)를 보인다.
본 연구는
5분 ECG 기록을 기반으로 암 환자와 건강 대조군을 구별할 수 있는 기계학습(ML) 모델을
개발하고 평가하는 것을 목표로 하였다.
기존 연구를 바탕으로 12개의 HRV 특징량을 선정하였으며,
Wilcoxon 순위합 검정을 통해 암 환자와 건강인을 비교하였다.
재귀적 특징 제거(Recursive Feature Elimination, RFE)를 통해
상위 5개 특징량(SDNN, RMSSD, pNN50%, HRV triangular index, SD1)을 선정하였고,
이를 세 가지 서로 다른 ML 모델의 입력으로 사용하였다.
이어서 세 기반 분류기의 예측 결과를 집계하는 스태킹(stacking) 기반 앙상블 모델을 구축하였다.
두 군 간 모든 HRV 특징량은
통계적으로 유의한 차이를 보였다.
RFE에 의해 선택된
SDNN, RMSSD, pNN50%, HRV triangular index, SD1을
세 ML 모델에 입력으로 활용하였다.
세 기반 분류기 모두 우연 수준을 초과하는 성능을 나타냈으며,
그중 랜덤 포레스트(Random Forest)가 테스트 정확도 83%로 가장 우수하였다.
앙상블 모델은 분류 정확도 86%, AUC 0.95를 달성하였다.
ML 알고리즘을 통해 얻은 결과는
HRV 파라미터가 암 환자와 건강 대조군을 구별하는 데 신뢰할 수 있는 입력 변수가 될 수 있음을 시사한다.
다만, 본 결과는 일부 한계점을 고려하여 해석해야 하며,
더 큰 표본 크기를 활용한 복제 연구가 필요하다.
Patients characteristicsN 77
| Age (in years) | 50 |
| Gender | |
| Male | 30 |
| Female | 47 |
| Cancer type | |
| Breast | 33 |
| Colorectal | 29 |
| Lung | 3 |
| Pancreas | 10 |
| Prostate | 2 |
| Cancer stage | |
| I | 32 |
| II | 7 |
| III | 12 |
| IV | 26 |
HRV features Type Description
| Mean RR (ms) | Time-domain | The average of RR intervals during a period of time |
| SDNN (ms) | Time-domain | Standard deviation of NN intervals |
| RMSSD (ms) | Time-domain | Root mean square of successive RR interval differences |
| pNN50% | Time-domain | Percentage of successive RR intervals that differ by more than 50 ms |
| HRV triangular index | Time-domain | The integral of the sample density distribution of RR intervals divided by the maximum of the density distribution |
| TINN (ms) | Time-domain | Baseline width of the RR interval histogram |
| LF power % | Frequency-domain | Includes the frequency range between 0.04 Hz and 0.15 Hz |
| HF power % | Frequency-domain | Includes the frequency range between 0.16 Hz and 0.4 Hz |
| Total Power (ms) | Frequency-domain | Reflects the overall autonomic activity |
| SD1 | Non-linear | Poincaré plot standard deviation perpendicular to the line of identity |
| SD2 | Non-linear | Poincaré plot standard deviation along the line of identity |
| Sample Entropy | Non-linear | Measures the regularity and complexity of a time series |
HRV featuresCancer (M/SD)Control (M/SD)Wp
| Mean RR (ms) | 717.91/93.18 | 832.9/108.9 | 5119 | < 0.001 |
| SDNN (ms) | 21.4/7.57 | 35.37/14.76 | 5289 | < 0.001 |
| RMSSD (ms) | 13.87/4.49 | 29.26/16.47 | 5332 | < 0.001 |
| pNN50% | 0.62/0.87 | 7.82/12.15 | 5345 | < 0.001 |
| HRV triangular index | 5.5/1.73 | 8.95/3.57 | 5503.5 | < 0.001 |
| TINN (ms) | 126.69/57.68 | 194.6/101.61 | 4625 | 0.013 |
| LF power % | 69.27/12.22 | 60.91/17.85 | 5160 | < 0.001 |
| HF power % | 16.69/9.17 | 28.92/18.2 | 5522 | < 0.001 |
| Total power (ms) | 440.23/357.83 | 1294/1231.43 | 5425 | < 0.001 |
| SD1 | 9.81/3.18 | 20.72/11.66 | 5332 | < 0.001 |
| SD2 | 28/10.55 | 45.03/18.6 | 5290 | < 0.001 |
| Sample entropy | 1.37/0.34 | 1.58/0.32 | 4811 | 0.002 |
|
|