안녕하세요?
다름아니고 classificaiton algorithm 및 predictive model상에서 최종 outcome을 정하는 데에 있어서 지도교수님과 제가 다르게 이해하고 있는 부분이 있어서, 다른 선생님들의 고견을 여쭈어보고 싶습니다. Computer Science 출신이신 제 지도교수님 Dr. Pathak, Jyotishman께서는 단지 AUROC가 높으면 성공적인 모델로 이해하고 계신 것 같습니다. 하지만 laboratory medicine에서는 일반적으로 특정 threshold를 define한 후에 sensitivity와 specificity를 최종 outcome으로 생각합니다. 가령 똑같은 AUROC이더라도 skewness에 따라서 어떠한 검사는 screening test에 적합해지고, 어떠한 검사는 final test로서 더 적합해집니다. Research Gate 상에서도 저와 비슷한 질문을 던진 글이 있고, 많은 댓글이 달려있습니다. (http://www.researchgate.net/post/What_are_the_methods_to_determine_cut-off_points_from_an_ROC_Analysis) 이에 대하여 통계학자 선생님들께 의견을 구하고 싶습니다.
IRB에 미리 연구 계획서를 제출하고 심사를 받야야 하는데, 이게 추후에 변경을 하는 것이 매우 까다로워서, 절실하게 의견을 여쭙습니다.
참고로 저는 co-morbidity analysis 및 depression predictive modeling 관련하여 연구를 할 것 같고, network clustering 및 Group LASSO logistic regression의 방법론을 주로 활용하게 될 것 같습니다. 아직 배우는 중이라, 기본적인 개념도 미흡한 부분이 많을 텐데, 많은 가르침 부탁드리겠습니다. 혹시 제가 참고할 만한 서적도 추천 부탁드리겠습니다. 수학과 컴퓨터를 고등학교 수준에서는 잘 했지만, 의과대학으로 진학하는 바람에 대학수준의 수학/통계/컴퓨터 교육을 제대로 받을 기회가 없었습니다. 문건웅 선생님의 의학논문작성을 위한 R통계와 그래프, 배정민 선생님의 술술보건의학통계를 통해서도 많은 도움을 받았었습니다. 현재 코넬의대 의료정보학 대학원에서 통계 수업을 들었으나 logistic regression과 cox proportional hazard model까지만 배운 상태이고, data-mining은 아직 수업을 듣지 않은 상태입니다.
정말 감사합니다.
김민형 올림
첫댓글 반갑습니다.
PI 이름이 독특해 검색해보니 Mayo에 계시군요. 수업은 코넬에서 들으시고.. 어떤 과정을 거치시면 이런 커리큘럼이 가능해지는지가 궁금합니다. ^^
검사의 cut-off와 Sn, Sp는 통계적으로 구해지기는 하지만, 제 개인적으로는 그 검사의 가치는 결국 해당 필드의 맥락에서 정해질 수 밖에 없다고 생각합니다.
선생님 말씀대로 AUC가 같아도 Sn, Sp가 달라질 수 있는 것처럼, 똑같은 Sn, Sp여도 대상 환자, 유병률 등에 따라 predictive value는 아주 다르기 때문입니다. 또 임상에서 받아들여지려먼 비용이나 invasiveness 등의 접근성도 고려할 수 밖에 없습니다. 통계적으로는 1번 검사가 더 정확하다고 해도, 싸고 간단한 2번 검사가 실제 임상에는 더 유용할 수 있는 것입니다.
Prediction과 관련해서는 AUC의 비교가 sensitive하지 않다는 것이 알려져 그 대안으로 reclassification이 제안되기도 합니다. 즉, 이것을 다른 표현으로 이야기하면 어떤 문헌에도 AUC든 Sn/Sp든 PPV/NPV 든 무엇이 gold standard라고 언급하지는 않습니다.(best cut-off 구하는 방법도 한개가 아닌데요. 그런 면에서는 best라고 말하기도 애매할 때가 있습니다)
그래서 이런 대화는 선생님께서 하시는 연구의 대상환자가 누구인지, 검사 방법과 endpoint는 무엇인지에 대해 구체적으로 공유하지 않으면 생산적 진행이 불가능하더라구요.
너무 원론적인 대답인가요? ^^;;
안녕하세요? 답변 감사합니다. Dr. Pathak께서는 올 가을에 코넬로 옮겨오셔서 현재 여기서 chief이십니다.
machine learning 하시는 분들께도 의견을 구했는데, 대체로 AUC에 대한 비교가 당연한 것이고, 특정 threshold에 대하여 sensitivity나 specificity를 구하는 것에 대한 필요성을 이해하지 못 하시는 것 같습니다... 한국말로 설명을 해도 대화가 잘 진행되지 않는 것으로 보아, Dr. Pathak 교수님께 영어로 대화하는 것이 만만치 않을 것 같습니다...;
저는 i2b2/EHR(EMR) data를 이용할 것이고, 코넬의대 전체 population에서 retrospective cohort 연구를 해야 한다고 생각하는데, Dr. Pathak께서는 propensity score matching을 통한 nested case control study를 생각하셔서 이 부분에도 생각의 차이가 있습니다... 그리고 depression predictive model은 depression screening tool로서의 목적을 갖고 있기에, 제가 생각하기에는 AUC가 아니라 구제척인 threshold를 define한 후에 sensitivity를 구하여 model comparison을 해야 한다고 생각했습니다.
미래의 이벤트를 예측하는 prediction model은 당장의 진단이 아닌 risk stratification을 위해 사용하고, 아주 좋은 Sn/Sp을 기대하는 것은 조금 무리입니다. Sn/Sp가 대개 70~80% 정도이고 90% 넘는 일은 아주 드물기 때문입니다. 그리고 실제로 지금의 데이터로 "미래의 depression 발생 확률을 추정"하는 것이지 "미래의 depression을 진단"하려고 하는 것도 아닐 것이기 때문입니다. 이럴때에는 predictive value와 calibrarion이 더욱 중요합니다.
ROC -> Sn/Sp -> classification, discrimination 으로 연결되는 과정과 ROC -> PPV/NPV -> prediction, calibration 과정은 의미가 다릅니다.
또 여러 모델들을 두고 prediction power를 비교하시게 될 것 같은데 (변수의 다른 조합이든 다른 모형이든),
그럴때에는 서로 상충될 수 있는 여러 값을 두고 비교하시는 것 보다는 하나의 대표값으로 하는게 편하시긴 할겁니다.
예를 들어 Sn/Sp가 하나는 1번 모델이, 또다른 하나는 2번 모델이 더 좋다면 어느 것을 선택해야할지 애매한 상황이 있을 수 있습니다. AUC 비교를 기본으로 하시고, 차이가 있는 것 같은데 유의하지는 않다고 하면 reclassification도 추가로 시도해보시는 식으로 하면 될 것 같습니다.
코넬 bioinformatics도 맨하탄에 있나요? 후배 둘이 거기 병원에 가있는데요.
선생님 여러 좋은 조언 무척 감사합니다. machine learning 전공하신 분들보다 선생님께 더 잘 배울 수 있는 부분이 많은 듯 합니다. 저는 bioinformatics(genomics)에 있지 않고 healthcare informatics(clinical informatics)에 있는데, manhattan Weill Cornell campus에 있습니다. kik2011@med.cornell.edu로 연락주셔도 좋습니다. 감사합니다.
machine learning model은 거기 선생님들이 훨씬 나으시겠죠. 하지만 그렇게 해서 예측된 모형을 적용/활용하는 것은 임상적 의미를 고려해야하기 때문에 해당 전문가들 간의 커뮤니케이션이 하겠죠.
선생님은 언제부터 그쪽으로 가신건가요?
올해 9월에 여기로 왔습니다 저도 온 지 얼마 되지 않습니다 ^^;