|
관련 포스팅: 길병원의 IBM Watson 도입에 거는 기대와 우려
지금까지 알려진 Watson의 실력
하지만, 국내 언론에서 왓슨 기사가 나올 때면 아래와 같은 문구가 자주 등장합니다.
“왓슨의 진단 일치율은 대장암 98%, 직장암 96%, 방광암 91%, 췌장암 94%, 신장암 91%, 난소암 95%, 자궁경부암 100% 등이다.”
국내 기사에는 거의 이 문구가 빠지지 않고 무분별하게 인용되고 있는데요. 이 수치는 어떻게 나온 것일까요. 이 연구는 2014년 ASCO에서 MSKCC가 Watson Oncology에 대해서 발표한 파일럿 연구의 초록을 인용한 것입니다. 하지만 해당 연구를 조금만 들여다보면 이 결과가 충분히 엄격한 조건에서 연구된 것이 아닌 것을 어렵지 않게 알 수 있습니다.
국내 언론에서도 많이 인용하는 MSKCC의 2014년 ASCO 발표 내용
바로 트레이닝 데이터와 테스트 데이터를 동일한 것으로 활용했다는 것입니다. 환자 A, B, C 의 사례들로 Watson을 가르친 이후에, 다시 A, B, C 환자를 정확하게 진단하는지를 테스트해서 나온 결과라는 것입니다. Watson이 실제 의료 현장에서 적용될 수 있는지 여부를 보여줄 수 있을 만큼 충분히 엄격한 연구라면, Watson의 트레이닝에 사용되지 않은 새로운 환자 사례에 적용시켜서 높은 정확도가 나오는지를 봐야 합니다.
다시 말해, 이 연구는 Watson 이 트레이닝 가능하다는 가능성 정도를 본 것일 뿐, 정확도를 설득력 있게 나타내어 준다고 이야기 하기는 매우 어렵습니다. 혹시 제 글을 보시는 기자님이 계시면 이 수치를 인용하지는 않아주시면 좋겠다고 말씀드리고 싶습니다.
제가 알고 있는 Watson의 암환자 진료 실력으로 참고할만한 유일한 사례는 역시 2014년 ASCO에서 발표된 MD앤더슨의 소규모 연구 결과입니다. 당시 MD앤더슨의 의사들은 400명의 백혈병 환자들의 사례를 학습하고, 표준 치료법을 권고하도록 학습 받은 Oncology Expert Advisor(OEA) 를 새로운 200명의 백혈병 환자에 대해서 테스트해보았습니다. 이 시스템의 정확도를 판별하기 위해서 MD앤더슨의 의사들이 내어놓은 치료법을 기준으로 OEA의 치료법이 얼마나 일치하는지를 보았습니다.
그 결과 OEA가 부정확한 치료법을 내어 놓은 경우 (false positive)는 2.9%에 지나지 않았고, 정확한 치료법 권고안이 낮은 점수를 받은 경우(false negative)는 0.4%에 지나지 않았다고 합니다. 그리고 전체적인 정확도 (overall accuracy)는 82.6% 였습니다. 이 발표를 내어 놓은 MD앤더슨의 코이치 타카하시(Koichi Takahashi) 박사는 Watson이 상당히 높은 정확도 (reasonably high accuracy)에 도달했다고 평가했습니다.
관련 포스팅: MD앤더슨과 MSK 암센터, IBM Watson의 진료 정확도를 공개하다
끝나버린 MD앤더슨과 IBM의 협력
하지만 이 결과는 이제 쓸모 없어졌습니다. 이 부분은 저도 좀 햇갈렸던 부분인데 MSKCC가 Watson을 이용해 개발한 Watson for Oncology와, MD앤더슨이 Watson을 이용해 개발한 Oncology Expert Advisor (OEA)는 비슷한 목적이지만 완전히 별개의 시스템입니다. 왓슨이란 IBM의 인지 컴퓨팅 기술을 기반으로 경쟁 관계에 있는 두 병원이 개별적인 비슷한 시스템을 개발한 것이지요.
그러던 2017년 2월, MD앤더슨과 IBM Watson이 지난 4년여간 이어오던 협력 관계가 끝났다고, 포브스 등 여러 언론들은 보고했습니다. [ref 1, 2] 이러한 협력이 더 이상 이어지지 못한 원인에는 몇가지 이유가 있는 것으로 보입니다.
무엇보다 너무 많은 비용이 들어갔다는 점이 가장 큰 이유라고 합니다. 최초의 계약에는 OEA를 백혈병 환자 중 저위험 군의 골수 이형성 증후군(lower-risk myelodysplastic syndrome (MDS)) 환자를 대상으로 개발하기 위해서 6개월간 $2.4m 의 고정된 금액을 투자하는 것이었습니다. 하지만 이 계약은 이후 12번이나 연장되었고, 금액은 $39.2m 으로 불어났습니다. 또한 OEA가 대상으로 하는 암종도 폐암과 5가지 추가적인 종류의 leukemia로 늘어났습니다. 결국 이 금액은 $62m으로까지 불어나게 됩니다.
2017년 1월 천 명의 직원을 해고할 정도로 경영난에 시달리고 있는 MD앤더슨으로서는 OEA의 개발에 들어가는 막대한 비용이 부담스러웠을 것으로 보입니다. 기사에는 새롭게 도입한 전자의무기록(EMR)과의 호환성 문제나 두 기관간의 계약 문제 등 다른 요인들도 추측되고 있습니다.
확실한 것은 이 계약의 중단은 Watson 자체의 기술적인 문제와는 상관 없다는 것. 그리고 우리가 흔히 암환자 진료에 사용된다고 통칭하는, MSKCC와 개발한 왓슨 포 온콜로지에는 영향을 미치지 않는다는 것입니다. 오히려 이번 계약 만료로 인해서 오래전부터 MD앤더슨과 경쟁관계에 있던 MSKCC의 시스템이 더 수혜를 볼 수도 있을 것 같기도 합니다.
아무튼 앞서 언급 MD앤더슨의 2014년 ASCO 발표에 나오는 OEA의 테스트 결과는 현재 우리가 주로 다루고 있는 왓슨 포 온콜로지의 정확성을 논하기 위해서 직접적으로 참고하기가 어려워졌습니다.
인도 마니팔 병원의 Watson
인도의 마니팔 병원은 지난 2015년 12월 인도에서는 최초로 왓슨 포 온콜로지를 도입했습니다. 아시아에서는 태국의 범룽랏 병원 이후로 두 번째로 알고 있습니다. 국내에서는 다소 생소한 이름이지만, 마니팔 병원은 연간 20만 명 이상의 암환자를 진료하는 대형 암센터입니다.
특히 인도에는 Watson과 같은 진료 보조 인공지능의 니즈가 크다고 할 수 있습니다. 2015년 도입 당시의 통계를 보면, 인도에는 100만 명의 암 환자가 있으며, 그 수는 빠르게 증가하여 2020년까지 5배가 될 것으로 예상되고 있습니다. 반면 암 환자의 진료에 필요한 종양내과 전문의는 턱없이 부족합니다. 환자 1,600명 당, 한 명의 종양내과 전문의가 있다고 합니다. 이는 미국의 경우 환자 100명 당, 종양내과 전문의 한 명의 비율을 생각하면 의사가 16배나 부족한 셈입니다.
그러던 지난 2016년 12월 초, 인도의 마니팔 병원은 지난 3년간 진료한 1,000명의 암환자를 대상으로 Watson for Oncology의 실력을 공개했습니다. 환자군은 각각 유방암(638명), 대장암(126명), 직장암(124명), 폐암(112명)으로 구성되어 있습니다.
왓슨 포 온콜로지를 도입한지 2년이 되었는데, ‘지난 3년 동안’ 진료한 환자라고 언급한 것을 보아, 과거 환자들에 대해서 후향적으로 연구한 것이 아닌가 합니다. 발표는 ‘2016 샌안토니오 유방암 심포지움(2016 San Antonio Breast Cancer Symposium)’과 싱가폴에서 열린 ‘ESMO Asia 2016 Congress‘ 등에서 이뤄졌습니다.
왓슨 포 온콜로지에 대해서 MSKCC와 독립적인 다른 병원이 이 정도로 대규모 환자를 대상으로, 진단 실적을 공개한 것은 이번이 처음입니다. 즉, 아래의 부분에서 최초이며 의미 있다고 할 수 있습니다.
Watson for Oncology에 대해 (개발에 반영되지 않은 새로운 환자군에 대한) 테스트
MSKCC와 독립적인 다른 병원에 의한 테스트
1,000명이나 되는 대규모 환자군에 대한 테스트
여러 암종 별로 테스트
암환자 1,000명 대상의 왓슨의 진료
이 연구에서 마니팔 병원의 연구진은 암환자 진료와 관련된 여러 전공의 전문의들이 모인 다학제 진료팀(Manipal multidisciplinary tumour board)의 판단과 Watson의 판단을 비교하였습니다. 왓슨은 특정 암환자의 진료기록을 분석하여 치료 권고안을 크게 3단계로 내어 놓습니다. 초록색은 추천하는 치료법(recommend, REC)이고, 주황색은 고려해볼 수 있는 치료법(for consideration, FC), 그리고 붉은색은 권고하지 않는 치료법(not recommended, NREC)입니다.
1,000명의 환자에 대해서 마니팔 병원의 다학제 진료팀이 제한 치료법을 기준으로, 왓슨 포 온콜로지가 제시한 치료법 중에 추천(REC), 고려(FC), 비추천(NREC)의 세 가지와 일치하는 비율은 아래와 같았습니다.
추천(REC)에 해당: 50%
고려(FC)에 해당: 28%
비추천(NREC)에 해당: 17%
즉, 추천과 고려에 해당하는 경우를 모두 합하면 약 80%에 달하는 치료법이 의사들의 치료법 결정과 일치했습니다. 이 수치는 앞서 언급한 MD앤더슨의 OEA의 진료 일치도와 거의 비슷한 수치입니다. 또한 추천, 고려, 비추천 모두에 속하지 않는 나머지 5%의 경우에는 의사들이 권고한 치료법을 Watson의 권고안 중에서 찾을 수 없었다고 합니다.
초록/주황/빨강으로 분류된 Watson for Oncology 의 치료법 권고안
더 나아가, 암종별로 볼 때에도 왓슨의 치료 권고안의 의사와 일치도는 현저하게 차이가 났습니다. 일치율이 가장 높았던 것은 직장암으로 85%가 일치했고, 가장 낮은 것은 폐암으로 17.8%에 불과했습니다. 유방암의 경우에는 세부 종류별로도 달랐는데요. 예후가 좋지 않은 것으로 알려진 삼중음성(triple-negative) 유방암의 경우에는 67.9%가 일치했고, 호르몬 수용체 양성, HER2 유전자 음성인 경우에는 35%로 일치도가 낮았습니다.
직장암: 85% 일치
폐암: 17.8% 일치
유방암
비전이성 유방암: 80% 일치
전이성 유방암: 45% 일치
삼중음성 유방암: 67.9% 일치
호르몬 수용체 양성, HER2 음성 유방암: 35%
이렇게 암종별로 의사의 판단과 왓슨의 판단의 일치도가 다른 이유 중의 하나는 얼마나 많은 치료 옵션들이 가능한지도 관련이 있는 것으로 보입니다. 예를 들어, 삼중음성 유방암의 경우에는 HER2만 음성인 경우에 비해서 가능한 치료 옵션이 적기 때문에 결과적으로 일치도는 올라갈 수밖에 없다는 것입니다. 직장암도 다른 암종에 비해서 상대적으로 치료 옵션이 적은 암이라고 합니다.
시사점
이번 마니팔 병원의 임상 연구 결과에서 우리는 많은 시사점을 얻을 수 있습니다. 가장 큰 시사점은 의사와 왓슨의 치료 권고안의 경우에 차이가 있는 경우가 적지 않다는 것입니다. 전체 환자군을 분석했을 때 20%가 넘는 경우에는 왓슨이 추천하지 않는 치료법이나, 왓슨의 옵션 중에 없는 치료법을 의사가 시행했다는 것을 알 수 있습니다.
더욱이 암종별로 구분했을 경우 이러한 치료 권고 일치율에 더욱 편차가 커집니다. 폐암의 경우에는 일치하는 경우가 약 18%에 그치며, 유방암의 경우, 전이성 유방암이나 HER2 음성 유방암의 경우에는 일치도가 상대적으로 더욱 낮다는 것을 알 수 있습니다.
이러한 결과는 왓슨 포 온콜로지의 정확성에 대한 의문과 임상 연구의 필요성을 더욱 증가시킨다고 할 수 있겠습니다.
길병원과 부산대병원에서도 사용하는 왓슨 포 온콜로지가 폐암이나 유방암 환자에게 활용될 경우에 의사와 왓슨의 판단이 달라질 가능성이 상대적으로 높을 것으로 보이는데, 누가 더 옳은 결정을 내렸는지 알 수 없기 때문입니다.
이러한 인공지능의 근본적인 한계점은 이번과 같이 후향적(retrospective) 연구를 통해 인간 의사와 인공지능 의사의 ‘일치율’ 정도를 볼 수밖에 없다는 것입니다. 즉, 진료기록이 있는 암 환자의 과거 데이터를 입력해서 과거 의사의 판단을 기준으로 비교해보는 것 정도만 가능합니다.
만약 누가 더 옳은 결정을 내렸는가? 인간 의사의 판단이 옳았나, 인공지능 의사의 판단이 옳았는지를 보기 위해서는 전향적(prospective) 연구를 해야합니다. 즉, 한 환자군은 인간 의사만 보고, 동일한 조건의 다른 환자군에 대해서는 인공지능 의사의 진료만을 시행해서 장기 치료 성과를 봐야 하는 것이지요. 하지만 이러한 연구는 환자군을 확보하기도 어렵거니와, 정확성이 담보되지 않은 인공지능의 치료법만 (인간 의사 관여 없이) 적용하는 것은 의학적으로나 윤리적으로도 불가할 것입니다.
새로운 이슈와 가이드라인의 필요성
디지털 혁신에 의한 인공지능은 의료계에 새로운 바람과 함께 여러 새로운 이슈를 제기하고 있습니다. 이런 인공지능의 영향이 의료에서 계속 커지고 있지만, 너무도 새로운 종류의 기술이고 새로운 방식으로 활용되고 있기 때문에 기존의 잣대로는 어떻게 규제하고 어떻게 활용할지가 애매한 부분이 많습니다.
저는 왓슨과 같은 인공지능의 활용에 대해서 의료계가 전향적인 자세를 가지고 주도적으로 나서야 한다고 봅니다.
왓슨이 의료기기냐 의료기기가 아니냐와는 또 별개로, 이를 진료 현장에서 어떻게 활용할지에 대한 기준도 필요합니다. 예를 들어, 길병원과 부산대병원은 동일한 왓슨 포 온콜로지를 도입했지만, 이를 현장에서 어떻게 활용할지는 서로 큰 차이가 있을 수 있으며, 의료의 질 관리가 필요합니다.
저는 결국 왓슨과 같은 시스템을 누가, 언제, 어떻게, 어느 정도로 활용할 것인지에 대한 진료 가이드라인이 필요할 것으로 봅니다. 이번 연구 결과에 따르면, 특히 암종별로 가이드라인이 달라야 할 것입니다. 예를 들어, 폐암과 직장암에 대한 활용 방식은 달라져야 하겠지요. 그리고 이런 가이드라인도 인공지능의 발전에 따라서 지속적으로 업데이트 되고 변화해야 하겠습니다.
모든 디지털 기술이 그러하듯 인공지능은 멈춰있지 않고, 지금 이 순간에도 계속 발전합니다. 그리고 그 발전 속도는 더욱 빨라지고 있지요. 이번 식약처 가이드라인 마련에서도 저희가 애를 먹는 부분이 이러한 부분입니다. 하지만 의료 적용을 위해서는 반드시 해결해야 할 문제이기도 합니다.