사진=헬스조선DB
오픈AI의 인공지능 챗봇 ‘챗GPT’가 화제입니다. 툭 던진 질문에 뛰어난 정확성과 문장력으로 답하는 대화형 AI가 머지않아 검색 엔진까지 대체할 것이라는 전망이 나오고 있습니다. 의사 자격시험을 통과했다는 연구 결과도 있는데 앞으로 의사 대신 진단도 할 수 있는 걸까요?
◇305문항 5초 만에 해결, 의사 될 능력 있다?
의료 분야에서 챗GPT의 능력은 검증됐습니다. 미국 캘리포니아 의료기업 ‘앤서블 헬스’(Ansible Health) 연구팀은 챗GPT에게 미국 의사면허시험(USMLE)을 치르게 하는 실험을 진행했습니다. 의대생 2학년을 대상으로 하는 스텝1, 4학년 대상 스텝2, 레지던트 1년차 대상 스텝3 총 305문항을 풀게 했더니 단 5초 만에 끝냈습니다. 정답률은 약 60%였는데 무난하게 면허를 취득할 수준이라는 게 연구팀의 설명입니다.
인공지능(AI)은 의료분야에서 이미 다양하게 활용되고 있습니다. 대장 용종 영상을 학습해 대장암 유발 위험이 큰 용종을 식별해내거나 안저 검사 결과를 학습해 당뇨망막병증 발병 위험을 예측하는 등 주로 영상의학 분야에 치중됩니다. 그런데 챗GPT는 대화가 특기인 ‘생성형 AI’입니다. 어떤 식으로 활용할 수 있을까요.
◇간단한 정보로 늑연골염 진단, “빠르게 다양한 의견 제시”
먼저 의사들의 진단을 도울 수 있을 것 같습니다. 제아무리 의사들이라고 해도 다 알고 있는 건 아닙니다. 질환의 가이드라인이 바뀌었을 수도 있고 약의 효과나 과거력 약자 등은 검색을 해야 알 수 있는 것들이 많습니다. 삼성서울병원 영상의학과 정명진 교수(AI연구센터장)는 “의사들도 애매한 소견이 있으면 구글링으로 논문을 찾아봐야 한다”며 “직접 여러 키워드를 발췌하며 검색한 결과보다 간단한 질문에 대한 챗GPT의 답변이 훨씬 빠르고 다양하다”고 말했습니다.
챗GPT가 진단도 가능하다는 걸 보여준 사례가 있습니다. 지난달 미국 응급의학과 전문의 제러미 파우스트는 챗GPT 사용 경험을 ‘Inside Medicine’이라는 뉴스레터에 공유했습니다. 증상을 알면 의학적 진단을 내릴 수 있는지 테스트해본 것입니다. ▲35세 여성 ▲병력 없음 ▲흉통 ▲기침, 재채기 때 심해지는 통증 ▲피임약 복용 등 간단한 정보를 입력했더니 늑연골염일 가능성이 크다는 대답이 돌아왔습니다.
파우스트는 챗GPT의 답이 정답이라 평가했습니다. 의대생이나 레지던트라면 폐색전증이라 진단했겠지만 실제 임상에선 폐색전증일 가능성이 높은 환자가 늑연골염인 경우가 많다는 것입니다. 감별진단을 요구하자 챗GPT는 폐색전증 가능성도 제시했습니다.
◇거짓말 능숙한 인공지능, “일반인은 구분하기 어려워”
그렇다면 일반인이 챗GPT로 셀프진단하는 건 어떨까요? 병력청취가 진단에서 중요한 질환들이 있습니다. 불면증, 어지럼증, 뇌전증 등은 특정 영상 결과나 바이오마커가 진단 기준으로 제시되지 않아 환자가 느끼는 증상이 중요합니다. 병원마다 진단 결과가 다르게 나오기도 하는 까닭입니다. 매번 의사를 만나기도 쉽지 않으니 챗GPT의 능력에 걸어볼 수도 있겠습니다.
그런데 아직은 시기상조입니다. 챗GPT도 거짓말을 하기 때문입니다. 정명진 교수는 “챗GPT를 사용하다 보면 엉터리 논문에서 발췌한 내용이나 거짓말을 짜깁기해서 사실인 것처럼 묘사한 내용들이 자주 포착된다”며 “전문 지식이 있다면 걸러낼 수 있겠지만 일반인에겐 어려운 일”이라고 말했습니다.
사실 앞서 소개한 사례에서도 챗GPT의 거짓말이 나타났습니다. 파우스트가 챗GPT에게 진단 과정을 묻자 경구피임약 복용이 늑연골염을 유발할 수 있다고 설명한 것입니다. 둘 사이엔 알려진 상관관계가 없습니다. 이어서 근거가 있냐는 질문엔 논문까지 제시했지만 모두 가짜였습니다. 챗GPT의 개발사 오픈AI의 미라 무라티 최고기술책임자(CTO)가 “챗GPT도 다른 인공지능 모델과 마찬가지로 사실을 지어낼 수 있다는 문제점을 가지며 사회의 더 많은 개입이 필요하다”고 말한 까닭입니다.
◇질문 조금만 빗겨가도 다른 질환 “뉴스 정도로만 믿어야…”
사실 전문적인 지식이 없다면 제대로 된 질문을 하는 것조차 어렵습니다. 옆구리 통증을 설명한다고 가정해도 갈비뼈, 측복부, 등, 허리와 같이 통증이 발생하는 위치는 다양합니다. 관련 질환 역시 단순한 근육통부터 췌장암까지 천차만별입니다. 병원에서 진단받지 않은 상태라면 챗GPT가 올바른 답을 내놨더라도 맞지 않는 정보가 될 수 있습니다.
정명진 교수는 “현재로선 뉴스에 대한 신뢰도 정도를 가지고 챗GPT를 다루는 게 좋을 것”이라며 “앞으로 거짓 정보, 표절 등과 같은 문제가 해결되고 임상적으로 검증을 거치면 진단을 보조할 수도 있을 것이라 생각한다”고 말했습니다. 인공지능이 환자들에게 어려운 의학용어를 해설하거나 의사 대신 진단서를 작성해주는 것 정도는 조만간 목격할 수 있지 않을까요?
오상훈 기자