ChatGPT(Chat Generative Pre-trained Transformer)는 사람과 유사한 텍스트를 생성하는 자연어 처리 모델입니다. 이 도구는 컨텍스트 서비스를 기반으로 단어 시퀀스를 예상하도록 훈련된 대규모 언어 모델(LLM)입니다. ChatGPT는 테스트를 거쳤으며 미국 의료 면허 시험도 통과했습니다.
Feinstein Institutes 연구원이 수행한 이 새로운 연구의 목표는 ChatGPT(버전 3 및 4)가 ABIM 위장병학 위원회 시험에서 성과를 측정하기 위한 ACG 평가를 통과할 수 있는지 테스트하는 것이었습니다.
ChatGPT-3 및 ChatGPT-4는 2022년 및 2021년 American College of Gastroenterology(ACG) 자가 평가 테스트에 응답하는 데 사용되었습니다. 정확한 질문은 ChatGPT의 두 버전 모두에 입력되었습니다. 평가를 통과하려면 70% 이상이 필요했습니다.
각 ACG 테스트에는 즉각적인 응답이 있는 300개의 객관식 질문이 있습니다. ChatGPT 버전 3 및 4는 각 쿼리 및 응답을 복사하여 붙여넣는 데 사용되었습니다. ChatGPT는 455건의 문의에 응답했습니다(145건은 이미지 요구 사항으로 인해 생략됨). 두 가지 시험에서 Chat GPT-3는 455개 질문 중 296개를 올바르게 답했고(65.1%) Chat GPT-4는 284개 질문을 올바르게 답했습니다(62.4%).
Northwell Health의 학술 담당 수석 부사장 겸 최고 학술 책임자인 Andrew C. Yacht, MD는 “ChatGPT는 열정을 불러일으켰지만 그러한 열정으로 인해 의료 및 교육에서 AI의 현재 역할의 정확성과 타당성에 대한 회의론이 생겼습니다. ”
Chat GPT가 잠재적인 교육 도구로 보여지더라도 곧 의료 전문 인증을 받을 것이라고 연구는 제안합니다.
Feinstein Institutes' Institute of Health System Science의 부교수이자 이 논문의 수석 저자인 Arvind Trindade, MD는 “ 최근 다양한 산업 분야에서 ChatGPT와 AI 사용에 많은 관심이 쏠리고 있습니다. 의학 교육과 관련하여 이 잠재적인 획기적인 도구에 대한 연구가 부족합니다. 우리 연구에 따르면 ChatGPT는 현재 위장병학의 의학 교육에 사용되어서는 안 되며 의료 분야에 구현되기 전에 가야 할 길이 있습니다.”
ChatGPT는 주제나 문제에 대한 본질적인 이해가 부족합니다. ChatGPT의 낙제 등급에 대한 잠재적인 설명은 유료 구독 의학 저널에 대한 액세스 부족 또는 ChatGPT가 의심스러운 구식 또는 비의료 소스를 소싱하는 것일 수 있으며 안정적으로 사용되기 전에 더 많은 연구가 필요합니다.
저널 참조:
서치먼, 켈리; 가르그, 샤생크; Trindade, Arvind J MD. ChatGPT는 객관식 American College of Gastroenterology 자가 평가 테스트에서 실패했습니다. 소화기학의 미국 저널 . DOI: 10.14309/ajg.0000000000002320