GPT-4는 인간 방사선과 의사만큼 좋은 성능을 발휘한다.
오사카 수도권 대학의 연구자들은 150건의 수술 전 뇌종양 MRI 보고서에 대한 GPT-4 기반 ChatGPT와 인간 방사선과 의사(2명의 전문 자격증을 취득한 신경방사선과 의사와 3명의 일반 방사선과 의사)의 진단 성능을 비교한 결과, GPT-4가 방사선과 의사만큼 좋은 성능을 보였다는 결론을 내렸다.
이 연구는 유럽 방사선학(European Radiology)에 게재된 연구 논문에 설명되어 있다.
연구자들은 "GPT-4는 MRI 보고서에서 뇌종양을 구별하는 데 있어 신경방사선과 의사와 비슷한 수준의 우수한 진단 능력을 보였다."라고 결론지었다. "GPT-4는 신경방사선과 의사가 최종 진단을 내릴 때 사용할 수 있는 두 번째 의견이 될 수 있으며 일반 방사선과 의사와 레지던트를 위한 지침 도구가 될 수 있다."
두 진단 세트의 정확도는 제거 후 종양의 실제 진단을 기반으로 평가되었다. 평가 결과에 따르면 GPT-4의 정확도는 73%인 반면 신경방사선과 의사의 정확도는 72%, 일반 방사선과 의사의 정확도는 68%였다.
연구자들은 GPT-4의 진단 정확도가 입력 보고서의 인간 출처의 기술 수준에 따라 증가하는 것으로 보인다고 강조한다. 신경방사선과 의사 보고서의 정확도는 80%인 반면 일반 방사선과 의사 보고서를 사용할 때는 60%였다.
이 논문의 주저자인 대학원생 미츠야마 야스히토는 오사카 수도권 대학 보도 자료에서 "향후에는 의사의 부담을 줄이고 진단 정확도를 개선하며 AI를 사용하여 교육 환경을 지원하는 것을 목표로 다른 진단 영상 분야에서 대규모 언어 모델을 연구할 계획"이라고 밝혔다.
의학 분야의 미래 AI 응용 프로그램
이 연구에 사용된 GPT-4의 사례는 몇 달 된 것이다(5월 24일 버전). 인공지능(AI) 기술의 빠른 개발 속도, 특히 추론 능력이 향상된 AI 시스템의 지속적인 개발을 고려할 때 곧 더욱 놀라운 결과가 실현될 가능성이 높아 보인다.
AI 시스템이 의학 연구와 임상 실무에서 점점 더 중요한 역할을 할 가능성이 높아 보인다.
의학 분야의 최고 전문가가 작성한 현재 및 미래 AI 응용 프로그램에 대한 흥미로운 개요를 보려면 "의학 분야의 AI 혁명: GPT-4 및 그 이상"(2023)을 참조하라.