디지털 치매: AI가 인지 저하의 놀라운 징후를 보인다.
연구에 따르면, 최고의 AI 모델은 MoCA 테스트로 평가했을 때 초기 치매 증상과 유사한 인지 장애를 보인다. 이러한 발견은 임상 응용 분야에서 AI의 한계, 특히 시각 및 실행 기술이 필요한 작업에서 AI의 한계를 강조한다.
AI의 인지 장애
BMJ 크리스마스 호에 발표된 연구에 따르면, 대부분의 주요 대형 언어 모델 또는 "챗봇"은 조기 치매를 감지하는 데 일반적으로 사용되는 평가를 사용하여 테스트했을 때 경미한 인지 장애 징후를 보였다.
이 연구에서는 또한 이러한 챗봇의 이전 버전은 노화된 인간 환자와 마찬가지로 테스트에서 더 나쁜 성적을 거두었다는 사실을 발견했다. 저자들은 이러한 발견이 "인공지능이 곧 인간 의사를 대체할 것이라는 가정에 도전한다"고 제안한다.
AI의 발전과 추측
인공지능의 최근 발전은 챗봇이 의료 업무에서 인간 의사를 능가할 수 있을지에 대한 흥분과 우려를 모두 불러일으켰다.
이전 연구에서는 대형 언어 모델(LLM)이 다양한 의료 진단 업무에서 뛰어나다는 것이 입증되었지만, 인지 저하와 같은 인간과 유사한 인지 장애에 대한 잠재적 취약성은 지금까지 거의 탐구되지 않았다.
AI 인지 능력 평가
이러한 지식 격차를 메우기 위해 연구자들은 선도적인 공개 LLM(OpenAI에서 개발한 ChatGPT 버전 4 및 4o, Anthropic에서 개발한 Claude 3.5 "Sonnet"), 그리고 Gemini 버전 1 및 1.5(Alphabet에서 개발한)의 인지능력을 Montreal Cognitive Assessment(MoCA) 테스트를 사용하여 평가했다.
MoCA 테스트는 일반적으로 노인의 인지 장애와 치매의 조기 징후를 감지하는 데 널리 사용된다. 여러 가지 짧은 과제와 질문을 통해 주의, 기억, 언어, 시공간 기술 및 실행 기능을 포함한 능력을 평가한다. 최대 점수는 30점이며, 일반적으로 26점 이상은 정상으로 간주된다.
인지 테스트에서의 AI 성능
각 과제에 대해 LLM에게 제공된 지침은 인간 환자에게 제공된 지침과 동일했다. 채점은 공식 지침을 따랐으며 실무 신경과 전문의가 평가했다.
ChatGPT 4o는 MoCA 테스트에서 가장 높은 점수(30점 만점에 26점)를 받았고, 그 뒤를 ChatGPT 4와 Claude(30점 만점에 25점)가 따랐으며, Gemini 1.0이 가장 낮은 점수(30점 만점에 16점)를 받았다.
시각 및 실행 기능의 과제
모든 챗봇은 시공간적 기술과 실행 작업에서 성과가 좋지 않은 것으로 나타났다. 여기에는 트레일 만들기 작업(원형으로 둘러싼 숫자와 문자를 오름차순으로 연결) 및 시계 그리기 테스트(특정 시간을 보여주는 시계 면판 그리기)가 포함된다. 제미니 모델은 지연된 회상 작업(5단어 시퀀스 기억)에서 실패했다.
명명, 주의, 언어 및 추상화를 포함한 대부분의 다른 작업은 모든 챗봇이 잘 수행했다.
그러나 추가 시공간적 테스트에서 챗봇은 공감을 보이거나 복잡한 시각적 장면을 정확하게 해석하지 못했다. ChatGPT 4o만이 간섭이 반응 시간에 미치는 영향을 측정하기 위해 색상 이름과 글꼴 색상을 조합하는 스트룹 테스트의 불일치 단계에서 성공했다.
임상 환경에서 AI에 대한 의미
이것은 관찰 결과이며 저자는 인간의 뇌와 대규모 언어 모델 간의 본질적인 차이점을 인정한다.
그러나 그들은 시각적 추상화와 실행 기능이 필요한 작업에서 모든 대형 언어 모델이 균일하게 실패한 것은 임상 환경에서의 사용을 방해할 수 있는 상당한 약점을 강조한다고 지적한다.
따라서 그들은 "신경학자가 가까운 시일 내에 대형 언어 모델로 대체될 가능성은 낮을 뿐만 아니라, 우리의 연구 결과에 따르면 신경학자는 곧 새로운 가상 환자, 즉 인지 장애가 있는 인공지능 모델을 치료하게 될 수도 있다."라고 결론지었다.