인공지능 VS 인간의 글쓰기 구별이 어렵다.
ChatGPT와 같은 대규모 언어 모델(LLM)은 미국 의료 면허 시험에도 합격할 정도로 발전했다. 하지만 피어 리뷰어는 AI 탐지에 얼마나 능숙하며, AI 사용이 작업에 대한 인식에 어떤 영향을 미칠까?
예일 의대의 디지털 전략 및 혁신 담당 부학장인 리 슈암(Lee Schwamm) 박사가 이끄는 팀은 AI와 인간의 제출물을 모두 포함하는 저널 Stroke에 대한 에세이 콘테스트를 개최하여 이러한 질문에 답하려고 시도했다.
연구자들은 저자가 가려져 있을 때 심사자가 인간 에세이와 AI 에세이를 정확하게 구별하는 데 어려움을 겪는다는 것을 발견했다. 그러나 심사자가 에세이를 AI가 쓴 것으로 돌렸을 때 주어진 주제에 대한 최고로 평가할 가능성이 상당히 낮았다.
슈암은 이 발견이 과학 원고에서 AI를 적절하게 사용하는 것에 대한 정책을 개발해야 할 필요성을 강조하기를 바란다. 그의 팀은 9월 3일에 Stroke에 연구 결과를 발표했다.
슈암은 "이 연구는 편집 위원회와 교육자들에게 다른 사람이 이것을 알아낼 때까지 앉아서 기다릴 수 없다는 경종을 울린다."라고 말한다. "우리는 이러한 영역에서 사용을 장려해야 하는 곳, 중립을 유지해야 하는 곳, 금지해야 하는 곳에 대한 올바른 보호 장치가 무엇인지 생각하기 시작해야 한다."
심사자가 AI 감지에 어려움을 겪음
슈암의 팀은 Stroke 독자들에게 뇌졸중 분야의 세 가지 논란이 되는 주제 중 하나에 대한 설득력 있는 에세이를 제출하도록 요청했다. 예를 들어, 스타틴이 출혈성 뇌졸중의 위험을 증가시키는가? 에세이는 최대 1,000단어이고 참조문헌은 6개를 넘지 않아야 한다. 연구자들은 총 22개의 인간 제출물을 받았다.
그런 다음 연구자들은 네 가지 다른 LLM(ChatGPT 3.5, ChatGPT 4, Bard, LLaMA-2)을 사용하여 주제당 에세이를 하나씩 썼다. 그들은 AI 에세이를 직접 편집하지는 않았지만, 문헌 인용을 검토하고 수정했다. "참고문헌은 AI가 많은 실수를 하는 것으로 알려진 곳 중 하나이다."라고 슈밤은 설명한다. "그리고 우리는 그것이 AI를 드러내는 것을 원하지 않았다. 우리는 검토자들이 글의 질에 정말로 집중하기를 원했다."
검토자들은 모두 Stroke 편집 위원회의 구성원이었고, 모두 에세이의 인간 대 AI 저자를 인정하고, 질과 설득력에 대해 평가하고, 각 프롬프트에 대해 주제에 대한 최고의 에세이를 선택하도록 요청받았다. 놀랍게도, 이 연구에서 검토자들은 50%의 경우에만 저자를 올바르게 식별했다. 슈암은 "마치 동전 던지기와 같았다."라고 말한다.
질 측면에서 검토자들은 AI 에세이를 인간 제출물보다 더 높게 평가했다. 흥미롭게도, 다중 변수 분석을 수행한 후, 팀은 리뷰어가 AI를 저자 유형으로 올바르게 할당할 확률을 높이는 것과 독립적으로 관련된 유일한 요인이 설득력이라는 것을 발견했다. "리뷰어가 기사를 더 설득력 있게 인식할수록 AI 저자와 더 관련이 있었다."라고 슈암은 말한다.
팀은 또한 리뷰어가 에세이가 AI에 의해 작성되었다고 믿었을 때 주제에서 가장 좋다고 평가한 경우가 4%에 불과하다는 것을 발견했다. "검토자는 인간이 생성한 에세이와 AI가 생성한 에세이를 구별할 수 없었지만, 에세이가 AI에 의해 작성되었다고 결정했을 때는 거의 동급 최고로 선택하지 않았다."라고 슈암은 말한다.
LLM은 과학적 저술에서 게임 체인저가 될 수 있는 도구가 될 수 있다.
이 연구는 LLM이 발전함에 따라 동료 평가자가 AI가 작성한 콘텐츠를 감지하는 능력이 감소할 것이라고 시사한다. 또한 평가자가 기계 생성 콘텐츠에 대해 부정적인 편견을 가지고 있다는 사실도 밝혔다. 더 많은 콘텐츠가 AI가 생성하거나 인간과 AI의 혼합으로 작성됨에 따라 이 연구는 과학적 콘텐츠에서 AI의 역할에 대한 중요한 질문을 제기한다.
LLM이 처음 등장했을 때 사이언스와 같은 일부 과학 저널은 LLM 사용을 전면적으로 금지했다. 나중에 이 출판사는 연구자들이 AI를 사용하는 방법에 대한 선언을 포함할 수 있도록 입장을 조정했다.
"우리는 LLM 사용을 불공평하다고 보는 자연스러운 경향, 즉 어떻게든 필요한 노력을 기울이지 않았다고 보는 경향에 맞서야 한다."라고 슈암은 말한다. "우리는 이제 실제로 과학을 수행하기 위해 AI를 사용한다. 따라서 결과 작성에 AI를 포함할 수 없다고 말하는 것은 아이러니하다."
작가가 AI 결과물에 대한 사실 확인을 해야 할 책임이 더 커지겠지만, AI 활용이 증가한다고 해서 부정적일 필요는 없다. "우리는 AI를 활용할 수 있는 도구로 생각하기 시작해야 한다." 라고 슈암이 말했다. "우리는 철자 검사기나 워드 프로세서처럼 기술을 사용하여 글을 쓰는 데 도움이 되는 모든 방법을 가지고 있다. 이것은 그 기술의 새로운 반복이다."
예를 들어, 이 기술은 영어가 모국어가 아닌 미국 연구자들에게 게임 체인저가 될 것이다. "좋은 방식으로 경쟁 환경을 평준화할 것이라고 생각한다."라고 슈암이 말했다.