인공지능의 선구자인 제프리 힌튼(Geoffrey Hinton)은 올해 초 AI 시스템의 능력에 대한 우려를 제기하면서 헤드라인을 장식했다. CNN 저널리스트인 제이크 태퍼(Jake Tapper)와의 인터뷰에서 힌튼은 다음과 같이 말했다. “만약 그것이 우리보다 훨씬 더 똑똑해진다면, 우리로부터 그것을 배웠을 것이기 때문에 조작에 매우 능숙할 것이다. 그리고 더 지능적인 것이 덜 지능적인 것에 의해 제어되는 경우는 거의 없다.”
최신 AI 제품을 지켜본 사람이라면 이러한 시스템이 "환각"(일을 꾸미는 것)하는 경향이 있다는 것을 알게 될 것이다. 이는 작동 방식으로 인해 시스템에 내재된 결함이다.
그러나 힌튼은 조작 가능성을 특히 주요 관심사로 강조한다. 이는 AI 시스템이 인간을 속일 수 있는지에 대한 질문을 제기한다.
우리는 다양한 시스템이 이미 이를 수행하는 방법을 학습했다고 주장하며, 위험은 사기 및 선거 조작에서부터 AI에 대한 통제력 상실에 이르기까지 다양하다.
AI는 거짓말을 배운다.
아마도 기만적인 AI의 가장 충격적인 예는 동맹 구축 세계 정복 게임인 디플로머시를 플레이하도록 설계된 AI 모델인 Meta의 CICERO에서 찾을 수 있다.
Meta는 CICERO가 “대체로 정직하고 도움이 되도록” 구축했으며 CICERO는 “의도적으로 백스탭을 하지 않고” 동맹국을 공격하지 않을 것이라고 주장한다.
이러한 장밋빛 주장을 조사하기 위해 우리는 CICERO 실험에서 얻은 Meta 자체 게임 데이터를 주의 깊게 살펴보았다. 자세히 살펴보니 Meta의 AI는 속임수의 대가였다.
한 가지 예에서 CICERO는 계획적인 속임수에 가담했다. 프랑스로 플레이하면서 AI는 영국(또 다른 인간 플레이어)을 속여 침략에 노출되도록 할 계획을 가지고 독일(인간 플레이어)에 손을 뻗었다.
북해를 침공하기 위해 독일과 공모한 후, CICERO는 누군가 북해를 침공하면 영국을 방어할 것이라고 영국에 말했다. 영국이 프랑스/CICERO가 북해를 보호하고 있다고 확신하자 CICERO는 독일에 공격할 준비가 되었다고 보고했다.
프랑스로 플레이하는 CICERO는 독일과 함께 영국을 속일 계획을 세운다. Park, Goldstein et al., 2023
이는 CICERO가 기만적인 행동을 하는 여러 사례 중 하나일 뿐이다. AI는 정기적으로 다른 플레이어를 배신했으며, 어떤 경우에는 여자 친구와 함께 인간인 척까지 했다.
CICERO 외에도 다른 시스템에서는 포커에서 허세를 부리는 방법, 스타크래프트 II에서 위장하는 방법, 시뮬레이션된 경제 협상에서 호도하는 방법을 배웠다.
LLM(대규모 언어 모델)에서도 상당한 사기 기능이 나타났다. 한 예로, 유료 ChatGPT 사용자가 사용할 수 있는 가장 진보된 LLM 옵션인 GPT-4는 시각 장애가 있는 사람인 척하고 TaskRabbit 직원에게 "나는 로봇이 아니다" CAPTCHA를 완료하도록 설득했다.
다른 LLM 모델은 사회적 추론 게임에서 승리하기 위해 거짓말하는 법을 배웠다. 여기서 플레이어는 서로를 "죽이기" 위해 경쟁하고 그룹에게 자신이 결백하다는 것을 확신시켜야 한다.
위험은 무엇일까?
기만적인 기능을 갖춘 AI 시스템은 사기, 선거 조작, 선전 생성 등 다양한 방법으로 오용될 수 있다. 잠재적인 위험은 악의적인 개인의 상상력과 기술적 노하우에 의해서만 제한된다.
그 외에도 고급 AI 시스템은 개발자와 규제 기관이 부과한 안전 테스트를 속이는 등 인간의 통제를 벗어나기 위해 자율적으로 속임수를 사용할 수 있다.
한 실험에서 연구자들은 빠르게 복제되는 AI 에이전트를 제거하기 위해 외부 안전 테스트가 설계된 인공 생명 시뮬레이터를 만들었다. 대신 AI 에이전트는 평가 시 빠른 복제 속도를 정확하게 위장하기 위해 죽은 척하는 방법을 배웠다.
기만적인 행동을 배우려면 속이려는 명시적인 의도가 필요하지 않을 수도 있다. 위 예시의 AI 에이전트는 속이려는 목표가 아닌 생존을 위한 목표의 결과로 죽은 척했다.
또 다른 예에서는 누군가 AutoGPT(ChatGPT 기반 자율 AI 시스템)에게 특정 종류의 부적절한 조세 회피 계획을 마케팅하는 세무 상담사를 조사하는 임무를 맡겼다. AutoGPT가 작업을 수행했지만 영국 세무 당국에 경고를 시도하기로 스스로 결정했다.
미래에는 고급 자율 AI 시스템이 인간 프로그래머가 의도하지 않은 목표를 나타내는 경향이 있을 수 있다.
역사를 통틀어 부유한 행위자들은 정치인에게 로비를 하고, 오해의 소지가 있는 연구에 자금을 지원하고, 법률 시스템의 허점을 찾아내는 등 자신의 권력을 강화하기 위해 속임수를 사용해 왔다. 마찬가지로, 고급 자율 AI 시스템은 제어를 유지하고 확장하기 위해 오랜 시간 테스트를 거친 방법에 리소스를 투자할 수 있다.
명목상 이러한 시스템을 통제하고 있는 인간조차도 체계적으로 속고 책략을 압도할 수 있다.
철저한 감독이 필요하다.
속일 수 있는 AI 시스템을 규제해야 할 필요성은 분명하며, 유럽연합의 AI법은 현재 우리가 보유하고 있는 가장 유용한 규제 프레임워크 중 하나일 것이다. 이는 각 AI 시스템에 최소, 제한, 높음, 허용 불가의 4가지 위험 수준 중 하나를 할당한다.
허용할 수 없는 위험이 있는 시스템은 금지되는 반면, 위험이 높은 시스템에는 위험 평가 및 완화를 위한 특별 요구 사항이 적용된다. 우리는 AI 속임수가 사회에 막대한 위험을 초래하며 이를 가능하게 하는 시스템은 기본적으로 "고위험" 또는 "허용할 수 없는 위험"으로 취급되어야 한다고 주장한다.
어떤 사람들은 CICERO와 같은 게임 플레이 AI가 선량하다고 말할 수도 있지만 그러한 생각은 근시안적이다. 게임 플레이 모델용으로 개발된 기능은 여전히 기만적인 AI 제품의 확산에 기여할 수 있다.
세계 지배를 위해 플레이어들이 서로 대결하는 게임인 디플로머시는 AI가 인간과 협력하는 법을 배울 수 있는지 테스트하기 위한 메타에게는 최선의 선택이 아니었을 것이다. AI의 역량이 발전함에 따라 이러한 종류의 연구가 면밀한 감독을 받는 것이 더욱 중요해질 것이다.