AI의 블랙박스에 침입: Anthropic은 Claude 대규모 언어 모델의 정신을 매핑한다.
딥러닝 신경망의 가장 큰 장점 중 하나는 어떤 의미에서는 스스로 생각할 수 있다는 것이다. 인간이 힘들게 손으로 코딩했던 이전 세대의 AI와 달리, 이 알고리즘은 대량의 데이터를 훈련하여 문제에 대한 자체 솔루션을 제시한다.
이는 덜 부서지기 쉽고 대규모 문제로 확장하기가 더 쉽지만, 결정에 도달하는 방법에 대한 통찰력이 거의 없음을 의미하기도 하다. 이로 인해 오류를 이해하거나 예측하거나 편향이 결과에 스며들 수 있는 위치를 식별하기가 어렵다.
투명성이 부족하면 의학, 법 집행, 보험과 같은 민감한 분야에 이러한 시스템을 배포하는 데 제한이 있다. 좀 더 추측하자면, 더욱 강력한 미래 AI 모델에서 속임수나 권력 추구와 같은 위험한 행동을 탐지할 수 있을지에 대한 우려도 제기된다.
하지만 이제 Anthropic 팀은 이러한 모델 내부에서 일어나는 일을 분석하는 능력을 크게 향상시켰다. 그들은 대규모 언어 모델의 특정 활동 패턴을 구체적이고 추상적인 개념에 연결할 수 있을 뿐만 아니라 이 활동을 위아래로 조정하여 모델의 동작을 제어할 수도 있음을 보여주었다.
이 연구는 연구자들이 모델의 다양한 뉴런의 활동이 모델의 동작을 어떻게 결정하는지 이해하기 위해 신경망을 리버스 엔지니어링하는 "기계적 해석 가능성"에 대한 수년간의 연구를 기반으로 한다.
최신 세대의 AI 모델은 특정 뉴런이나 뉴런 그룹이 아닌 활동 패턴으로 정보를 인코딩하기 때문에 말처럼 쉽지 않다. 이는 개별 뉴런이 다양한 개념을 표현하는 데 포함될 수 있음을 의미한다.
연구원들은 이전에 상대적으로 작은 모델에서 특징으로 알려진 활동 패턴을 추출하고 이를 인간이 해석할 수 있는 개념에 연결할 수 있음을 보여주었다. 그러나 이번에 팀은 Anthropic의 Claude 3 Sonnet 대규모 언어 모델을 분석하여 이 접근 방식이 상업적으로 유용한 AI 시스템에서 작동할 수 있음을 보여주기로 결정했다.
그들은 Sonnet의 중간 뉴런 계층 중 하나의 활성화 데이터에 대해 또 다른 신경망을 훈련시켰고, 사람과 장소부터 성별 편견이나 비밀 유지와 같은 추상적인 아이디어에 이르기까지 모든 것과 관련된 약 천만 개의 고유한 기능을 추출할 수 있었다.
흥미롭게도 그들은 유사한 개념에 대한 특징이 함께 모여 있으며 활성 뉴런에서 상당한 중복이 있음을 발견했다. 팀은 이것이 이러한 모델에서 아이디어가 인코딩되는 방식이 유사성에 대한 우리 자신의 개념과 일치한다는 것을 암시한다고 말한다.
하지만 더 적절하게도 연구원들은 이러한 기능을 인코딩하는 데 관련된 뉴런의 활동을 늘리거나 줄이는 것이 모델의 동작에 상당한 영향을 미칠 수 있다는 사실도 발견했다. 예를 들어 금문교(Golden Gate Bridge)의 기능을 대규모로 증폭시키면 모델은 아무리 관련성이 없어도 모든 반응에 강제로 적용하게 되었고, 심지어 모델 자체가 상징적인 랜드마크라고 주장하기도 했다.
팀은 또한 좀 더 사악한 조작을 실험했다. 그 중 하나에서는 스팸 이메일과 관련된 기능을 과도하게 활성화하면 모델이 제한 사항을 우회하고 자체 기능을 작성할 수 있다는 사실을 발견했다. 또한 아첨과 관련된 기능을 강화하여 모델이 아첨을 속임수의 수단으로 사용하도록 할 수도 있다.
팀은 모델이 원치 않거나 위험한 출력을 생성하도록 하기 위해 공격자가 이 접근 방식을 사용할 위험이 거의 없다고 말한다. 대부분 동일한 목표를 달성할 수 있는 훨씬 더 간단한 방법이 이미 있기 때문이다. 그러나 이는 걱정스러운 행동에 대해 모델을 모니터링하는 유용한 방법이 될 수 있다. 다양한 기능의 활동을 늘리거나 줄이는 것도 모델을 바람직한 결과로 조정하고 덜 긍정적인 결과는 피하는 방법이 될 수 있다.
그러나 연구자들은 자신들이 발견한 특징이 모델에 포함된 모든 특징 중 극히 일부에 불과하다는 점을 지적하고 싶어했다. 게다가 모든 특징을 추출하려면 처음에 모델을 훈련하는 데 사용된 것보다 훨씬 더 많은 양의 컴퓨팅 리소스가 필요하다.
이는 이러한 모델이 어떻게 "생각"하는지에 대한 완전한 그림을 갖추기까지는 아직 갈 길이 멀다는 것을 의미한다. 그럼에도 불구하고 연구에 따르면 적어도 원칙적으로는 이러한 블랙박스를 약간 덜 이해하기 어렵게 만드는 것이 가능하다.
이미지 출처: mohammed idris djoudi / Unsplash