AI 시스템이 '일반 지능' 테스트에서 인간 수준에 도달했다.
새로운 인공지능(AI) 모델이 "일반 지능"을 측정하도록 설계된 테스트에서 인간 수준의 결과를 달성했다.
12월 20일, OpenAI의 o3 시스템은 ARC-AGI 벤치마크에서 85%의 점수를 받았으며, 이는 이전 AI 최고 점수인 55%를 훨씬 상회하고 평균 인간 점수와 동일했다. 또한 매우 어려운 수학 테스트에서도 좋은 점수를 받았다.
인공 일반 지능(AGI)을 만드는 것은 모든 주요 AI 연구실의 공표된 목표이다. 언뜻 보기에 OpenAI는 적어도 이 목표를 향해 상당한 진전을 이룬 것처럼 보인다.
회의적인 시각은 여전하지만 많은 AI 연구자와 개발자는 무언가가 바뀌었다고 느낀다. 많은 사람들에게 AGI의 전망은 예상보다 더 현실적이고 시급하며 더 가까워 보인다. 그들이 옳을까?
더 나은 결정을 내리시길 바란다. 전문가들의 생각을 알아본다.
일반화와 지능
o3 결과가 무엇을 의미하는지 이해하려면 ARC-AGI 테스트가 무엇인지 이해해야 한다. 기술적으로 말하면, AI 시스템이 새로운 것에 적응하는 데 있어 "샘플 효율성"을 테스트하는 것이다. 즉, 시스템이 어떻게 작동하는지 알아내기 위해 얼마나 많은 새로운 상황의 예를 보아야 하는지를 테스트하는 것이다.
ChatGPT(GPT-4)와 같은 AI 시스템은 샘플 효율성이 높지 않다. 수백만 개의 인간 텍스트 예제를 "훈련"하여 어떤 단어 조합이 가장 가능성이 높은지에 대한 확률적 "규칙"을 구성했다.
그 결과는 일반적인 작업에서는 꽤 좋다. 일반적이지 않은 작업에서는 나쁘다. 해당 작업에 대한 데이터(샘플 수)가 적기 때문이다.
ChatGPT와 같은 AI 시스템은 일반적인 작업에는 잘 작동하지만 새로운 상황에 적응하는 데 어려움을 겪는다. Bianca De Marchi / AAP
AI 시스템이 소수의 예제에서 학습하고 더 많은 샘플 효율성으로 적응할 수 있을 때까지는 매우 반복적인 작업과 가끔 실패가 용납되는 작업에만 사용된다.
제한된 데이터 샘플에서 이전에 알려지지 않았거나 새로운 문제를 정확하게 해결하는 능력을 일반화 능력이라고 한다. 이는 널리 지능의 필수적이고 근본적인 요소로 간주된다.
그리드와 패턴
ARC-AGI 벤치마크는 아래와 같은 작은 그리드 정사각형 문제를 사용하여 샘플 효율적 적응을 테스트한다. AI는 왼쪽 그리드를 오른쪽 그리드로 바꾸는 패턴을 파악해야 한다.
ARC-AGI 벤치마크 테스트의 예제 작업. ARC Prize
각 질문에는 학습할 수 있는 세 가지 예가 있다. 그런 다음 AI 시스템은 세 가지 예에서 네 번째 예까지 "일반화"하는 규칙을 파악해야 한다.
이는 학교에서 가끔 기억할 수 있는 IQ 테스트와 매우 유사하다.
약한 규칙과 적응
OpenAI가 정확히 어떻게 했는지는 알 수 없지만, 결과는 o3 모델이 매우 적응력이 있음을 시사한다. 몇 가지 예만으로도 일반화할 수 있는 규칙을 찾는다.
패턴을 파악하려면 불필요한 가정을 하거나 실제로 필요한 것보다 더 구체적으로 설명해서는 안 된다. 이론적으로 원하는 작업을 수행하는 "가장 약한" 규칙을 식별할 수 있다면 새로운 상황에 적응하는 능력을 극대화한 것이다.
가장 약한 규칙이란 무엇을 의미할까? 기술적 정의는 복잡하지만 약한 규칙은 일반적으로 더 간단한 문장으로 설명할 수 있는 규칙이다.
위의 예에서 규칙의 일반 영어 표현은 다음과 같을 수 있다. "돌출된 선이 있는 모든 모양은 해당 선의 끝으로 이동하여 겹치는 다른 모양을 '덮는다'."
생각의 사슬을 검색하는 것?
OpenAI가 어떻게 이 결과를 얻었는지는 아직 알 수 없지만, 약한 규칙을 찾기 위해 o3 시스템을 의도적으로 최적화했을 가능성은 낮아 보인다. 그러나 ARC-AGI 작업에서 성공하려면 약한 규칙을 찾아야 한다.
OpenAI가 o3 모델의 범용 버전(대부분 다른 모델과 다름, 어려운 질문에 대해 더 많은 시간을 "생각"하는 데 사용할 수 있기 때문)으로 시작하여 ARC-AGI 테스트를 위해 특별히 훈련했다는 것은 알고 있다.
벤치마크를 설계한 프랑스 AI 연구원 프랑수아 콜레는 o3가 작업을 해결하는 단계를 설명하는 다양한 "생각의 사슬"을 검색한다고 생각한다. 그런 다음 느슨하게 정의된 규칙 또는 "휴리스틱"에 따라 "최상의" 것을 선택한다.
이는 Google의 AlphaGo 시스템이 세계 바둑 챔피언을 이기기 위해 다양한 가능한 움직임 순서를 검색한 방식과 "비슷하지 않다."
2016년 알파고 AI 시스템은 세계 바둑 챔피언 이세돌을 물리쳤다. 이진만 / AP
이러한 생각의 사슬을 사례에 맞는 프로그램으로 생각할 수 있다. 물론, 바둑을 두는 AI와 같다면 어떤 프로그램이 가장 좋은지 결정하기 위한 휴리스틱 또는 느슨한 규칙이 필요하다.
수천 개의 서로 다른 겉보기에 동등하게 유효한 프로그램이 생성될 수 있다. 그 휴리스틱은 "가장 약한 것을 선택" 또는 "가장 간단한 것을 선택"일 수 있다.
그러나 AlphaGo와 같다면 단순히 AI가 휴리스틱을 만들게 했다. 이것이 AlphaGo의 프로세스였다. Google은 다른 움직임 시퀀스를 다른 것보다 더 좋거나 나쁘게 평가하도록 모델을 훈련했다.
아직 모르는 것
그렇다면 질문은 이것이 정말 AGI에 더 가까운가이다. o3가 그렇게 작동한다면 기본 모델은 이전 모델보다 훨씬 나을 수 없다.
모델이 언어에서 학습하는 개념은 이전보다 일반화에 더 적합하지 않을 수 있다. 대신 이 테스트에 특화된 휴리스틱을 훈련하는 추가 단계를 통해 발견된 보다 일반화 가능한 "생각의 사슬"을 보고 있을 수 있다. 증거는 언제나 그렇듯이 푸딩에 있을 것이다.
o3에 대한 거의 모든 것은 알려지지 않았다. OpenAI는 소수의 미디어 프레젠테이션과 소수의 연구자, 실험실 및 AI 안전 기관에 대한 초기 테스트에 제한적으로 공개했다.
o3의 잠재력을 진정으로 이해하려면 평가, 용량 분포 이해, 실패 빈도 및 성공 빈도를 포함한 광범위한 작업이 필요하다.
o3가 마침내 출시되면 평균적인 인간과 거의 비슷한 적응력을 가지고 있는지에 대한 훨씬 더 나은 아이디어를 얻을 수 있을 것이다.
그렇다면 거대하고 혁명적인 경제적 영향을 미쳐 자체 개선 가속 지능의 새로운 시대를 열 수 있다. AGI 자체에 대한 새로운 벤치마크와 이를 어떻게 관리해야 하는지에 대한 심각한 고려가 필요할 것이다.
그렇지 않더라도 여전히 인상적인 결과가 될 것이다. 그러나 일상 생활은 크게 달라지지 않을 것이다.