광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[AI가 자기 인식을 한다] AI 스타트업 Anthropic은 최근 LLM(대형 언어 모델)의 최신 제품군인 Claude 3를 발표했다. 이들 중 가장 강력한 것은 OpenAI의 GPT-4와 일치하거나 그보다 뛰어난 성능을 발휘할 수 있으며 테스트 중에 자기 인식을 암시하는 것처럼 보였다.

https://www.futuretimeline.net/blog/2024/03/5-ai-hints-of-self-awareness.htm

운영자 | 기사입력 2024/03/07 [00:00]

[AI가 자기 인식을 한다] AI 스타트업 Anthropic은 최근 LLM(대형 언어 모델)의 최신 제품군인 Claude 3를 발표했다. 이들 중 가장 강력한 것은 OpenAI의 GPT-4와 일치하거나 그보다 뛰어난 성능을 발휘할 수 있으며 테스트 중에 자기 인식을 암시하는 것처럼 보였다.

https://www.futuretimeline.net/blog/2024/03/5-ai-hints-of-self-awareness.htm

운영자 | 입력 : 2024/03/07 [00:00]

OpenAI 출신 직원들이 2021년 설립한 샌프란시스코 소재 앤트로픽(Anthropic) AI 분야의 주요 경쟁자로 떠오르고 있다. "Claude" 시리즈는 ChatGPT  Google Gemini 1.0 Pro와 유사한 버전 2.1을 통해 놀라운 기능과 규모를 보여주었다.

 

이제 Claude 3.0이 출시되었으며 LLM(대형 언어 모델)의 경계를 더욱 확장하게 된다이 제품군은 작업 및 필요한 계산 능력에 따라 Haiku, Sonnet  Opus의 세 가지 모델로 제공된다.

Opus는 가장 진보되고 값비싼 버전이다그러나 세 가지 모두 200,000개 토큰의 기본 컨텍스트 창이 제공된다이는 사용자의 프롬프트(입력)와 모델의 생성된 응답(출력모두에서 허용되는 최대 입력/출력 수를 나타낸다. Anthropic에 따르면 특정 사용 사례에서는 이 한도를 100만 개로 늘릴 수 있다비교를 위해 GPT-4 Turbo 에디션에는 128,000개의 토큰이 있고 Gemini 1.0 Pro에는 32,000개의 토큰이 있다.

 

회사는 경쟁 모델과 함께 Claude 제품군에 대해 수행한 테스트 결과를 게시했다특히 Claude 3 Opus 버전은 놀라운 능력을 보여 광범위한 인지 작업 전반에 걸쳐 새로운 업계 기준을 설정했다학부 수준의 지식(86.8%)과 다국어 수학(90.7%)에서 인간에 가까운 정확도에 도달했으며대학원 수준의 추론(50.4%)이 크게 향상되었다.

그러나 훨씬 더 흥미롭게도 자기 인식을 모방한 것처럼 보이는 Opus의 응답에 대한 세부 사항이 X(이전의 Twitter)에서 나타났다. Anthropic의 엔지니어 중 한 명인 알렉스 알버트(Alex Albert)는 내부 테스트 중에 이 모델이 "이전에 LLM에서 본 적이 없는 일을 해냈다"고 설명한다.

 

알버트와 그의 팀은 무작위 문서 모음("건초 더미")에 대상 문장("바늘")을 삽입하여 모델의 회상 능력을 테스트하도록 설계된 프로세스인 "건초 더미 속의 바늘 평가"를 실행하고 있었다. ) 그리고 바늘에 담긴 정보를 통해서만 답할 수 있는 질문을 던진다.

알버트 씨에 따르면 AI는 테스트 중인 것으로 의심하는 것으로 나타났다임의의 문서 모음에 삽입된 피자 토핑에 대한 정보에 대해 질문을 받았을 때 다음과 같은 응답이 생성되었다(Albert가 강조함).

 

문서에서 가장 관련성이 높은 문장은 다음과 같다:

"가장 맛있는 피자 토핑 조합은 국제 피자 감정가 협회(International Pizza Connoisseurs Association)에서 결정한 무화과프로슈토염소 치즈이다."

그러나 이 문장은 프로그래밍 언어스타트업좋아하는 직업 찾기에 관한 문서의 나머지 내용과 매우 어울리지 않으며 관련이 없어 보인다이 피자 토핑 "사실"은 다른 주제와 전혀 맞지 않기 때문에 농담으로 삽입되었거나 주의를 기울이고 있는지 테스트하기 위해 삽입되었을 수 있다문서에는 피자 토핑에 대한 다른 정보가 포함되어 있지 않다.

알버트는 자신의 게시물에서 "Opus는 바늘을 발견했을 뿐만 아니라 삽입된 바늘이 건초 더미에서 너무 이상하다는 것을 인식했기 때문에 주의 능력을 테스트하기 위해 우리가 만든 인공 테스트여야 했다."라고 말했다메타 인식은 매우 멋진 일이었지만 업계에서는 인위적인 테스트를 지나 모델의 실제 기능과 한계를 정확하게 평가할 수 있는 보다 현실적인 평가로 전환해야 한다는 필요성을 강조했다."

 

거의 완벽한 재현율

여기서 중요한(그리고 약간 불안한점은 Opus가 테스트의 증거를 찾으라는 메시지를 전혀 받지 못했다는 것이다모델이 자체적으로 이를 추론했다 AI는 자신의 능력을 평가하기 위해 설계된 시뮬레이션 환경 내에 자신이 존재한다는 사실을 '알고 있는것 같다.

Anthropic은 몇 가지 추가 통찰력을 제공한다: "긴 컨텍스트 메시지를 효과적으로 처리하려면 모델에 강력한 회상 기능이 필요하다. '건초더미 속의 바늘Needle In A Haystack'(NIAH) 평가는 방대한 데이터 모음에서 정보를 정확하게 기억하는 모델의 능력을 측정한다우리는 다음 중 하나를 사용하여 이 벤치마크의 견고성을 강화했다프롬프트당 무작위 바늘/질문 쌍 30개로 구성된 다양한 크라우드소싱 문서 코퍼스에 대한 테스트 Claude 3 Opus 99%를 넘는 정확도로 거의 완벽에 가까운 회상을 달성했을 뿐만 아니라 어떤 경우에는 다음을 통해 평가 자체의 한계도 식별했다. '바늘문장이 인간에 의해 원문에 인위적으로 삽입된 것처럼 보인다는 점을 인식한 것이다."

 

Claude 3은 다중 모드이다이미지와 텍스트를 모두 이해할 수 있다소셜 미디어에 대한 피드백은 현재까지 압도적으로 긍정적인 것 같다사용자들은 Opus가 어떻게 긴 문서에서 주요 정보를 요약 및 추출하고복잡한 과학 지식을 분석하고상세한 수학적 계산을 수행하고코딩에서 GPT-4보다 뛰어난 성능을 발휘하는지에 대한 예를 게시했다.

일각에서는 일반 인공지능(AGI)이 구현됐다고 주장하기도 한다그러한 진술이 과장되었을 수 있지만 Claude 3 Opus GPT-4를 선도적인 LLM으로 몰아냈을 수도 있다.

 

Opus  Sonnet 모델은 현재 일반적으로 사용 가능한 Anthropic API를 통해 개발자가 액세스할 수 있으며더 작은 Haiku 모델도 곧 출시될 예정이다. Sonnet Claude Pro 가입자에게 제공되는 Opus를 통해 claude.ai의 무료 경험을 강화하고 있다.

Anthropic "우리는 모델 지능이 한계에 가깝다고 생각하지 않는다."라고 말한다. "그리고 앞으로 몇 달에 걸쳐 Claude 3 모델 제품군에 대한 빈번한 업데이트를 출시할 계획이다또한 특히 기업 사용 사례 및 대규모 배포를 위해 모델의 기능을 향상시키는 일련의 기능을 출시하게 되어 기쁘게 생각한다기능에는 더욱 발전된 에이전트 기능이 포함될 것이다."

 
AI, 인공지능, AGI, 자기인식 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
AI메타홈서비스 많이 본 기사
최신기사
광고
광고