GPT-4o: OpenAI, 더 잘 보고 말하는 더 빠르고 무료 AI 모델 공개
OpenAI는 GPT-4의 반복인 최신 플래그십 생성 AI 모델 GPT-4o를 출시했으며 앞으로 몇 주 안에 개발자 및 소비자 중심 제품 전반에 걸쳐 단계적으로 출시될 예정이다.
OpenAI 본사에서 열린 기조 연설에서 CTO인 무리 무라티(Muri Murati)는 텍스트, 비전, 오디오 처리에 걸쳐 향상된 기능을 자랑하는 이전 버전인 GPT-4에 비해 GPT-4o의 발전을 강조했다.
무라티는 “GPT-4o는 음성, 텍스트, 시각 전반에서 원활하게 작동한다.”고 설명했다.
GPT-4는 이미지 및 텍스트 분석과 관련된 작업에 탁월했지만 GPT-4o는 음성 처리를 통합하여 기능 범위를 넓혔다.
자연스러운 인간-컴퓨터 상호작용
OpenAI에 따르면 GPT-4o("옴니"를 의미하는 "o")는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계이다. 텍스트, 오디오 및 이미지의 모든 조합을 입력으로 받아들이고 텍스트, 오디오, 그리고 이미지 출력. 232밀리초 이내에 오디오 입력에 응답할 수 있으며 평균 320밀리초가 소요된다. 이는 대화에서 인간의 응답 시간과 비슷하다.
영어 및 코드 텍스트의 GPT-4 Turbo 성능과 일치하며, 영어가 아닌 언어의 텍스트에 대한 상당한 개선이 이루어지며, API에서는 훨씬 빠르고 50% 저렴하다. GPT-4o는 특히 기존 모델에 비해 시각 및 청각 이해도가 더 뛰어나다.
이것이 사용자에게 정확히 무엇을 의미할까?
솔직히 꽤 많다.
GPT-4o는 OpenAI의 널리 인기 있는 AI 챗봇인 ChatGPT 경험을 크게 향상시킨다. 이제 사용자는 개인 비서와 마찬가지로 ChatGPT에 참여하여 질문하고 응답 중간에 중단할 수도 있다.
또한 OpenAI는 개선된 사용자 인터페이스와 함께 데스크톱 버전의 ChatGPT를 도입한다.
“우리는 이러한 모델이 점점 더 복잡해지고 있다는 점을 인식하고 있지만, 우리의 목표는 상호 작용 경험을 더욱 직관적이고 원활하게 만드는 것이다. 우리는 사용자가 UI로 인해 주의가 산만해지기보다는 GPT와의 협업에 집중하기를 원한다.”고 무라티는 강조했다.
GPT-4o는 또한 새로 추가된 양식에 의해 도입되거나 증폭되는 위험을 식별하기 위해 사회 심리학, 편견 및 공정성, 잘못된 정보 등의 영역에서 70명 이상의 외부 전문가로 구성된 광범위한 외부 레드팀을 거쳤다. OpenAI는 이러한 학습을 통해 GPT-4o와 상호 작용하는 안전성을 향상시키기 위한 안전 개입을 구축했다.
OpenAI 팀 구성원은 공개 연설 전에 신경을 진정시키는 데 도움을 요청하여 새 모델의 오디오 능력을 선보였다. 마크 첸(Mark Chen) 연구원은 사용자 방해에 대한 적응성을 언급하면서 감정을 측정하는 능력을 강조했다.
첸은 극적인 톤부터 로봇 같은 톤까지 다양한 톤으로 취침 시간 이야기를 요청하고 심지어 노래까지 요청하여 모델의 다재 다능함을 보여주었다.
이번 발표는 8월 ChatGPT Enterprise 출시 이후 OpenAI의 중요한 이정표 중 하나이다. 20개가 넘는 회사의 의견을 바탕으로 1년 이내에 개발된 이 비즈니스 계층 챗봇 도구는 상당한 주목을 받았다.
생성 AI의 강력한 시장 규모
OpenAI는 Microsoft 및 Google과 함께 생성 AI 영역에서 선두를 달리고 있다. 다양한 부문의 기업이 경쟁력을 유지하기 위해 AI 기반 챗봇을 서비스에 통합하기 위해 서두르고 있기 때문이다. OpenAI의 라이벌인 Anthropic은 최근 자사의 첫 번째 기업용 제품과 무료 iPhone 앱을 공개했다.
OpenAI는 성명을 통해 “우리는 GPT-4o의 오디오 방식이 다양한 새로운 위험을 안고 있다는 것을 알고 있다.”고 말했다. “오늘 우리는 텍스트 및 이미지 입력과 텍스트 출력을 공개적으로 출시한다. 앞으로 몇 주, 몇 달 동안 우리는 기술 인프라, 사후 교육을 통한 유용성, 다른 양식을 출시하는 데 필요한 안전성에 대해 작업할 것이다.”
예를 들어, 출시 시 오디오 출력은 사전 설정된 음성 선택으로 제한되며 기존 안전 정책을 준수한다. "우리는 곧 출시될 시스템 카드에서 GPT-4o의 모든 양식을 다루는 자세한 내용을 공유할 것이다."
피치북(PitchBook)에 따르면 생성 AI 시장은 2023년 약 700개 거래에 걸쳐 291억 달러라는 엄청난 투자를 기록했으며, 이는 전년도보다 260% 이상 급증한 수치이다. 예측에 따르면 시장 수익은 향후 10년 내에 1조 달러를 초과할 것으로 예상된다.
그러나 검증되지 않은 서비스의 신속한 배포에 대한 우려는 여전히 남아 있으며 학계와 윤리학자들은 이 기술이 편견을 영속시킬 가능성에 대해 우려하고 있다.
ChatGPT는 2022년 11월 출시 이후 약 1억 명의 주간 활성 사용자를 자랑하며 역사상 가장 빠르게 성장하는 소비자 앱이라는 기록을 경신했다. OpenAI는 포츈 500대 기업 중 92% 이상이 이 플랫폼을 사용하고 있다고 보고한다.
행복한 메모로 마무리
딥 코딩에 대한 모든 진지한 토론 중에 무라티는 청중의 몇 가지 질문에 답변했다. Chat GPT가 유창한 이탈리아어를 말하고 다시 영어로 번역했을 때 방은 웃음과 장난으로 가득 차 있었다.
글쎄, 더 많은 이야기가 있다. 다음에 셀카를 클릭하면 Chat GPT가 당신의 감정을 정확하게 평가할 수 있다. 셀카를 클릭하고 Chat GPT에 기분이 어떤지 물어보면 된다. Open AI 사람들의 경우에는 너무 행복해서 Chat GPT가 연구진에게 그들의 극도의 행복 이유를 물었다.