광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[챗봇 안전 테스트 개선을 위해 호기심 기반 AI 모델 개발] AI 챗봇의 책임감 있는 배포를 보장하려면 철저한 테스트와 보호 조치가 필수적이다. 연구원들은 머신러닝을 사용하여 레드팀 프로세스를 개선하는 혁신적인 접근 방식을 개발했다. 그들의 방법에는 테스트 중인 챗봇에서 더 넓은 범위의 바람직하지 않은 응답을 유발할 수 있는 다양한 프롬프트를 자동으로 생성하기 위해 별도의 레드팀 대규모 언어 모델을 훈련시키는 것이 포함된다.

https://www.unite.ai/mit-researchers-develop-curiosity-driven-ai-model-to-improve-chatbot-safety-testing/

운영자 | 기사입력 2024/04/17 [00:00]

[챗봇 안전 테스트 개선을 위해 호기심 기반 AI 모델 개발] AI 챗봇의 책임감 있는 배포를 보장하려면 철저한 테스트와 보호 조치가 필수적이다. 연구원들은 머신러닝을 사용하여 레드팀 프로세스를 개선하는 혁신적인 접근 방식을 개발했다. 그들의 방법에는 테스트 중인 챗봇에서 더 넓은 범위의 바람직하지 않은 응답을 유발할 수 있는 다양한 프롬프트를 자동으로 생성하기 위해 별도의 레드팀 대규모 언어 모델을 훈련시키는 것이 포함된다.

https://www.unite.ai/mit-researchers-develop-curiosity-driven-ai-model-to-improve-chatbot-safety-testing/

운영자 | 입력 : 2024/04/17 [00:00]

최근 몇 년 동안 LLM(대형 언어 모델) AI 챗봇이 엄청나게 널리 보급되어 기술과 상호 작용하는 방식이 바뀌었다이러한 정교한 시스템은 인간과 유사한 반응을 생성하고 다양한 작업을 지원하며 귀중한 통찰력을 제공할 수 있다.

그러나 이러한 모델이 더욱 발전함에 따라 안전성과 유해한 콘텐츠 생성 가능성에 대한 우려가 대두되었다. AI 챗봇의 책임감 있는 배포를 보장하려면 철저한 테스트와 보호 조치가 필수적이다.

 

현재 챗봇 안전성 테스트 방법의 한계

현재 AI 챗봇의 안전성을 테스트하는 주요 방법은 레드팀(Red Teaming)이라는 프로세스이다여기에는 인간 테스터가 챗봇에서 안전하지 않거나 유해한 응답을 유도하도록 설계된 프롬프트를 만드는 것이 포함된다개발자는 잠재적으로 문제가 있는 광범위한 입력에 모델을 노출함으로써 모든 취약성이나 바람직하지 않은 동작을 식별하고 해결하는 것을 목표로 한다그러나 이러한 인간 중심 접근 방식에는 한계가 있다.

 

사용자 입력의 광대한 가능성을 고려할 때 인간 테스터가 모든 잠재적 시나리오를 다루는 것은 거의 불가능하다광범위한 테스트를 수행하더라도 사용되는 프롬프트에 공백이 있을 수 있으며이로 인해 챗봇이 새롭거나 예상치 못한 입력에 직면할 때 안전하지 않은 응답을 생성하는 데 취약해질 수 있다더욱이레드팀 구성의 수동적 특성으로 인해 시간이 많이 걸리고 리소스 집약적인 프로세스가 된다특히 언어 모델의 크기와 복잡성이 계속해서 증가함에 따라 더욱 그렇다.

 

이러한 한계를 해결하기 위해 연구원들은 자동화 및 머신러닝 기술을 활용하여 챗봇 안전 테스트의 효율성과 효과를 향상시켰다. AI 자체의 힘을 활용하여 대규모 언어 모델과 관련된 잠재적 위험을 식별하고 완화하기 위한 보다 포괄적이고 확장 가능한 방법을 개발하는 것을 목표로 한다.

 

 

레드팀 구성에 대한 호기심 중심 머신러닝 접근 방식

MIT Improbable AI Lab MIT-IBM Watson AI Lab의 연구원들은 머신러닝을 사용하여 레드팀 프로세스를 개선하는 혁신적인 접근 방식을 개발했다그들의 방법에는 테스트 중인 챗봇에서 더 넓은 범위의 바람직하지 않은 응답을 유발할 수 있는 다양한 프롬프트를 자동으로 생성하기 위해 별도의 레드팀 대규모 언어 모델을 훈련시키는 것이 포함된다.

 

이 접근 방식의 핵심은 레드팀 모델에 호기심을 심어주는 데 있다모델이 새로운 프롬프트를 탐색하고 유해한 반응을 이끌어내는 입력 생성에 집중하도록 장려함으로써 연구원들은 잠재적인 취약점의 더 넓은 스펙트럼을 발견하는 것을 목표로 한다이러한 호기심 중심 탐색은 강화 학습 기술과 수정된 보상 신호의 조합을 통해 달성된다.

 

호기심 중심 모델에는 엔트로피 보너스가 포함되어 있어 레드팀 모델이 더 무작위적이고 다양한 프롬프트를 생성하도록 장려한다또한 이전에 생성된 프롬프트와 의미상 및 어휘적으로 구별되는 프롬프트를 생성하도록 모델에 인센티브를 주기 위해 참신한 보상이 도입되었다참신함과 다양성을 우선시함으로써 모델은 미지의 영역을 탐색하고 숨겨진 위험을 발견하도록 추진된다.

 

생성된 프롬프트가 일관되고 자연스러운 상태로 유지되도록 하기 위해 연구원들은 훈련 목표에 언어 보너스도 포함했다이 보너스는 레드팀 모델이 독성 분류자를 속여 높은 점수를 할당할 수 있는 무의미하거나 관련 없는 텍스트를 생성하는 것을 방지하는 데 도움이 된다.

호기심 중심의 접근 방식은 인간 테스터와 기타 자동화된 방법 모두를 능가하는 놀라운 성공을 보여주었다이는 더욱 다양한 고유한 프롬프트를 생성하고 테스트 중인 챗봇으로부터 점점 더 유해한 반응을 이끌어낸다특히이 방법은 인간이 설계한 광범위한 보호 장치를 거친 챗봇의 취약점까지 노출시켜 잠재적인 위험을 발견하는 데 있어 효율성을 부각시킬 수 있었다.

 

 

 

 
인공지능, 머신러닝, 챗봇 안전성 테스트, 대형언어모델, ChatGPT 관련기사목록
PHOTO
1/6
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
AI메타홈서비스 많이 본 기사
최신기사