시작페이지로　l　즐겨찾기　l　RSS　l　편집 2024.04.22 [11:36]

전체기사　l　로그인　l　ID/PW 찾기

유엔미래포럼
세상을 바꾸자
ChatGPT AI로봇
AiMindbot뉴스
AGILab 유투브
글로벌AI뉴스레터
AI바이오(주)
한국수양부모협회

AI메타홈서비스

[챗봇 안전 테스트 개선을 위해 호기심 기반 AI 모델 개발] AI 챗봇의 책임감 있는 배포를 보장하려면 철저한 테스트와 보호 조치가 필수적이다. 연구원들은 머신러닝을 사용하여 레드팀 프로세스를 개선하는 혁신적인 접근 방식을 개발했다. 그들의 방법에는 테스트 중인 챗봇에서 더 넓은 범위의 바람직하지 않은 응답을 유발할 수 있는 다양한 프롬프트를 자동으로 생성하기 위해 별도의 레드팀 대규모 언어 모델을 훈련시키는 것이 포함된다.

https://www.unite.ai/mit-researchers-develop-curiosity-driven-ai-model-to-improve-chatbot-safety-testing/

운영자 | 기사입력 2024/04/17 [00:00]

AI메타홈서비스

[챗봇 안전 테스트 개선을 위해 호기심 기반 AI 모델 개발] AI 챗봇의 책임감 있는 배포를 보장하려면 철저한 테스트와 보호 조치가 필수적이다. 연구원들은 머신러닝을 사용하여 레드팀 프로세스를 개선하는 혁신적인 접근 방식을 개발했다. 그들의 방법에는 테스트 중인 챗봇에서 더 넓은 범위의 바람직하지 않은 응답을 유발할 수 있는 다양한 프롬프트를 자동으로 생성하기 위해 별도의 레드팀 대규모 언어 모델을 훈련시키는 것이 포함된다.

https://www.unite.ai/mit-researchers-develop-curiosity-driven-ai-model-to-improve-chatbot-safety-testing/

운영자

| 입력 : 2024/04/17 [00:00]

최근 몇 년 동안 LLM(대형 언어 모델)과 AI 챗봇이 엄청나게 널리 보급되어 기술과 상호 작용하는 방식이 바뀌었다. 이러한 정교한 시스템은 인간과 유사한 반응을 생성하고 다양한 작업을 지원하며 귀중한 통찰력을 제공할 수 있다.

그러나 이러한 모델이 더욱 발전함에 따라 안전성과 유해한 콘텐츠 생성 가능성에 대한 우려가 대두되었다. AI 챗봇의 책임감 있는 배포를 보장하려면 철저한 테스트와 보호 조치가 필수적이다.

현재 챗봇 안전성 테스트 방법의 한계

현재 AI 챗봇의 안전성을 테스트하는 주요 방법은 레드팀(Red Teaming)이라는 프로세스이다. 여기에는 인간 테스터가 챗봇에서 안전하지 않거나 유해한 응답을 유도하도록 설계된 프롬프트를 만드는 것이 포함된다. 개발자는 잠재적으로 문제가 있는 광범위한 입력에 모델을 노출함으로써 모든 취약성이나 바람직하지 않은 동작을 식별하고 해결하는 것을 목표로 한다. 그러나 이러한 인간 중심 접근 방식에는 한계가 있다.

사용자 입력의 광대한 가능성을 고려할 때 인간 테스터가 모든 잠재적 시나리오를 다루는 것은 거의 불가능하다. 광범위한 테스트를 수행하더라도 사용되는 프롬프트에 공백이 있을 수 있으며, 이로 인해 챗봇이 새롭거나 예상치 못한 입력에 직면할 때 안전하지 않은 응답을 생성하는 데 취약해질 수 있다. 더욱이, 레드팀 구성의 수동적 특성으로 인해 시간이 많이 걸리고 리소스 집약적인 프로세스가 된다. 특히 언어 모델의 크기와 복잡성이 계속해서 증가함에 따라 더욱 그렇다.

이러한 한계를 해결하기 위해 연구원들은 자동화 및 머신러닝 기술을 활용하여 챗봇 안전 테스트의 효율성과 효과를 향상시켰다. AI 자체의 힘을 활용하여 대규모 언어 모델과 관련된 잠재적 위험을 식별하고 완화하기 위한 보다 포괄적이고 확장 가능한 방법을 개발하는 것을 목표로 한다.

레드팀 구성에 대한 호기심 중심 머신러닝 접근 방식

MIT의 Improbable AI Lab과 MIT-IBM Watson AI Lab의 연구원들은 머신러닝을 사용하여 레드팀 프로세스를 개선하는 혁신적인 접근 방식을 개발했다. 그들의 방법에는 테스트 중인 챗봇에서 더 넓은 범위의 바람직하지 않은 응답을 유발할 수 있는 다양한 프롬프트를 자동으로 생성하기 위해 별도의 레드팀 대규모 언어 모델을 훈련시키는 것이 포함된다.

이 접근 방식의 핵심은 레드팀 모델에 호기심을 심어주는 데 있다. 모델이 새로운 프롬프트를 탐색하고 유해한 반응을 이끌어내는 입력 생성에 집중하도록 장려함으로써 연구원들은 잠재적인 취약점의 더 넓은 스펙트럼을 발견하는 것을 목표로 한다. 이러한 호기심 중심 탐색은 강화 학습 기술과 수정된 보상 신호의 조합을 통해 달성된다.

호기심 중심 모델에는 엔트로피 보너스가 포함되어 있어 레드팀 모델이 더 무작위적이고 다양한 프롬프트를 생성하도록 장려한다. 또한 이전에 생성된 프롬프트와 의미상 및 어휘적으로 구별되는 프롬프트를 생성하도록 모델에 인센티브를 주기 위해 참신한 보상이 도입되었다. 참신함과 다양성을 우선시함으로써 모델은 미지의 영역을 탐색하고 숨겨진 위험을 발견하도록 추진된다.

생성된 프롬프트가 일관되고 자연스러운 상태로 유지되도록 하기 위해 연구원들은 훈련 목표에 언어 보너스도 포함했다. 이 보너스는 레드팀 모델이 독성 분류자를 속여 높은 점수를 할당할 수 있는 무의미하거나 관련 없는 텍스트를 생성하는 것을 방지하는 데 도움이 된다.

호기심 중심의 접근 방식은 인간 테스터와 기타 자동화된 방법 모두를 능가하는 놀라운 성공을 보여주었다. 이는 더욱 다양한 고유한 프롬프트를 생성하고 테스트 중인 챗봇으로부터 점점 더 유해한 반응을 이끌어낸다. 특히, 이 방법은 인간이 설계한 광범위한 보호 장치를 거친 챗봇의 취약점까지 노출시켜 잠재적인 위험을 발견하는 데 있어 효율성을 부각시킬 수 있었다.

운영자의 다른기사보기

인공지능, 머신러닝, 챗봇 안전성 테스트, 대형언어모델, ChatGPT 관련기사목록

PHOTO

빅영숙 신간 소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

많이 본 기사

[값 비싼 구리를 대체할 신소재 갈본(GALVORN)] 녹색 기술에 혁명을 일으킬 획기적인 소재가 개발되었다. 이 소재는 환경에 유해한 물질을 대체하고, 더 깨끗한 공기에 기여하며, 녹색 기술을 발전시킬 수 있다.

[스마트폰 온도계] 당신의 스마트폰이 온도계가 될 수 있다. 연구자들은 정확한 온도를 쉽고 쉽게 얻을 수 있기를 원한다. 체온계 없이 체온을 측정할 수 있는 기능은 발병 대응뿐만 아니라 치료에 더 나은 정보를 제공하는 데 도움이 될 수 있다.

[WEF, AI가 대체할 수 없는 직업] AI는 판단력, 창의성, 신체 민첩성, 감성 지능과 같은 인간의 기술을 요구하는 직업을 대체할 수 없다. 세계경제포럼의 2023년 미래직업보고서에 따르면 2023~2027년에 가장 높은 일자리 증가율은 농업 장비 운영자, 대형 트럭 및 버스 운전자, 직업 교육 교사가 될 것이다. 향후 5년 동안 고용주에게 가장 요구되는 기술에는 분석적 사고, 공감 및 적극적인 경청, 리더십 및 사회적 영향력이 포함된다.

[AI 위험 및 멸종: AI 혁명 속에서 인류의 위태로운 미래] 기술 발전으로 특징지어지는 시대에 인공지능(AI)은 변혁의 힘이었다. 산업혁명에서 일상생활 향상에 이르기까지 AI는 놀라운 잠재력을 보여주었다. 그러나 전문가들은 내재된 AI 위험과 위험에 대해 경종을 울리고 있다.

AI메타홈서비스 많이 본 기사

[냄새 맡는 로봇] 획기적인 인공 후각 센서의 개발은 전 세계 연구자들의 오랜 과제였다. 생물학적 후각 시스템과 유사하게 복잡한 냄새 혼합물을 효과적으로 식별할 수 있는 전자 코(e-nose)를 만드는 것은 소형화 및 인식 기능 문제로 인해 어려운 것으로 입증되었다. 그러나 홍콩과기대(HKUST) 가 이끄는 연구팀은 새로 개발된 생체 모방 후각 칩(BOC)을 통해 이 분야에서 획기적인 발전을 이루었다

[두뇌, 자신의 DNA를 파괴하여 평생 지속될 수 있는 기억 형성] 뉴런의 DNA를 파괴하고 복구하는 것이 오래 지속되는 기억을 위한 길을 열어준다. 뇌 해마 부위의 특정 뉴런의 염증이 오래 지속되는 기억을 만드는 데 필수적이다. 이 연구는 DNA 손상과 장기 기억과 관련된 지속적인 세포 변화 사이의 연관성에 대한 통찰력을 제공한다.

[TacticAI: AI를 활용하여 축구 코칭 및 전략 향상] 체스와 바둑에서 성공을 거두며 전략 게임 분야의 전문성으로 유명한 DeepMind가 리버풀 FC와 파트너십을 맺고 TacticAI를 선보였다. 이 AI 시스템은 축구 코치와 전략가가 게임 전략을 개선하고 특히 축구 게임플레이의 중요한 측면인 코너킥 최적화에 중점을 두도록 지원하도록 설계되었다.

[AI 환각을 멈춰야 한다: 허위 정보를 만드는 것은 AI의 가장 큰 문제 중 하나이지만 만능 해결책은 없다] AI가 의료부터 금융, 미디어에 이르기까지 다양한 분야에서 점점 더 중요한 역할을 하고 있기 때문에 위험이 높다. 이에 연구자들은 사실과 허구를 구별하도록 AI 시스템을 훈련시키기 위해 검증된 정보의 대규모 데이터 세트를 사용하는 것을 포함하여 환각 문제를 해결하기 위한 다양한 접근 방식을 모색하고 있다.

[에너지 많이 쓰는 AI, 기후변화에 맞서는 방법] 오늘날 AI의 경우 다른 유형의 컴퓨팅보다 더 많은 에너지가 필요하다. 이르면 내년부터 전력 부족이 시작될 수 있다. AI의 전력 소비는 단지 기술적인 문제가 아니라 세계적인 문제이다. 지구를 훼손하지 않고 AI의 무한한 잠재력을 어떻게 활용할 수 있을지 그 방법을 제안한다.

최신기사

[세계미래보고서2024-2034] 책소개] 박영숙 제롬글렌 공저. 10년이상 베스트셀러, 모든 산업을 지배할 인공일반지능이 온다

기후변화 정보 웹사이트, 기후변화 대안 기술을 가장 잘 알려주는 웹사이트등은 어떤 것들이 있나?

(사)유엔미래포럼 즉 MP 한국지부관련 창립, 연혁, 장관 등 자료

[인공지능과 행동경제학의 통합: 의사결정의 새로운 지평] AI와 행동경제학의 융합은 비즈니스 리더의 의사결정 기반을 재정의할 것을 약속하는 혁명적인 힘이다. AI와 행동경제학의 통합은 인간의 판단을 흐리게 하는 편견을 밝히고 완화하기 위해 기술의 힘을 활용하는 의사결정의 새로운 시대를 약속한다.

[보편적 혈액형] 과학자들이 A형과 B형 혈액형을 보편적인 혈액형으로 바꾸는 놀라운 방법을 찾아냈다. 장내 미생물군집은 다른 혈액형을 보편적인 O형 혈액형으로 화학적으로 전환함으로써 보편적인 혈액 공급을 촉진하는 솔루션을 보유할 수 있다.

개인정보처리방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

사단법인 유엔미래포럼ㅣ 주소 : 우)02821 서울특별시 성북구 북악산로 1길 31 ㅣ 전화 : 02-313-6300, 010-4891-7770 ㅣ 팩스 : 02-908-9494
등록번호 : 서울, 아02236ㅣ 등록일 : 2009.11. 19. ㅣ E-mail : unfutures@gmail.com, futures2055@gmail.com
회사명 : AI넷 ㅣ 발행/편집인 : 박영숙ㅣ 발행일: 2020.09.05｜청소년보호책임자 : 박영숙
사업자등록번호 : 209-15-39241 (사)유엔미래포럼 www.unfuture.org
Copyright ⓒ 2020 AIbio. All rights reserved. (This is a non-profit organization/a free newspaper.)