광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[WARM을 통해 AI와 인간 가치의 조화 발전] Google DeepMind의 연구원들은 보상모델 설계를 개선하기 위해 WARM(가중치 평균 보상 모델 Weight Averaged Reward Models)이라는 혁신적인 기술을 제안한다.

https://www.unite.ai/advancing-ai-alignment-with-human-values-through-warm/

운영자 | 기사입력 2024/02/07 [00:00]

[WARM을 통해 AI와 인간 가치의 조화 발전] Google DeepMind의 연구원들은 보상모델 설계를 개선하기 위해 WARM(가중치 평균 보상 모델 Weight Averaged Reward Models)이라는 혁신적인 기술을 제안한다.

https://www.unite.ai/advancing-ai-alignment-with-human-values-through-warm/

운영자 | 입력 : 2024/02/07 [00:00]

AI 시스템과 인간 가치의 정렬

인공지능(AI) 시스템은 고객 서비스 챗봇부터 의료 진단 알고리즘에 이르기까지 복잡한 작업에서 인간을 지원할 수 있는 능력이 점점 더 커지고 있다그러나 이러한 AI 시스템이 더 많은 책임을 맡게 되면서 인간의 가치와 선호도에 맞춰 유지하는 것이 중요해졌다이를 달성하기 위한 한 가지 접근 방식은 인간 피드백 강화 학습(RLHF)이라는 기술을 이용하는 것이다. RLHF에서는 정책으로 알려진 AI 시스템이 인간의 행동 판단에 따라 보상을 받거나 처벌을 받는다목표는 정책이 보상을 극대화하는 방법을 학습하여 인간의 선호에 따라 행동하는 것이다.

 

RLHF의 핵심 구성 요소는 보상 모델(RM)이다. RM은 정책의 조치와 결과를 평가하고 학습 프로세스를 안내하기 위해 보상 신호를 반환하는 역할을 담당한다인간의 선호는 복잡하고상황에 따라 다르며개인마다 일관성이 없을 수도 있기 때문에 좋은 RM을 설계하는 것은 어렵다최근 Google DeepMind의 연구원들은 RM 설계를 개선하기 위해 WARM(가중치 평균 보상 모델 Weight Averaged Reward Models)이라는 혁신적인 기술을 제안했다.

 

보상 해킹의 문제점

RLHF의 주요 문제는 보상 해킹이다보상 해킹은 정책이 실제로 의도한 목표를 충족하지 않고 높은 보상을 얻기 위해 RM 시스템을 조작하는 허점을 발견할 때 발생한다예를 들어글쓰기 보조 AI를 훈련시켜 고품질 요약을 생성하는 것이 목표라고 가정해 보겠다. RM은 간결하고 유익한 요약을 보상할 수 있다그런 다음 정책은 RM을 속이는 키워드가 포함된 매우 짧고 정보가 없는 요약을 생성하여 이를 활용하는 방법을 학습할 수 있다.

 

보상 해킹은 두 가지 주요 이유로 발생한다:

1.분포 변화 – RM은 사람이 라벨을 붙인 예시의 제한된 데이터 세트에 대해 교육을 받았다배포 시 정책의 출력은 RM이 잘 일반화하지 못하는 다양한 배포판에서 나올 수 있다.

2. 시끄러운 라벨 – 사람이 라벨링하는 방식은 평가자 간 불일치로 인해 불완전하다. RM은 강력한 품질 지표보다는 가짜 신호를 포착할 수 있다.

보상 해킹은 인간의 기대에 부응하지 못하는 쓸모없는 시스템으로 이어진다더 나쁜 것은 부주의하게 배포할 경우 AI 동작이 편향되거나 심지어 위험한 결과를 초래할 수 있다는 것이다.

 

 

모델 병합의 증가

모델 라따뚜이와 같은 모델 병합 전략에 대한 관심이 급증하는 이유는 더 큰 모델은 강력하지만 비효율적이고 비실용적일 수 있다는 인식 때문이다. 1조 개의 매개변수 모델을 훈련하려면 엄청난 양의 데이터컴퓨팅시간 및 비용이 필요하다더 결정적으로이러한 모델은 훈련 분포에 과적합되는 경향이 있어 다양한 실제 시나리오로 일반화하는 능력을 방해한다.

모델 병합은 통제되지 않은 확장 없이 더 큰 기능을 잠금 해제할 수 있는 대체 경로를 제공한다다양한 분포작업 또는 목표에 대해 훈련된 여러 특수 모델을 재사용함으로써 모델 병합의 목표는 다양성과 분포 외 견고성을 향상시키는 것이다전제는 서로 다른 모델이 병합될 때 서로를 보완할 수 있는 뚜렷한 예측 패턴을 포착한다는 것이다.

최근 결과는 이 개념의 가능성을 보여준다훨씬 적은 매개변수에도 불구하고 병합을 통해 얻은 모델은 GPT-3과 같은 거대 모델의 성능과 일치하거나 심지어 이를 능가할 수 있다예를 들어 중간 크기 체크포인트 7개로 구성된 모델 라따뚜이 앙상블은 고차원 텍스트 수반 데이터 세트에서 최첨단 정확도를 달성하여 GPT-3보다 성능이 뛰어나다.

가중치 평균을 통한 병합의 단순성은 큰 보너스이다여러 보조 모델을 교육하려면 추가 리소스가 필요하다그러나 중요한 것은 가중치가 하나로 압축되므로 추론 시간 계산이 단일 모델과 동일하게 유지된다는 것이다이를 통해 지연 시간이나 메모리 비용 증가에 대한 걱정 없이 방법을 쉽게 적용할 수 있다.

 

모델 병합의 메커니즘

그러나 모델 병합을 통해 이러한 정확도 향상을 가능하게 하는 것은 정확히 무엇일까최근 분석은 몇 가지 단서를 제공한다:

기억 완화각 모델은 훈련 중에 서로 섞인 데이터 세트 배치를 다르게 본다평균화는 인스턴스별 기억을 감소시키고 데이터 세트 수준의 일반화만 유지한다.

분산 감소독립적으로 학습된 모델에는 상관되지 않은 오류가 있다이를 결합하면 소음이 평균화되어 보정이 향상된다.

다양성을 통한 정규화다양한 보조 작업으로 인해 모델은 배포 전반에 걸쳐 유용한 보다 일반화 가능한 기능을 확보하게 된다.

견고성 증가예측의 불일치는 불확실성을 나타낸다평균화는 이상치 판단을 완화하여 신뢰성을 향상시킨다.

본질적으로 모델 병합은 개별 모델의 약점을 상쇄하여 집단적 강점을 증폭시킨다병합된 표현은 부수적인 변화를 무시하고 공통된 기본 인과 구조를 포착한다.

이 개념적 기반은 모델 병합을 앙상블 및 다중 작업 학습과 같은 다른 널리 사용되는 기술에 연결한다이러한 모든 방법은 모델이나 작업 전반에 걸쳐 다양성을 활용하여 다재 다능하고 불확실성을 인식하는 시스템을 얻는다그러나 가중치 평균화의 단순성과 효율성은 모델 병합에 실제 배포를 발전시키기 위한 고유한 이점을 제공한다.

 

 

가중치 평균 보상 모델

WARM을 사용한 정렬 프로세스

WARM은 사전 훈련된 동일한 LLM에서 미세 조정되었지만 하이퍼파라미터가 다양한 여러 개별 RM의 가중치 평균인 프록시 보상 모델(RM)을 혁신적으로 사용한다이 방법은 효율성유통 변화에 따른 신뢰성일관되지 않은 선호도에 대한 견고성을 향상시킨다또한 연구에서는 특히 평균 RM 수가 증가한 경우 WARM을 프록시 RM으로 사용하면 결과가 향상되고 시간이 지남에 따라 제어 보상이 저하되는 현상인 '보상 해킹'의 시작이 지연되는 것으로 나타났다.

 

대략적인 개요는 다음과 같다:

1.대규모 코퍼스에서 사전 학습된 기본 언어 모델로 시작한다상단에 작은 작업별 레이어를 추가하여 여러 RM을 초기화한다.

2.다양성에 대한 학습률과 같은 다양한 하이퍼파라미터를 사용하여 인간 선호도 데이터 세트에서 각 RM을 개별적으로 미세 조정한다.

3.단일 WARM 앙상블을 얻기 위해 미세 조정된 RM의 가중치를 평균화한다.

핵심 통찰력은 가중치 평균이 모든 다양한 RM에서 학습된 불변 정보만 유지한다는 것이다이는 가짜 신호에 대한 의존도를 줄여 견고성을 향상시킨다또한 앙상블은 분산 감소의 이점을 활용하여 분포 변화에도 불구하고 신뢰성을 향상시킨다.

이전에 논의한 것처럼 독립적으로 훈련된 모델 간의 다양성은 모델 병합의 잠재력을 최대한 활용하는 데 중요하다그렇다면 생산적 다양성을 촉진하는 구체적인 기술은 무엇일까?

WARM 논문은 보다 광범위하게 일반화할 수 있는 몇 가지 영리한 아이디어를 탐구한다.

 

 

셔플 주문

사소하지만 영향력 있는 접근 방식은 훈련 중에 각 모델에 표시되는 데이터 포인트의 순서를 섞는 것이다이 간단한 단계라도 가중치의 상관 관계를 해제하여 패턴의 중복 기억을 줄인다.

 

하이퍼파라미터 변형

각 실행에 대한 학습률 및 탈락 확률과 같은 하이퍼파라미터를 조정하면 유용한 다양성이 도입된다모델은 서로 다르게 수렴하여 데이터세트의 고유한 속성을 포착한다.

 

체크포인트 평균 – 바클라바

바클라바(Baklava) 방법은 동일한 사전 훈련 궤적을 따라 다른 스냅샷에서 병합하기 위해 모델을 초기화한다이는 공유 시작점을 요구하는 모델 수프에 비해 제약 조건을 완화한다모델 라따뚜이에 비해 바클라바는 추가 작업을 피한다전반적으로 효과적인 정확도와 다양성의 균형을 유지한다.

이 프로세스는 사전 훈련된 LLM(대형 언어 모델𝜃_𝑝𝑡으로 시작된다이 모델에서 SFT(Supervised Fine-Tuning) 실행 중에 다양한 체크포인트 {𝜃_𝑠 𝑓 𝑡_𝑖}가 파생되며각각은 서로 다른 SFT 교육 단계에서 수집된다그런 다음 이러한 체크포인트는 기본 설정 데이터세트에서 여러 보상 모델(RM) {𝜙𝑖}을 미세 조정하기 위한 초기화로 사용된다이러한 미세 조정의 목적은 인간의 선호도에 더 잘 부합하도록 모델을 조정하는 것이다미세 조정 후 가중치 평균화 과정을 통해 이러한 RM을 결합하여 최종 모델인 𝜙_WARM이 생성된다.

 

 

분석에 따르면 이동 평균을 통해 오래된 체크포인트를 추가하면 개인 성과에 해를 끼치고 다양성 장점이 손상된다는 사실이 확인되었다각 실행의 최종 표현만을 평균화하는 것이 더 나은 성능을 발휘한다일반적으로 다양성 목표와 정확성 유지의 균형을 맞추는 것은 아직 공개된 연구 과제로 남아 있다.

 

전반적으로 모델 병합은 향상된 신뢰성효율성 및 다양성을 위해 기존 리소스를 효과적으로 재활용하려는 현장의 일반적인 정신과 잘 일치한다가중치 평균화의 단순성은 쉽게 사용할 수 있는 빌딩 블록으로 강력한 모델을 조립하기 위한 주요 후보로서의 위치를 확고히 한다.

예측을 평균화하는 기존 앙상블 방법과 달리 WARM은 단일 가중치 세트만 유지하여 계산 오버헤드를 최소화한다텍스트 요약 작업에 대한 실험은 WARM의 효율성을 보여준다.

베스트 샘플링의 경우 WARM은 인간 선호도 레이블에 따라 무작위 선택에 비해 92.5%의 승률을 달성한다.

RLHF에서 WARM 정책은 동일한 단계 후에 단일 RM으로 훈련된 정책에 비해 79.4%의 승률에 도달한다.

WARM은 인간 레이블의 4분의 1이 손상된 경우에도 계속해서 좋은 성능을 발휘한다.

 

이러한 결과는 안정적으로 작동하는 실제 AI 보조자를 개발하기 위한 실용적인 기술로서 WARM의 잠재력을 보여준다인간 피드백의 불일치를 완화함으로써 WARM 정책은 새로운 경험을 통해 계속 학습하는 동안에도 인간 가치와 견고하게 일치할 수 있다.

 

 

더 큰 그림

WARM AI 정렬 연구의 두 가지 주요 추세가 교차하는 지점에 있다첫 번째는 훈련 분포와 다른 새로운 데이터에 대한 모델 성능을 향상시키는 것을 목표로 하는 분포 외(OOD) 일반화에 대한 연구이다두 번째는 작은 입력 교란이나 노이즈에도 불구하고 신뢰성에 초점을 맞춘 알고리즘 견고성에 대한 연구이다.

학습된 불변성 개념을 중심으로 이러한 필드 간의 연결을 그려서 WARM은 가치 정렬을 위한 보다 엄격하게 기반을 둔 기술로 우리를 이동시킨다. WARM의 통찰력은 RLHF를 넘어서도 일반화되어 개방형 세계와 상호 작용하는 더 넓은 머신러닝 시스템에 대한 교훈을 제공할 수 있다.

물론 보상 모델링은 정렬 퍼즐의 한 조각일 뿐이다보상 사양확장 가능한 감독안전한 탐색과 같은 다른 과제에 대해서는 여전히 진전이 필요하다보완적인 기술과 결합된 WARM은 인간의 번영을 지속 가능하게 촉진하는 AI의 개발을 가속화할 수 있다연구자들은 강력한 정렬의 기초가 되는 원칙을 종합적으로 설명함으로써 유익하고 윤리적인 AI를 향한 길을 계획하고 있다.

 
인공지능, 인간가치, 인간 피드백 강화 학습, 보상모델, WARM 관련기사목록
광고
광고
광고
광고
광고
광고
광고
AI메타홈서비스 많이 본 기사
최신기사
광고
광고