광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[다목적 인스턴트 음성 복제] OpenVoice는 인스턴트 음성 복제 모델이 기준 화자의 톤 색상을 복제하고 악센트, 리듬, 억양, 일시 중지 및 감정을 포함한 음성 스타일을 세부적으로 제어할 수 있다. 또한 외부 언어에 대한 광범위한 사전 교육 없이도 음성을 새로운 언어로 복제할 수 있다.

https://www.unite.ai/openvoice-versatile-instant-voice-cloning/

운영자 | 기사입력 2024/02/08 [00:00]

[다목적 인스턴트 음성 복제] OpenVoice는 인스턴트 음성 복제 모델이 기준 화자의 톤 색상을 복제하고 악센트, 리듬, 억양, 일시 중지 및 감정을 포함한 음성 스타일을 세부적으로 제어할 수 있다. 또한 외부 언어에 대한 광범위한 사전 교육 없이도 음성을 새로운 언어로 복제할 수 있다.

https://www.unite.ai/openvoice-versatile-instant-voice-cloning/

운영자 | 입력 : 2024/02/08 [00:00]

TTS(텍스트 음성 합성)에서 IVC(인스턴트 음성 복제)를 사용하면 TTS 모델이 참조 화자에 대한 추가 교육 없이도 짧은 오디오 샘플을 사용하여 참조 화자의 음성을 복제할 수 있다이 기술은 제로샷 텍스트 음성 변환(Zero-Shot Text-to-Speech) 합성이라고도 알려져 있다인스턴트 음성 복제 접근 방식을 사용하면 생성된 음성을 유연하게 맞춤 설정할 수 있으며 맞춤형 챗봇콘텐츠 생성인간과 LLM(대형 언어 모델간의 상호 작용 등 다양한 실제 상황에서 중요한 가치를 입증할 수 있다.

 

현재 음성 복제 프레임워크는 제 역할을 잘 수행하지만 유연한 음성 스타일 제어를 포함하여 현장에서 몇 가지 과제로 가득 차 있다모델에는 음성 복제 후 음성 스타일을 유연하게 조작하는 기능이 부족하다현재 인스턴트 복제 프레임워크에서 직면하는 또 다른 주요 장애물은 ㅍ(Zero-Shot Cross-Lingual Voice Cloning)이다교육 목적으로 현재 모델에서는 언어에 관계없이 광범위한 대규모 화자 다국어 또는 MSML 데이터 세트에 액세스해야 한다.

이러한 문제를 해결하고 인스턴트 음성 복제 모델의 향상에 기여하기 위해 개발자는 모든 사용자의 음성을 복제하고 참조 화자의 짧은 오디오 클립을 사용하여 여러 언어로 음성을 생성하는 다목적 인스턴트 음성 복제 프레임워크인 OpenVoice를 개발했다. OpenVoice는 인스턴트 음성 복제 모델이 기준 화자의 톤 색상을 복제하고 악센트리듬억양일시 중지 및 감정을 포함한 음성 스타일을 세부적으로 제어할 수 있음을 보여준다더욱 인상적인 점은 OpenVoice 프레임워크가 MSML 데이터 세트 외부의 언어에 대해 제로 샷 교차 언어 음성 복제를 달성하는 놀라운 기능도 보여줌으로써 OpenVoice가 해당 언어에 대한 광범위한 사전 교육 없이도 음성을 새로운 언어로 복제할 수 있다는 것이다. OpenVoice는 우수한 즉각적인 음성 복제 결과를 제공하는 동시에 성능이 떨어지는 현재 사용 가능한 API보다 최대 10배 적은 운영 비용으로 계산이 가능하다.

OpenVoice 프레임워크에 대해 심층적으로 설명하고 즉각적인 음성 복제 작업 전반에 걸쳐 탁월한 성능을 제공할 수 있는 아키텍처를 알아본다.

 

OpenVoice: 다목적 인스턴트 음성 복제 활성화

앞서 언급한 바와 같이제로 샷 텍스트 음성 합성이라고도 하는 인스턴트 음성 복제를 사용하면 TTS 모델이 참조 화자에 대한 추가 교육 없이도 짧은 오디오 샘플을 사용하여 참조 화자의 음성을 복제할 수 있다인스턴트 음성 복제는 자동 회귀 모델의 조건으로 사용되는 참조 오디오에서 스피커 임베딩 및/또는 음향 토큰을 추출하는 XTTS  VALLE 프레임워크를 포함한 기존 작업에서 항상 뜨거운 연구 주제였다그런 다음 자동 회귀 모델은 음향 토큰을 순차적으로 생성한 다음 이러한 토큰을 원시 오디오 파형으로 디코딩한다.

자동 회귀 인스턴트 음성 복제 모델은 톤 색상을 현저하게 복제하지만 악센트감정일시 정지 및 리듬을 포함한 다른 스타일 매개변수를 조작하는 데는 부족하다또한 자동 회귀 모델도 추론 속도가 낮고 운영 비용이 상당히 높다. YourTTS 프레임워크와 같은 기존 접근 방식은 자동 회귀 접근 방식 프레임워크에 비해 훨씬 더 빠른 추론 음성을 보여주는 비자동 회귀 접근 방식을 사용하지만 여전히 사용자에게 스타일 매개변수에 대한 유연한 제어를 제공할 수 없다또한 자동 회귀 기반 및 비자동 회귀 기반 인스턴트 음성 복제 프레임워크 모두 교차 언어 음성 복제를 위해 대규모 MSML 또는 대규모 화자 다국어 데이터 세트에 대한 액세스가 필요하다.

 

현재 인스턴트 음성 복제 프레임워크가 직면한 문제를 해결하기 위해 개발자는 현재 IVC 프레임워크가 직면한 다음 문제를 해결하는 것을 목표로 하는 오픈 소스 인스턴트 음성 복제 라이브러리인 OpenVoice를 개발했다.

1.첫 번째 과제는 IVC 프레임워크가 악센트리듬억양 및 일시정지를 포함한 톤 색상 외에도 스타일 매개변수를 유연하게 제어할 수 있도록 하는 것이다스타일 매개변수는 입력 텍스트를 단조롭게 설명하는 대신 상황에 맞는 자연스러운 대화와 음성을 생성하는 데 중요하다.

2.두 번째 과제는 IVC 프레임워크가 제로샷 설정에서 교차 언어 음성을 복제할 수 있도록 하는 것이다.

3.마지막 과제는 품질 저하 없이 높은 실시간 추론 속도를 달성하는 것이다.

처음 두 가지 장애물을 해결하기 위해 OpenVoice 프레임워크의 아키텍처는 음성의 구성 요소를 최대한 분리하는 방식으로 설계되었다또한 OpenVoice는 톤 색상언어 및 기타 음성 기능을 독립적으로 생성하므로 프레임워크가 개별 언어 유형 및 음성 스타일을 유연하게 조작할 수 있다. OpenVoice 프레임워크는 분리된 구조가 계산 복잡성과 모델 크기 요구 사항을 줄이므로 기본적으로 세 번째 문제를 해결한다.

 

OpenVoice: 방법론 및 아키텍처

OpenVoice 프레임워크의 기술 프레임워크는 효과적이며 놀라울 정도로 구현이 간단하다모든 화자의 톤 색상을 복제하고새로운 언어를 추가하고동시에 음성 매개변수를 유연하게 제어하는 것이 어려울 수 있다는 것은 비밀이 아니다이는 이 세 가지 작업을 동시에 실행하려면 대량의 조합 데이터세트를 사용하여 제어된 매개변수가 교차해야 하기 때문이다또한 일반 단일 화자 텍스트-음성 합성에서는 음성 복제가 필요하지 않은 작업의 경우 다른 스타일 매개변수에 대한 제어를 추가하는 것이 더 쉽다이를 기반으로 OpenVoice 프레임워크는 즉각적인 음성 복제 (Instant Voice Cloning) 작업을 하위 작업으로 분리하는 것을 목표로 한다이 모델은 기본 스피커 텍스트 음성 변환 모델을 사용하여 언어 및 스타일 매개변수를 제어하고 톤 색상 변환기를 사용하여 생성된 음성에 참조 톤 색상을 포함하도록 제안한다다음 그림은 프레임워크의 아키텍처를 보여준다.

 

핵심적으로 OpenVoice 프레임워크는 톤 색상 변환기와 기본 스피커 텍스트 음성 변환 또는 TTS 모델이라는 두 가지 구성 요소를 사용한다기본 화자 텍스트 음성 변환 모델은 단일 화자 또는 다중 화자 모델로스타일 매개변수언어 및 악센트를 정밀하게 제어할 수 있다모델은 음성을 생성한 다음 톤 색상 변환기로 전달하여 기본 스피커 톤 색상을 참조 스피커의 톤 색상으로 변경한다.

OpenVoice 프레임워크는 약간의 수정을 통해 VITS 모델을 사용할 수 있으므로 기본 화자 텍스트 음성 변환 모델과 관련하여 많은 유연성을 제공하므로 기간 예측기 및 텍스트 인코더에 언어 및 스타일 임베딩을 허용할 수 있다또한 프레임워크는 상업적으로 저렴한 Microsoft TTS와 같은 모델을 사용하거나 스타일 프롬프트를 수용할 수 있는 InstructTTS와 같은 모델을 배포할 수 있다당분간 OpenVoice 프레임워크는 VITS 모델을 사용하지만 다른 모델도 실행 가능한 옵션이다.

 

두 번째 구성 요소인 톤 컬러 변환기는 중앙에 반전 가능한 정규화 흐름을 수용하는 인코더-디코더 구성 요소이다톤 색상 변환기의 인코더 구성 요소는 기본 화자 텍스트-음성 모델의 단시간 푸리에 변환 스펙트럼을 입력으로 받아들이는 1차원 CNN이다그런 다음 인코더는 기능 맵을 출력으로 생성한다톤 색상 추출기는 입력 음성의 멜 스펙트로그램을 기반으로 작동하고 톤 색상 정보를 인코딩하는 출력으로 단일 특징 벡터를 생성하는 간단한 2차원 CNN이다정규화 흐름 레이어는 인코더에서 생성된 기능 맵을 입력으로 받아들이고 모든 스타일 속성을 유지하지만 톤 색상 정보를 제거하는 기능 표현을 생성한다그런 다음 OpenVoice 프레임워크는 정규화 흐름 레이어를 역방향으로 적용하고 기능 표현을 입력으로 사용하여 정규화 흐름 레이어를 출력한다그런 다음 프레임워크는 전치된 1차원 컨볼루션 스택을 사용하여 정규화 흐름 레이어를 원시 파형으로 디코딩한다.

OpenVoice 프레임워크의 전체 아키텍처는 자동 회귀 구성 요소를 사용하지 않고 피드포워드된다톤 색상 변환기 구성 요소는 개념적 수준에서 음성 변환과 유사하지만 기능훈련 목표 및 모델 구조의 귀납적 바이어스 측면에서 다르다정규화 흐름 레이어는 흐름 기반 텍스트-음성 모델과 동일한 구조를 공유하지만 기능 및 훈련 목표 측면에서 다르다.

또한 특징 표현을 추출하는 다른 접근 방식이 있으며, OpenVoice 프레임워크에서 구현된 방법은 더 나은 오디오 품질을 제공한다또한 OpenVoice 프레임워크는 모델 아키텍처의 구성 요소를 발명하려는 의도가 없으며 오히려 주요 구성 요소즉 톤 색상 변환기와 기본 스피커 TTS 모델이 모두 기존 작업에서 소스로 사용된다는 점도 주목할 가치가 있다. OpenVoice 프레임워크의 주요 목표는 톤 색상 복제에서 언어 제어와 음성 스타일을 분리하는 분리된 프레임워크를 형성하는 것이다접근 방식은 매우 간단하지만 특히 스타일과 악센트를 제어하는 작업이나 새로운 언어 일반화 작업에 매우 효과적이다결합된 프레임워크를 사용할 때 동일한 제어를 달성하려면 많은 양의 컴퓨팅과 데이터가 필요하며 이는 새로운 언어에 잘 일반화되지 않다.

OpenVoice 프레임워크의 핵심 철학은 톤 색상 생성에서 언어 및 음성 스타일 생성을 분리하는 것이다. OpenVoice 프레임워크의 주요 강점 중 하나는 단일 스피커 TTS가 유창하게 말하는 한 복제 음성이 유창하고 고품질이라는 것이다.

 

OpenVoice: 실험 및 결과

음성 복제 작업을 평가하는 것은 여러 가지 이유로 어려운 목표이다우선기존 작업에서는 이러한 작업을 본질적으로 불공평하게 비교하는 다양한 훈련 및 테스트 데이터를 사용하는 경우가 많다크라우드 소싱을 사용하여 평균 의견 점수와 같은 지표를 평가할 수 있지만 테스트 데이터의 난이도와 다양성이 전체 결과에 큰 영향을 미친다둘째다양한 음성 복제 방법에는 다양한 훈련 데이터가 있으며이 데이터의 다양성과 규모가 결과에 큰 영향을 미친다마지막으로기존 작품의 주요 목적은 종종 서로 다르기 때문에 기능도 다르다.

위에서 언급한 세 가지 이유 때문에 기존 음성 복제 프레임워크를 수치적으로 비교하는 것은 불공평하다대신이러한 방법을 질적으로 비교하는 것이 훨씬 더 합리적이다.

 

정확한 톤 컬러 복제

성능을 분석하기 위해 개발자는 익명의 개인게임 캐릭터 및 유명 인사로 테스트 세트를 구축하고 참조 스피커 기반을 형성하며 중립 샘플과 고유한 표현 음성을 모두 포함하여 광범위한 음성 분포를 갖는다. OpenVoice 프레임워크는 기준음 색상을 복제하고 기준 화자와 4명의 기본 화자에 대해 여러 언어와 악센트로 음성을 생성할 수 있다.

 

음색 스타일의 유연한 제어

OpenVoice 프레임워크의 목표 중 하나는 다른 모든 음성 기능과 속성을 유지하면서 색조를 수정할 수 있는 톤 색상 변환기를 사용하여 음성 스타일을 유연하게 제어하는 것이다.

 

실험에 따르면 모델은 기준 톤 색상으로 변환한 후 음성 스타일을 유지한다그러나 어떤 경우에는 모델이 감정을 약간 중화하는데이는 감정을 제거할 수 없도록 흐름 레이어에 더 적은 정보를 전달함으로써 해결될 수 있는 문제이다. OpenVoice 프레임워크는 톤 색상 변환기를 사용하므로 기본 음성의 스타일을 보존할 수 있다이를 통해 OpenVoice 프레임워크는 기본 화자 텍스트-음성 모델을 조작하여 음성 스타일을 쉽게 제어할 수 있다.

 

다국어 음성 복제

OpenVoice 프레임워크에는 보이지 않는 언어에 대한 대규모 화자 데이터가 포함되어 있지 않지만 제로 샷 설정에서 거의 언어 간 음성 복제를 달성할 수 있다. OpenVoice 프레임워크의 언어 간 음성 복제 기능은 두 가지로 나뉜다.

모델은 다중 화자 다중 언어 또는 MSML 데이터 세트에서 참조 화자의 언어가 표시되지 않는 경우 참조 화자의 톤 색상을 정확하게 복제할 수 있다.

또한 기준 화자의 언어가 보이지 않는 경우에도 OpenVoice 프레임워크는 기준 화자의 음성을 복제하고 기본 화자의 텍스트 음성 변환 모델이 해당 언어를 지원하는 조건으로 해당 언어로 말할 수 있다.

 

마지막 생각들

모든 사용자의 음성을 복제하고 참조 화자의 짧은 오디오 클립을 사용하여 여러 언어로 음성을 생성하는 다용도 인스턴트 음성 복제 프레임워크인 OpenVoice에 대해 설명했다. OpenVoice의 기본 직관은 모델이 참조 화자의 톤 색상 복제를 수행할 필요가 없는 한 프레임워크가 기본 화자 TTS 모델을 사용하여 언어와 음성 스타일을 제어할 수 있다는 것이다.

 

OpenVoice는 인스턴트 음성 복제 모델이 기준 화자의 톤 색상을 복제하고 악센트리듬억양일시 중지 및 감정을 포함한 음성 스타일을 세부적으로 제어할 수 있음을 보여준다. OpenVoice는 우수한 즉각적인 음성 복제 결과를 제공하는 동시에 성능이 떨어지는 현재 사용 가능한 API보다 최대 10배 적은 운영 비용으로 계산이 가능하다.

 
인스턴트 음성 복제, LLM(대형 언어 모델), 인공지능, 다국적 음성 복제 관련기사목록
PHOTO
1/6
광고
광고
광고
광고
광고
광고
많이 본 기사
AI메타홈서비스 많이 본 기사