심심풀이/AI 음성2024. 1. 3. 16:37
 

EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-개론 및 Vall-E (X)

인공지능 기술의 발전과 더불어 이미지, 음성, 영상 등을 학습하고 생성하는 기술이 나날이 발전하고 새로워지고 있습니다. 유튜브에서 단순히 유명인의 목소리로 노래를 부르는 영상만이 아니

joonnotes.tistory.com

 

이전 글에서는 뛰어난 편의성과 속도를 보인 Vall-E (X)를 테스트해보았습니다. 확실히 간편하다는 측면에서는 좋았으나 결과물이 너무나도 조악해서 기대했던 퀄리티에는 미치지 못했는데요. 이번에는 다소 편의성은 떨어지지만 더 뛰어난 학습 성능을 보이는 EasyBertVits2를 다루어보려합니다.

1.3 EasyBertVits2

EasyBertVits2는 나누어서 읽으면 Easy/Bert/Vits2가 됩니다. 가장 기초가 되는 학습 코드인 VITS2부터 시작하여 그 수정본인 Bert-VITS2가 만들어졌고 이를 좀 더 사용자가 접근하기 쉽게 만든것이 바로 EasyBertVits2입니다.

Github에서 검색해보면 대개 Bert-VITS2 방식(https://github.com/fishaudio/Bert-VITS2)이 vits 계열에서는 주로 사용됨을 확인할 수 있는데 코드를 작성하신 분이 중국인이라 영어매뉴얼이나 한국어매뉴얼이 다소 난해하기도 하고 관련된 정보가 너무 파편적이라 설치하기가 쉽지 않습니다.

따라서 여러 단계에 걸친 설치 과정을 단일 배치 파일로 간단하게 정리한 EasyBertVits2로 설치를 진행하겠습니다.

 

GitHub - Zuntan03/EasyBertVits2: 文章から感情豊かな音声を生成する Bert-VITS2 を簡単に使えます。

文章から感情豊かな音声を生成する Bert-VITS2 を簡単に使えます。. Contribute to Zuntan03/EasyBertVits2 development by creating an account on GitHub.

github.com

Github의 위 링크로 들어가면 Zuntan03이라는 일본 분이 올려놓은 EasyBertVits2가 있습니다. 여기 웹페이지에 있는 설치 매뉴얼을 참고하여 진행하면 됩니다.

매뉴얼의 링크를 타고 들어가서 Install-EasyBertVits2.bat 파일을 다운받고 이를 설치를 원하는 폴더에 놓고 실행합니다. 그러면 자동으로 필요한 모듈과 코드들을 웹에서 다운로드 받아옵니다. 설치가 완료되었으면 HiyoriUI.bat으로 실행하면 인터페이스가 나옵니다. 초기에는 중국어 인터페이스가 나오지만 웹 번역기능을 활용해서 사용하시면 됩니다.

우선 기본적으로 제공되는 모델을 활용해봅니다. 우측 상단의 '모델 로딩'을 통해 'EasybertVits2/Bert-VITS2/Data' 폴더 안에 .pth 형식으로 저장되어있는 모델을 불러올 수 있습니다. 저는 기본 모델인 Demo-JVNV를 불러왔습니다.

그 다음 우측의 cuda:0가 표시된 블럭이 있는데 이것은 TTS 연산 처리를 CPU로 진행할 지 GPU로 진행할 지 결정하는 것입니다. cuda:0과 cpu 두가지 옵션이 있고 cuda의 경우가 gpu에 대응합니다. 그 다음으로는 언어 선택을 할 수 있게 되어있고 ZH(중국어), JP(일본어), EN(영어) 3가지 옵션이 있습니다. 모델의 언어를 고려하여 지정하면 됩니다.

지정을 마쳤다면 모델 로드 버튼을 누릅니다. 그렇게 되면 위의 그림과 같이 좌측 하단에 로드된 모델의 파라미터창이 나타나게 됩니다. 이 창의 우상단에 있는 버튼을 통해 TTS를 실행할 모델을 선택할 수 있습니다.

Vall-E와 유사하게, 텍스트창에 TTS를 진행할 글을 입력하고 오디오 생성 버튼을 누르면 연산이 진행됩니다. 이미 완성된 모델을 활용하여 TTS처리만 진행했기에 마찬가지로 30초 내외의 짧은 시간을 거쳐 오디오가 나왔습니다.

TTS 결과물을 들어보면 Vall-E보다 훨씬 자연스러움을 알 수 있습니다.

 

 

EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습(1)

앞선 글에서는 미리 준비되어있는 모델 파일을 이용했다면 이번에는 내가 원하는 캐릭터의 목소리를 이용한 모델을 만드는 방법을 다루어보겠습니다. 1) 데이터 준비하기 준비해야하는 데이터

joonnotes.tistory.com

Posted by 돌멩이와 쥐