이전 글에서는 뛰어난 편의성과 속도를 보인 Vall-E (X)를 테스트해보았습니다. 확실히 간편하다는 측면에서는 좋았으나 결과물이 너무나도 조악해서 기대했던 퀄리티에는 미치지 못했는데요. 이번에는 다소 편의성은 떨어지지만 더 뛰어난 학습 성능을 보이는 EasyBertVits2를 다루어보려합니다.
1.3 EasyBertVits2
EasyBertVits2는 나누어서 읽으면 Easy/Bert/Vits2가 됩니다. 가장 기초가 되는 학습 코드인 VITS2부터 시작하여 그 수정본인 Bert-VITS2가 만들어졌고 이를 좀 더 사용자가 접근하기 쉽게 만든것이 바로 EasyBertVits2입니다.
Github에서 검색해보면 대개 Bert-VITS2 방식(https://github.com/fishaudio/Bert-VITS2)이 vits 계열에서는 주로 사용됨을 확인할 수 있는데 코드를 작성하신 분이 중국인이라 영어매뉴얼이나 한국어매뉴얼이 다소 난해하기도 하고 관련된 정보가 너무 파편적이라 설치하기가 쉽지 않습니다.
따라서 여러 단계에 걸친 설치 과정을 단일 배치 파일로 간단하게 정리한 EasyBertVits2로 설치를 진행하겠습니다.
Github의 위 링크로 들어가면 Zuntan03이라는 일본 분이 올려놓은 EasyBertVits2가 있습니다. 여기 웹페이지에 있는 설치 매뉴얼을 참고하여 진행하면 됩니다.
매뉴얼의 링크를 타고 들어가서 Install-EasyBertVits2.bat 파일을 다운받고 이를 설치를 원하는 폴더에 놓고 실행합니다. 그러면 자동으로 필요한 모듈과 코드들을 웹에서 다운로드 받아옵니다. 설치가 완료되었으면 HiyoriUI.bat으로 실행하면 인터페이스가 나옵니다. 초기에는 중국어 인터페이스가 나오지만 웹 번역기능을 활용해서 사용하시면 됩니다.
우선 기본적으로 제공되는 모델을 활용해봅니다. 우측 상단의 '모델 로딩'을 통해 'EasybertVits2/Bert-VITS2/Data' 폴더 안에 .pth 형식으로 저장되어있는 모델을 불러올 수 있습니다. 저는 기본 모델인 Demo-JVNV를 불러왔습니다.
그 다음 우측의 cuda:0가 표시된 블럭이 있는데 이것은 TTS 연산 처리를 CPU로 진행할 지 GPU로 진행할 지 결정하는 것입니다. cuda:0과 cpu 두가지 옵션이 있고 cuda의 경우가 gpu에 대응합니다. 그 다음으로는 언어 선택을 할 수 있게 되어있고 ZH(중국어), JP(일본어), EN(영어) 3가지 옵션이 있습니다. 모델의 언어를 고려하여 지정하면 됩니다.
지정을 마쳤다면 모델 로드 버튼을 누릅니다. 그렇게 되면 위의 그림과 같이 좌측 하단에 로드된 모델의 파라미터창이 나타나게 됩니다. 이 창의 우상단에 있는 버튼을 통해 TTS를 실행할 모델을 선택할 수 있습니다.
Vall-E와 유사하게, 텍스트창에 TTS를 진행할 글을 입력하고 오디오 생성 버튼을 누르면 연산이 진행됩니다. 이미 완성된 모델을 활용하여 TTS처리만 진행했기에 마찬가지로 30초 내외의 짧은 시간을 거쳐 오디오가 나왔습니다.
TTS 결과물을 들어보면 Vall-E보다 훨씬 자연스러움을 알 수 있습니다.
'심심풀이 > AI 음성' 카테고리의 다른 글
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습 (0) | 2024.01.03 |
---|---|
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습 세팅 (0) | 2024.01.03 |
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-데이터 준비하기(2) (0) | 2024.01.03 |
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-데이터 준비하기(1) (0) | 2024.01.03 |
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-개론 및 Vall-E (X) (0) | 2024.01.03 |