심심풀이/AI 음성2024. 1. 3. 18:40

 

 

 

EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습(1)

앞선 글에서는 미리 준비되어있는 모델 파일을 이용했다면 이번에는 내가 원하는 캐릭터의 목소리를 이용한 모델을 만드는 방법을 다루어보겠습니다. 1) 데이터 준비하기 준비해야하는 데이터

joonnotes.tistory.com

 

 

작업 파이프라인: 음성데이터

이제 추출한 영상을 flac으로 1차변환해주고 잡음 제거를 거쳐 wav파일로 완성해주면 됩니다.

샤나인코더와 같은 인코딩 프로그램을 열어서 분리된 영상들을 넣어줍니다. 이 프로그램의 경우 빠른 설정 버튼을 통해 옵션에 진입해서 파일 형식(flac)과 샘플 레이트(44100Hz)를 설정해주고 인코딩을 진행합니다.

이렇게 해서 추출된 음성 파일은 학습에 필요한 보컬 부분만 추출하는 과정을 거치게됩니다. Ultimate Vocal Remover라는 프로그램을 통해 해보겠습니다.

Input에는 flac 파일들을 Output에는 보정 후 파일들이 들어갈 폴더를 지정합니다. Process Method로는 MDX-Net을 고르시면 되고 MDX-NET Model의 경우는 MDX23C를 사용하도록 합니다. 다른 모델이 사용하고 싶으시면 프로그램 내에서 추가로 다운로드하실 수도 있습니다.

이 과정들을 진행하시면 학습에 필요한 음성데이터는 완성됩니다. 그 다음으로는 학습에 사용할 대사 파일을 .txt의 형태로 준비해야합니다. 이 경우 OpenAI에서 제공하는 Whisper라는 코드를 사용하면 손쉽게 진행할 수 있습니다. 좀 더 편하게 그래픽 인터페이스로 진행하고 싶으신 분은 아래 링크의 Whisper-WebUI를 사용하셔도 무방합니다.

 

 

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

Robust Speech Recognition via Large-Scale Weak Supervision - GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

github.com

 

 

GitHub - jhj0517/Whisper-WebUI: A Web UI for easy subtitle using whisper model.

A Web UI for easy subtitle using whisper model. Contribute to jhj0517/Whisper-WebUI development by creating an account on GitHub.

github.com

Whisper WebUI를 실행해보면 위와 같은 화면이 나오는데 여기서 Model은 large를 고릅니다. Language는 자신에게 맞는 언어, 파일 포맷은 .txt로 변환합니다. generate 버튼을 누르면 음성 파일의 대사를 인식하고 자동으로 .txt 파일로 정리해줍니다.

 

 

EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습(3)

이제 마지막으로 학습 데이터를 지정된 위치에 넣어주고 파라미터 값을 적절하게 수정하여 학습 코드를 실행시키면 됩니다. 먼저 EasyBertVits2 폴더에 있는 Download-LearningSample-JVNV.bat을 실행해서 학

joonnotes.tistory.com

 

Posted by 돌멩이와 쥐