이제 추출한 영상을 flac으로 1차변환해주고 잡음 제거를 거쳐 wav파일로 완성해주면 됩니다.
샤나인코더와 같은 인코딩 프로그램을 열어서 분리된 영상들을 넣어줍니다. 이 프로그램의 경우 빠른 설정 버튼을 통해 옵션에 진입해서 파일 형식(flac)과 샘플 레이트(44100Hz)를 설정해주고 인코딩을 진행합니다.
이렇게 해서 추출된 음성 파일은 학습에 필요한 보컬 부분만 추출하는 과정을 거치게됩니다. Ultimate Vocal Remover라는 프로그램을 통해 해보겠습니다.
Input에는 flac 파일들을 Output에는 보정 후 파일들이 들어갈 폴더를 지정합니다. Process Method로는 MDX-Net을 고르시면 되고 MDX-NET Model의 경우는 MDX23C를 사용하도록 합니다. 다른 모델이 사용하고 싶으시면 프로그램 내에서 추가로 다운로드하실 수도 있습니다.
이 과정들을 진행하시면 학습에 필요한 음성데이터는 완성됩니다. 그 다음으로는 학습에 사용할 대사 파일을 .txt의 형태로 준비해야합니다. 이 경우 OpenAI에서 제공하는 Whisper라는 코드를 사용하면 손쉽게 진행할 수 있습니다. 좀 더 편하게 그래픽 인터페이스로 진행하고 싶으신 분은 아래 링크의 Whisper-WebUI를 사용하셔도 무방합니다.
Whisper WebUI를 실행해보면 위와 같은 화면이 나오는데 여기서 Model은 large를 고릅니다. Language는 자신에게 맞는 언어, 파일 포맷은 .txt로 변환합니다. generate 버튼을 누르면 음성 파일의 대사를 인식하고 자동으로 .txt 파일로 정리해줍니다.
'심심풀이 > AI 음성' 카테고리의 다른 글
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습 (0) | 2024.01.03 |
---|---|
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습 세팅 (0) | 2024.01.03 |
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-데이터 준비하기(1) (0) | 2024.01.03 |
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-설치 (2) | 2024.01.03 |
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-개론 및 Vall-E (X) (0) | 2024.01.03 |