본문 바로가기

심심풀이15

토오사카 린 TTS(EasyBertVits2) 학습 샘플 EasyBertVits2를 통해서 학습한 토오사카 린 캐릭터의 TTS 샘플입니다. 대략 20분 정도의 학습 데이터를 준비했고 6000 iterations를 거친 모델을 사용했습니다. この野郎......そんな腕前を持ちながら、こんなことをするのか? お前の剣には、決定的にプライドが欠けているぞ!? 이 자식... 그런 실력을 가졌으면서 이런 짓을 하는 거냐? 니 녀석의 검엔 말이다, 결정적으로 긍지가 빠져있어! ええぃ!連邦軍のモビルスーツは化け物か! 에에잇! 연방의 MS는 괴물인가! 新しい時代をつくるのは老人ではない! アクシズ、 行け! 忌まわしい記憶と共に! 새로운 시대를 만드는 건 노인이 아냐! 액시즈, 가라! 추악한 기억들과 함께! 春は夜桜、夏は星、秋は満月、冬は雪。それだけでも酒は十分に美味しいものだ。 それでも美味しくない.. 2024. 1. 4.
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습 EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습(3) 이제 마지막으로 학습 데이터를 지정된 위치에 넣어주고 파라미터 값을 적절하게 수정하여 학습 코드를 실행시키면 됩니다. 먼저 EasyBertVits2 폴더에 있는 Download-LearningSample-JVNV.bat을 실행해서 학 joonnotes.tistory.com 이전 포스트처럼 학습 폴더의 구조와 파일을 정리해놓았다면 Learn.bat 파일을 실행해 학습을 시작합니다. 걸리는 시간은 8GB VRAM 기준 평균 1.7 sec/iteration 이 나옵니다. 다만 음성 파일의 길이가 2-4초인 것이 대다수라 일반적으로는 더 느린 속도가 나올 것입니다. 따라서 2000iteration 기준 대략 150분 정도의 시간을 예.. 2024. 1. 3.
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습 세팅 EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습(2) 이제 추출한 영상을 flac으로 1차변환해주고 잡음 제거를 거쳐 wav파일로 완성해주면 됩니다. 샤나인코더와 같은 인코딩 프로그램을 열어서 분리된 영상들을 넣어줍니다. 이 프로그램의 경우 빠 joonnotes.tistory.com 이제 마지막으로 학습 데이터를 지정된 위치에 넣어주고 파라미터 값을 적절하게 수정하여 학습 코드를 실행시키면 됩니다. 먼저 EasyBertVits2 폴더에 있는 Download-LearningSample-JVNV.bat을 실행해서 학습 샘플을 다운로드합니다. Bert-VITS2/Data/JVNV-F2 폴더에 파일들이 다운로드되는데 여기있는 파일들을 복사 붙여넣기해서 새로운 학습에 사용할 것입니다. T.. 2024. 1. 3.
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-데이터 준비하기(2) EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-학습(1) 앞선 글에서는 미리 준비되어있는 모델 파일을 이용했다면 이번에는 내가 원하는 캐릭터의 목소리를 이용한 모델을 만드는 방법을 다루어보겠습니다. 1) 데이터 준비하기 준비해야하는 데이터 joonnotes.tistory.com 이제 추출한 영상을 flac으로 1차변환해주고 잡음 제거를 거쳐 wav파일로 완성해주면 됩니다. 샤나인코더와 같은 인코딩 프로그램을 열어서 분리된 영상들을 넣어줍니다. 이 프로그램의 경우 빠른 설정 버튼을 통해 옵션에 진입해서 파일 형식(flac)과 샘플 레이트(44100Hz)를 설정해주고 인코딩을 진행합니다. 이렇게 해서 추출된 음성 파일은 학습에 필요한 보컬 부분만 추출하는 과정을 거치게됩니다. Ultim.. 2024. 1. 3.
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-데이터 준비하기(1) EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-설치 EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-개론 및 Vall-E (X) 인공지능 기술의 발전과 더불어 이미지, 음성, 영상 등을 학습하고 생성하는 기술이 나날이 발전하고 새로워지고 있습니다. joonnotes.tistory.com 앞선 글에서는 미리 준비되어있는 모델 파일을 이용했다면 이번에는 내가 원하는 캐릭터의 목소리를 이용한 모델을 만드는 방법을 다루어보겠습니다. 1) 데이터 준비하기 준비해야하는 데이터는 크게 두 가지입니다. 1. 3~15초 내외의 음성데이터(wav) 2. 해당 음성데이터의 대본 Bert-VITS2는 음성데이터와 대본의 텍스트를 매칭시켜 학습하는 방식을 취하고 있고 대략 20분 분량의.. 2024. 1. 3.
EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-설치 EasyBertVits2를 이용해 애니메이션 캐릭터의 TTS 만들기-개론 및 Vall-E (X) 인공지능 기술의 발전과 더불어 이미지, 음성, 영상 등을 학습하고 생성하는 기술이 나날이 발전하고 새로워지고 있습니다. 유튜브에서 단순히 유명인의 목소리로 노래를 부르는 영상만이 아니 joonnotes.tistory.com 이전 글에서는 뛰어난 편의성과 속도를 보인 Vall-E (X)를 테스트해보았습니다. 확실히 간편하다는 측면에서는 좋았으나 결과물이 너무나도 조악해서 기대했던 퀄리티에는 미치지 못했는데요. 이번에는 다소 편의성은 떨어지지만 더 뛰어난 학습 성능을 보이는 EasyBertVits2를 다루어보려합니다. 1.3 EasyBertVits2 EasyBertVits2는 나누어서 읽으면 Easy/Bert/V.. 2024. 1. 3.