diff-svc 노래하는 인공지능 로컬 전처리 단계 (2)

인공지능

diff-svc 노래하는 인공지능 로컬 전처리 단계 (2)

yjlee06 2023. 6. 17. 14:56

만약 전 게시글을 보지 않았다면 본다음 해당 게시글을 봐주세요!
diff-svc 노래하는 인공지능 원리 & 로컬 환경설정 (tistory.com)

해당 게시글 (2)은 공식 가이드를 읽기 편하도록 변경한 것이며 문제가 생길시에는 가이드와 블로그를 함께 보시며 제작하신다면 더 빨리 이해하실수있습니다.

diff-svc 노래하는 인공지능 원리 & 로컬 환경설정

인터넷 방송이나 인공지능에 관심이 있다면 누구나 들어봤을 AI 인터넷 방송의 진행자의 목소리나 특정인물의 목소리를 통해 노래를 부르는 영상 보셨나요? 아래영상은 르세라핌 안티프래자일

devlany.tistory.com

diff-svc 모델을 사용하기위해서는

전처리 단계에서는 음성 파일이 필요하며

음성파일은 아래와 같은 조건을 지켜야 합니다.

1. 말하거나 노래하는 음성 데이터로 학습시킬 수 있음
2. 다른 음성이 섞이면 안 됨 (하나의 음성만 녹음되어야 함)

3. 오디오 파일은. wav 나. ogg 형식의 파일이 여야함
4. 학습할 오디오 파일은 5~15초 사이의 길이여야 함 (길이가 길수록 그래픽카드 자원을 더 소모함)
5. 학습할 오디오 데이터의 총길이는 최소 15분이며 권장은 1시간 분량이다.
6. 샘플링 레이트는 16kHz 이하면 안됨 (24kHz 이상의 품질 추천)

7. 파일이나 폴더에 띄어쓰기 x
8. 이름이 겹치는 파일 x
9. 파일이나 폴더의 이름은 꼭 영어로 작성되어야 함

1. 만약 음성 파일에 음성 이외의 소음이나 배경음악, 효과가 있을 경우

아래 사이트에서 무료로 제거할 수 있습니다.

Enhance Speech from Adobe | Free AI filter for cleaning up spoken audio

podcast.adobe.com

diff-svc를 학습시킨 영상을 보면 목소리의 크기가 불안정하게 들릴 때가 있습니다.

해당문제를 해결하고 싶은 분들은 아래의 프로그램을 통해 해결하실수 있습니다. (선택)

Audacity ® | Free, open source, cross-platform audio software for multi-track recording and editing. (audacityteam.org)

Home

Welcome to Audacity Audacity® is free, open source, cross-platform audio software for multi-track recording and editing. Audacity is available for Windows®, Mac®, GNU/Linux® and other operating systems. Check our feature list, Wiki and Forum. Download

www.audacityteam.org

해결 방법: 프로그램 실행 => 오디오 파일 가져오기 => 효과 탭 누르기 => 음량과 컴프레션 => 노멀라이즈 => 적용

2. 5~15초 사이로 음성 자르는 방법

아래의 사이트로 접속 후 slicer-gui.windows-v1.2.1.zip를 다운로드하으세요.
Releases · flutydeer/audio-slicer (github.com)

Releases · flutydeer/audio-slicer

A simple GUI application that slices audio with silence detection - flutydeer/audio-slicer

github.com

그다음으로 설치한 프로그램을 압축해제 후
. exe 파일을 실행시켜주세요.

실행한 다음 오디오 파일을 눌러주고
Minimum Length를
5~15초 사이의 시간을 ms단위로 넣어줍니다. (1초 = 1000ms)

그다음 apply를 눌러 진행하여 음성을 자를 수 있습니다.
그다음
diff-svc 폴더 안에 data 폴더를 생성합니다.
data 폴더 안에 raw 폴더를 생성하고
오디오 데이터를 raw 폴더 안에 넣어줍니다.

3. 전처리 단계

diff-svc 폴더 안에 training 폴더에서
전 블로그에서 향상된 음질을 위해
nsf_hifigan_20221211.zip 을 다운받으신 분들은

config_nsf.yaml파일을 수정해주세요.

아닌 분들은 config_nsf.yaml

config.yaml을 수정해주시면 됩니다.

수정 내용

*수정 전

binary_data_dir: data/binary/nyaru //atri

raw_data_dir: data/raw/nyaru //atri

speaker_id: nyaru //atri

work_dir: checkpoints/nyaru //atri

max_sentences: 88

*수정 후

binary_data_dir: data/binary/{사용자 지정}

raw_data_dir: data/raw

speaker_id: {사용자 지정}

work_dir: checkpoints/{사용자 지정}

max_sentences: 6 // batch size를 지정 최소:6 권장:12 
                 // 그래픽 카드 전용 메모리를 기준으로 정하면 됩니다!

그 다음

커맨드 창을 실행시켜주고 diff-svc폴더 위치로 이동합니다. (파워쉘 x)
그다음 아래 커맨드를 실행시켜줍니다.

*일반 음질

set PYTHONPATH=.
set CUDA_VISIBLE_DEVICES=0
python preprocessing/binarize.py --config training/config.yaml

*고급 음질

set PYTHONPATH=.
set CUDA_VISIBLE_DEVICES=0
python preprocessing/binarize.py --config training/config_nsf.yaml

혹시 하다가 문제가 생긴다면
아래의 사이트를 참조해주세요.
Preprocessing - The Beginner's Guide to Diff-SVC (gitbook.io)

Preprocessing - The Beginner's Guide to Diff-SVC

In the training folder, make a backup copy of config.yaml if you are using the 24kHz vocoder, or config_nsf.yaml if you are using the 44.1kHz vocoder, then open it with a text editor.

diff-svc.gitbook.io

다음 게시글에서는 diff-svc를 학습시키는 방법에 대해 알려드리겠습니다.

'인공지능' 카테고리의 다른 글

인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 1번째 (전처리 단계) (0)	2023.07.20
한국어 비속어 데이터셋 모음 + (비속어 정규식) (0)	2023.07.20
강력한 음성변조 모델 RVC ai 사용하기 (환경설정 및 실행) (0)	2023.07.09
diff-svc 노래하는 인공지능 로컬 학습 단계 & 결과 (3) (0)	2023.06.17
diff-svc 노래하는 인공지능 원리 & 로컬 환경설정 (1) (8)	2023.06.15

현재글diff-svc 노래하는 인공지능 로컬 전처리 단계 (2)