만약 전 게시글을 보지 않았다면 본다음 해당 게시글을 봐주세요!
diff-svc 노래하는 인공지능 원리 & 로컬 환경설정 (tistory.com)
해당 게시글 (2)은 공식 가이드를 읽기 편하도록 변경한 것이며 문제가 생길시에는 가이드와 블로그를 함께 보시며 제작하신다면 더 빨리 이해하실수있습니다.
diff-svc 노래하는 인공지능 원리 & 로컬 환경설정
인터넷 방송이나 인공지능에 관심이 있다면 누구나 들어봤을 AI 인터넷 방송의 진행자의 목소리나 특정인물의 목소리를 통해 노래를 부르는 영상 보셨나요? 아래영상은 르세라핌 안티프래자일
devlany.tistory.com
diff-svc 모델을 사용하기위해서는
전처리 단계에서는 음성 파일이 필요하며
음성파일은 아래와 같은 조건을 지켜야 합니다.
1. 말하거나 노래하는 음성 데이터로 학습시킬 수 있음
2. 다른 음성이 섞이면 안 됨 (하나의 음성만 녹음되어야 함)
3. 오디오 파일은. wav 나. ogg 형식의 파일이 여야함
4. 학습할 오디오 파일은 5~15초 사이의 길이여야 함 (길이가 길수록 그래픽카드 자원을 더 소모함)
5. 학습할 오디오 데이터의 총길이는 최소 15분이며 권장은 1시간 분량이다.
6. 샘플링 레이트는 16kHz 이하면 안됨 (24kHz 이상의 품질 추천)
7. 파일이나 폴더에 띄어쓰기 x
8. 이름이 겹치는 파일 x
9. 파일이나 폴더의 이름은 꼭 영어로 작성되어야 함
1. 만약 음성 파일에 음성 이외의 소음이나 배경음악, 효과가 있을 경우
아래 사이트에서 무료로 제거할 수 있습니다.
Enhance Speech from Adobe | Free AI filter for cleaning up spoken audio
Enhance Speech from Adobe | Free AI filter for cleaning up spoken audio
podcast.adobe.com
diff-svc를 학습시킨 영상을 보면 목소리의 크기가 불안정하게 들릴 때가 있습니다.
해당문제를 해결하고 싶은 분들은 아래의 프로그램을 통해 해결하실수 있습니다. (선택)
Home
Welcome to Audacity Audacity® is free, open source, cross-platform audio software for multi-track recording and editing. Audacity is available for Windows®, Mac®, GNU/Linux® and other operating systems. Check our feature list, Wiki and Forum. Download
www.audacityteam.org
해결 방법: 프로그램 실행 => 오디오 파일 가져오기 => 효과 탭 누르기 => 음량과 컴프레션 => 노멀라이즈 => 적용
2. 5~15초 사이로 음성 자르는 방법
아래의 사이트로 접속 후 slicer-gui.windows-v1.2.1.zip를 다운로드하으세요.
Releases · flutydeer/audio-slicer (github.com)
Releases · flutydeer/audio-slicer
A simple GUI application that slices audio with silence detection - flutydeer/audio-slicer
github.com
그다음으로 설치한 프로그램을 압축해제 후
. exe 파일을 실행시켜주세요.
실행한 다음 오디오 파일을 눌러주고
Minimum Length를
5~15초 사이의 시간을 ms단위로 넣어줍니다. (1초 = 1000ms)
그다음 apply를 눌러 진행하여 음성을 자를 수 있습니다.
그다음
diff-svc 폴더 안에 data 폴더를 생성합니다.
data 폴더 안에 raw 폴더를 생성하고
오디오 데이터를 raw 폴더 안에 넣어줍니다.
3. 전처리 단계
diff-svc 폴더 안에 training 폴더에서
전 블로그에서 향상된 음질을 위해
nsf_hifigan_20221211.zip 을 다운받으신 분들은
config_nsf.yaml파일을 수정해주세요.
아닌 분들은 config_nsf.yaml
config.yaml을 수정해주시면 됩니다.
수정 내용
*수정 전
binary_data_dir: data/binary/nyaru //atri
raw_data_dir: data/raw/nyaru //atri
speaker_id: nyaru //atri
work_dir: checkpoints/nyaru //atri
max_sentences: 88
*수정 후
binary_data_dir: data/binary/{사용자 지정}
raw_data_dir: data/raw
speaker_id: {사용자 지정}
work_dir: checkpoints/{사용자 지정}
max_sentences: 6 // batch size를 지정 최소:6 권장:12
// 그래픽 카드 전용 메모리를 기준으로 정하면 됩니다!
그 다음
커맨드 창을 실행시켜주고 diff-svc폴더 위치로 이동합니다. (파워쉘 x)
그다음 아래 커맨드를 실행시켜줍니다.
*일반 음질
set PYTHONPATH=.
set CUDA_VISIBLE_DEVICES=0
python preprocessing/binarize.py --config training/config.yaml
*고급 음질
set PYTHONPATH=.
set CUDA_VISIBLE_DEVICES=0
python preprocessing/binarize.py --config training/config_nsf.yaml
혹시 하다가 문제가 생긴다면
아래의 사이트를 참조해주세요.
Preprocessing - The Beginner's Guide to Diff-SVC (gitbook.io)
Preprocessing - The Beginner's Guide to Diff-SVC
In the training folder, make a backup copy of config.yaml if you are using the 24kHz vocoder, or config_nsf.yaml if you are using the 44.1kHz vocoder, then open it with a text editor.
diff-svc.gitbook.io
다음 게시글에서는 diff-svc를 학습시키는 방법에 대해 알려드리겠습니다.
'인공지능' 카테고리의 다른 글
인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 1번째 (전처리 단계) (0) | 2023.07.20 |
---|---|
한국어 비속어 데이터셋 모음 + (비속어 정규식) (0) | 2023.07.20 |
강력한 음성변조 모델 RVC ai 사용하기 (환경설정 및 실행) (0) | 2023.07.09 |
diff-svc 노래하는 인공지능 로컬 학습 단계 & 결과 (3) (0) | 2023.06.17 |
diff-svc 노래하는 인공지능 원리 & 로컬 환경설정 (1) (8) | 2023.06.15 |