인공지능 9

데이터 전처리 과정 <2> | 반복 문자 정규화

들어가기 전반복문자를 처리하는 것은 참 까다롭습니다. 의미를 파악하는데 문자의 빈도수가 영향을 줄 때도 있고(아래에 자세히 서술) 때론 학습에 방해가 될 때도 있습니다. 그래서 저는 해당 포스트에서 반복문자가 들어간 문자열(이하 반복문자열)을 처리하는 정규표현식에 대해 설명하고자 합니다. 목차용어 설명정규화 과정에서 반복문자를 남겨야 하는 이유반복문자 정규화 기준 정의정규화 과정 1 - 반복문자 탐지정규화 과정 2 - 반복문자 교정하기정리 및 마무리1. 용어 설명1. 문장일반적인 문장을 의미합니다. 반복문자열이 포함될 수 있는 대상입니다."안녕하세요.", "재밌다 ㅋㅋㅋㅋㅋ", "어이가없네;;;;" , "ㅇㅇㄴㅇㅇㅇㄴㅇㅇㅇㄴㅇㅇㅇㄴㅇ" 2. 반복문자열기존 문자열에서 문자 또는 단어가 띄어쓰기 없이 반복적..

인공지능 2025.03.01

데이터 전처리 과정 <1> | 정규화 방식을 구상할 때 고려해야 할 점

들어가기 전_인공지능 분야에서 데이터는 모델을 형성하는 근간이라 할 수 있습니다. 인공지능은 데이터를 통해 학습하고, 학습된 내용(가중치)을 기반으로 이해, 분류, 생성과 같은 다양한 문제에 접근할 수 있습니다. 다양한 문제에 사용하는 모델을 만들기 위해서는 질 좋은 데이터를 수집하고, 데이터에 있는 불순물을 정제해야하는 과정을 거쳐야 하는데요. 이때 인공지능 모델의 목적에 따라 데이터를 정제하는 방법이 다르기에 무턱대고 불용어(stopwords)제거나 띄어쓰기 교정, 이모지 제거와 같은 작업을 해서는 안됩니다. 단어 알아보기 - 정규화 | normalization "정규화 또는 정상화(normalization)는 어떤 대상을 일정한 규칙이나 기준에 따르는 ‘정규적인’ 상태로 바꾸거나, 비정상적인 대상..

인공지능 2025.02.24

인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 2번째 (학습 단계)

저번 포스팅에서 설치했던 라이브러리를 이용하여 모델을 강화학습을 진행하겠습니다. 1. 사전에 필요한 모듈 및 토큰나이저를 불러옵니다. from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score from transformers import EarlyStoppingCallback, BertForSequenceClassification import numpy as np from kobert_tokenizer import KoBERTTokenizer from datasets import Dataset from transformers import TrainingArguments, Trainer tokenizer = KoBE..

인공지능 2023.07.22

인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 1번째 (전처리 단계)

디스코드에서 메시지에 혐오표현(성,정치,종교,지역 차별 및 비속어)이 있을때 유연하게 필터링 할수있는 방법이 무엇이 있을까? 라는 고민을 하면서 방법을 찾던 도중 총 2가지의 방안에 대해 생각하였습니다. 첫번째는 데이터 베이스에 비속어와 비속어의 백터값을 저장한다음 특정범위안에서 비슷한 값이 존재할경우 필터링하는 방법 두번째는 한국어로 파인튜닝된 딥러닝 모델을 파인튜닝하여 비속어를 판단하여 필터링하는 방법 " 위의 방법중 유연하게 필터링 할수있는가 " 라는 질문에 부합하는 방법은 두번째 방법이라 생각하여 선택하게 되었습니다. 준비물 파이썬 준비 버전 3.8 이상 필수 라이브러리 test / train 데이터셋 분류 pip install -U scikit-learn 신조어 파악 및 sentence 전처리 ..

인공지능 2023.07.20

한국어 비속어 데이터셋 모음 + (비속어 정규식)

인공지능 개발목적으로 비윤리 문장 데이터셋이 필요한 분들을 위해 제가 찾은 모든 데이터셋을 모아두었습니다. 필요하신분들은 각 데이터셋의 라이센스를 잘 확인하신 후 사용하셔야합니다! 한국어 비윤리 문장 데이터셋 AI_HUB 텍스트 윤리검증 데이터 레이블된 비윤리 문장 수: 250,307 유형: 총 7개로 분류됨 (ex. CENSURE,HATE,SEXUAL...) 레이블된 비윤리 아닌 문장 수:200,803 유형: 1개로 분류됨 (ex. IS_MORAL) 욕설 감지 데이터셋 레이블된 문장 수: 5,825 비윤리 문장 구분 여부 비윤리 아님 = 0 비윤리 = 1 Korean HateSpeech Dataset 레이블된 문장 수: 9,381 비윤리 문장 구분 여부 비윤리 아님 = none 비윤리 = hate, o..

인공지능 2023.07.20

diff-svc 노래하는 인공지능 로컬 학습 단계 & 결과 (3)

diff-svc 인공지능을 학습하기 위해 준비한 데이터를 학습할수있도록 명령어를 실행 시켜 줍니다. 해당 부분은 Inference - The Beginner's Guide to Diff-SVC (gitbook.io)을 참고하시면서 보시는 것을 추천합니다. 해당 게시글 (3)은 공식 가이드를 읽기 편하도록 변경한 것이며 문제가 생길시에는 가이드와 블로그를 함께 보시며 제작하신다면 더 빨리 이해하실수있습니다. set CUDA_VISIBLE_DEVICES=0 python run.py --config training/config_nsf.yaml --exp_name {project_name} --reset 22kHz의 경우 config.yaml을 사용하고 44.1kHz 의 경우 config_nsf.yaml을 사용..

인공지능 2023.06.17

diff-svc 노래하는 인공지능 로컬 전처리 단계 (2)

만약 전 게시글을 보지 않았다면 본다음 해당 게시글을 봐주세요! diff-svc 노래하는 인공지능 원리 & 로컬 환경설정 (tistory.com) 해당 게시글 (2)은 공식 가이드를 읽기 편하도록 변경한 것이며 문제가 생길시에는 가이드와 블로그를 함께 보시며 제작하신다면 더 빨리 이해하실수있습니다. diff-svc 노래하는 인공지능 원리 & 로컬 환경설정 인터넷 방송이나 인공지능에 관심이 있다면 누구나 들어봤을 AI 인터넷 방송의 진행자의 목소리나 특정인물의 목소리를 통해 노래를 부르는 영상 보셨나요? 아래영상은 르세라핌 안티프래자일 devlany.tistory.com diff-svc 모델을 사용하기위해서는 전처리 단계에서는 음성 파일이 필요하며 음성파일은 아래와 같은 조건을 지켜야 합니다. 1. 말하거..

인공지능 2023.06.17

diff-svc 노래하는 인공지능 원리 & 로컬 환경설정 (1)

인터넷 방송이나 인공지능에 관심이 있다면 누구나 들어봤을 AI 인터넷 방송의 진행자의 목소리나 특정인물의 목소리를 통해 노래를 부르는 영상 보셨나요? 해당 기술은 노래의 원래 음성을 자신이 원하는 음성으로 바꿀 수 있게하는 기술입니다 해당 기술을 사용할려면 어떻게 해야 할까? 전문적인 지식이 필요한가? 아니면 고사양의 컴퓨터가 필요한가? 컴퓨터 사양은 어느 정도 좋아야 하지만 전문적인 지식 없이도 쉽게 만들 수 있습니다. 이제부터 diff-svc의 원리와 만드는 법에 대해 설명하겠습니다. 1. diff-svc란 무엇인가? Singing Voice Conversion via diffusion model 즉 노래의 음성을 변환해 주는 diffusion 인공지능 모델을 의미한다. 여기서 diffusion인공지..

인공지능 2023.06.15
반응형