한국어 비속어 데이터셋 모음 + (비속어 정규식)

인공지능

한국어 비속어 데이터셋 모음 + (비속어 정규식)

yjlee06 2023. 7. 20. 04:21

인공지능 개발목적으로 비윤리 문장 데이터셋이 필요한 분들을 위해

제가 찾은 모든 데이터셋을 모아두었습니다.

필요하신분들은 각 데이터셋의 라이센스를 잘 확인하신 후

사용하셔야합니다!

한국어 비윤리 문장 데이터셋

AI_HUB 텍스트 윤리검증 데이터	레이블된 비윤리 문장 수: 250,307 유형: 총 7개로 분류됨 (ex. CENSURE,HATE,SEXUAL...) 레이블된 비윤리 아닌 문장 수:200,803 유형: 1개로 분류됨 (ex. IS_MORAL)
욕설 감지 데이터셋	레이블된 문장 수: 5,825 비윤리 문장 구분 여부 비윤리 아님 = 0 비윤리 = 1
Korean HateSpeech Dataset	레이블된 문장 수: 9,381 비윤리 문장 구분 여부 비윤리 아님 = none 비윤리 = hate, offensive 응용가능한 레이블 되지 않은 문장 수: 2,033,893
APEACH - Korean Hate Speech Evaluation Datasets	레이블된 문장 수: 3,845
Naver sentiment movie corpus v1.0	레이블된 문장 수: 200,000 비윤리 문장 구분 여부 비윤리 아님 = 1 비윤리 = 0
Korean Multi-label Hate Speech Dataset	레이블된 문장 수: 109,692 유형: 총 2개로 분류됨 [Hate Speech / Not Hate Speech] Hate Speech 레이블은 총 8개의 하위 클래스로 분류됨
Dataset of Korean Threatening Conversations	레이블된 문장 수: 4,000 이상 유형: 총 5개로 분류됨 (ex. 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘, 일반)
Korean UnSmile Dataset	레이블된 비윤리 문장 수: 14,068 유형: 총 9개로 분류됨 (ex. 여성/가족, 남성, 성소수자, 인종/국적, 연령...) 레이블된 비윤리 아닌 문장 수:4,674 유형: 총 1개로 분류됨 (ex. Clean)
Korean Offensive Language Dataset	유형: 총 8개로 분류됨 (ex. Gender & Sexual Orientation, Race ....)

여기에 있는 데이터셋은 단어가 아닌 문장위주로 구성되어있을 확률이 높습니다.

비속어 단어를 찾고 계신 분들은 아래의 데이터셋을 참하세요!

기타 비윤리 단어 데이터셋

자주쓰는 최신 비속어 리스트	비속어 단어 리스트
badwords.json	비속어 단어 리스트

추가적으로 비윤리 단어 필터 정규식이 필요하신 분들은 아래의 사이트를 확인하세요!

https://github.com/curioustorvald/KoreanCursewordRegex

GitHub - curioustorvald/KoreanCursewordRegex: Regex for Korean curseword filtering

Regex for Korean curseword filtering. Contribute to curioustorvald/KoreanCursewordRegex development by creating an account on GitHub.

github.com

'인공지능' 카테고리의 다른 글

인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 2번째 (학습 단계) (0)	2023.07.22
인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 1번째 (전처리 단계) (0)	2023.07.20
강력한 음성변조 모델 RVC ai 사용하기 (환경설정 및 실행) (0)	2023.07.09
diff-svc 노래하는 인공지능 로컬 학습 단계 & 결과 (3) (0)	2023.06.17
diff-svc 노래하는 인공지능 로컬 전처리 단계 (2) (0)	2023.06.17

현재글한국어 비속어 데이터셋 모음 + (비속어 정규식)

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

한국어 비속어 데이터셋 모음 + (비속어 정규식)

한국어 비윤리 문장 데이터셋

기타 비윤리 단어 데이터셋

'인공지능' 카테고리의 다른 글

'인공지능'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

한국어 비속어 데이터셋 모음 + (비속어 정규식)

한국어 비윤리 문장 데이터셋

기타 비윤리 단어 데이터셋

'인공지능' 카테고리의 다른 글

'인공지능'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역