반응형
인공지능 개발목적으로 비윤리 문장 데이터셋이 필요한 분들을 위해
제가 찾은 모든 데이터셋을 모아두었습니다.
필요하신분들은 각 데이터셋의 라이센스를 잘 확인하신 후
사용하셔야합니다!
한국어 비윤리 문장 데이터셋
AI_HUB 텍스트 윤리검증 데이터 | 레이블된 비윤리 문장 수: 250,307 유형: 총 7개로 분류됨 (ex. CENSURE,HATE,SEXUAL...) 레이블된 비윤리 아닌 문장 수:200,803 유형: 1개로 분류됨 (ex. IS_MORAL) |
욕설 감지 데이터셋 | 레이블된 문장 수: 5,825 비윤리 문장 구분 여부 비윤리 아님 = 0 비윤리 = 1 |
Korean HateSpeech Dataset | 레이블된 문장 수: 9,381 비윤리 문장 구분 여부 비윤리 아님 = none 비윤리 = hate, offensive 응용가능한 레이블 되지 않은 문장 수: 2,033,893 |
APEACH - Korean Hate Speech Evaluation Datasets | 레이블된 문장 수: 3,845 |
Naver sentiment movie corpus v1.0 | 레이블된 문장 수: 200,000 비윤리 문장 구분 여부 비윤리 아님 = 1 비윤리 = 0 |
Korean Multi-label Hate Speech Dataset | 레이블된 문장 수: 109,692 유형: 총 2개로 분류됨 [Hate Speech / Not Hate Speech] Hate Speech 레이블은 총 8개의 하위 클래스로 분류됨 |
Dataset of Korean Threatening Conversations | 레이블된 문장 수: 4,000 이상 유형: 총 5개로 분류됨 (ex. 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘, 일반) |
Korean UnSmile Dataset | 레이블된 비윤리 문장 수: 14,068 유형: 총 9개로 분류됨 (ex. 여성/가족, 남성, 성소수자, 인종/국적, 연령...) 레이블된 비윤리 아닌 문장 수:4,674 유형: 총 1개로 분류됨 (ex. Clean) |
Korean Offensive Language Dataset | 유형: 총 8개로 분류됨 (ex. Gender & Sexual Orientation, Race ....) |
여기에 있는 데이터셋은 단어가 아닌 문장위주로 구성되어있을 확률이 높습니다.
비속어 단어를 찾고 계신 분들은 아래의 데이터셋을 참하세요!
기타 비윤리 단어 데이터셋
자주쓰는 최신 비속어 리스트 | 비속어 단어 리스트 |
badwords.json | 비속어 단어 리스트 |
추가적으로 비윤리 단어 필터 정규식이 필요하신 분들은 아래의 사이트를 확인하세요!
https://github.com/curioustorvald/KoreanCursewordRegex
GitHub - curioustorvald/KoreanCursewordRegex: Regex for Korean curseword filtering
Regex for Korean curseword filtering. Contribute to curioustorvald/KoreanCursewordRegex development by creating an account on GitHub.
github.com
'인공지능' 카테고리의 다른 글
인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 2번째 (학습 단계) (0) | 2023.07.22 |
---|---|
인공지능을 이용한 딥러닝 욕설 필터링 모델 만들기 - 1번째 (전처리 단계) (0) | 2023.07.20 |
강력한 음성변조 모델 RVC ai 사용하기 (환경설정 및 실행) (0) | 2023.07.09 |
diff-svc 노래하는 인공지능 로컬 학습 단계 & 결과 (3) (0) | 2023.06.17 |
diff-svc 노래하는 인공지능 로컬 전처리 단계 (2) (0) | 2023.06.17 |