인공지능

한국어 비속어 데이터셋 모음 + (비속어 정규식)

yjlee06 2023. 7. 20. 04:21
반응형

인공지능 개발목적으로 비윤리 문장 데이터셋이 필요한 분들을 위해

제가 찾은 모든 데이터셋을 모아두었습니다.

 

필요하신분들은 각 데이터셋의 라이센스를 잘 확인하신 후

사용하셔야합니다!

 

한국어 비윤리 문장 데이터셋

AI_HUB 텍스트 윤리검증 데이터 레이블된 비윤리 문장 수: 250,307
유형:
총 7개로 분류됨 (ex. CENSURE,HATE,SEXUAL...)

레이블된 비윤리 아닌 문장 수:200,803
유형: 1개로 분류됨 (ex. IS_MORAL)
욕설 감지 데이터셋 레이블된 문장 수: 5,825

비윤리 문장 구분 여부

비윤리 아님 = 0
비윤리 = 1
Korean HateSpeech Dataset 레이블된 문장 수: 9,381

비윤리 문장 구분 여부

비윤리 아님 = none
비윤리 = hate, offensive

응용가능한 레이블 되지 않은 문장 수:
2,033,893

APEACH - Korean Hate Speech Evaluation Datasets 레이블된 문장 수: 3,845
Naver sentiment movie corpus v1.0 레이블된 문장 수: 200,000

비윤리 문장 구분 여부

비윤리 아님 = 1
비윤리 = 0
Korean Multi-label Hate Speech Dataset 레이블된 문장 수: 109,692
유형:
 총 2개로 분류됨 [Hate Speech / Not Hate Speech]

Hate Speech 레이블은 총 8개의 하위 클래스로 분류됨

Dataset of Korean Threatening Conversations 레이블된 문장 수: 4,000 이상
유형: 총 5개로 분류됨
(ex. 협박, 갈취, 직장 내 괴롭힘, 기타 괴롭힘, 일반)
Korean UnSmile Dataset 레이블된 비윤리 문장 수: 14,068
유형: 총 9개로 분류됨
(ex. 여성/가족, 남성, 성소수자, 인종/국적, 연령...)

레이블된 비윤리 아닌 문장 수:4,674
유형: 총 1개로 분류됨
(ex. Clean)
Korean Offensive Language Dataset 유형: 총 8개로 분류됨
(ex. Gender & Sexual Orientation, Race ....)

여기에 있는 데이터셋은 단어가 아닌 문장위주로 구성되어있을 확률이 높습니다.

 

비속어 단어를 찾고 계신 분들은 아래의 데이터셋을 참하세요!

 

 

기타 비윤리 단어 데이터셋

자주쓰는 최신 비속어 리스트 비속어 단어 리스트
badwords.json 비속어 단어 리스트

 

 

추가적으로 비윤리 단어 필터 정규식이 필요하신 분들은 아래의 사이트를 확인하세요!

https://github.com/curioustorvald/KoreanCursewordRegex

 

GitHub - curioustorvald/KoreanCursewordRegex: Regex for Korean curseword filtering

Regex for Korean curseword filtering. Contribute to curioustorvald/KoreanCursewordRegex development by creating an account on GitHub.

github.com