AI 2

데이터 전처리 과정 <2> | 반복 문자 정규화

들어가기 전반복문자를 처리하는 것은 참 까다롭습니다. 의미를 파악하는데 문자의 빈도수가 영향을 줄 때도 있고(아래에 자세히 서술) 때론 학습에 방해가 될 때도 있습니다. 그래서 저는 해당 포스트에서 반복문자가 들어간 문자열(이하 반복문자열)을 처리하는 정규표현식에 대해 설명하고자 합니다. 목차용어 설명정규화 과정에서 반복문자를 남겨야 하는 이유반복문자 정규화 기준 정의정규화 과정 1 - 반복문자 탐지정규화 과정 2 - 반복문자 교정하기정리 및 마무리1. 용어 설명1. 문장일반적인 문장을 의미합니다. 반복문자열이 포함될 수 있는 대상입니다."안녕하세요.", "재밌다 ㅋㅋㅋㅋㅋ", "어이가없네;;;;" , "ㅇㅇㄴㅇㅇㅇㄴㅇㅇㅇㄴㅇㅇㅇㄴㅇ" 2. 반복문자열기존 문자열에서 문자 또는 단어가 띄어쓰기 없이 반복적..

인공지능 2025.03.01

데이터 전처리 과정 <1> | 정규화 방식을 구상할 때 고려해야 할 점

들어가기 전_인공지능 분야에서 데이터는 모델을 형성하는 근간이라 할 수 있습니다. 인공지능은 데이터를 통해 학습하고 학습된 내용(가중치)을 기반으로 이해, 분류, 생성과 같은 다양한 문제에 접근할 수 있습니다. 다양한 문제에 사용하는 모델을 만들기 위해서는 질 좋은 데이터를 수집하고, 데이터에 있는 불순물을 정제해야하는 과정을 거쳐야 하는데요. 이때 인공지능 모델의 목적에 따라 데이터를 정제하는 방법이 다르기에 무턱대고 불용어(stopwords)제거나 띄어쓰기 교정, 이모지 제거와 같은 작업을 해서는 안됩니다. 단어 알아보기 - 정규화 | normalization "정규화 또는 정상화(normalization)는 어떤 대상을 일정한 규칙이나 기준에 따르는 ‘정규적인’ 상태로 바꾸거나, 비정상적인 대상을..

인공지능 2025.02.24
반응형