인공지능

데이터 전처리 과정 <1> | 정규화 방식을 구상할 때 고려해야 할 점

yjlee06 2025. 2. 24. 19:07
반응형

들어가기 전_

인공지능 분야에서 데이터는 모델을 형성하는 근간이라 할 수 있습니다. 인공지능은 데이터를 통해 학습하고, 학습된 내용(가중치)을 기반으로 이해, 분류, 생성과 같은 다양한 문제에 접근할 수 있습니다.
 
다양한 문제에 사용하는 모델을 만들기 위해서는 질 좋은 데이터를 수집하고, 데이터에 있는 불순물을 정제해야하는 과정을 거쳐야 하는데요. 이때 인공지능 모델의 목적에 따라 데이터를 정제하는 방법이 다르기에 무턱대고 불용어(stopwords)제거나 띄어쓰기 교정, 이모지 제거와 같은 작업을 해서는 안됩니다.
 

단어 알아보기 - 정규화 | normalization

"정규화 또는 정상화(normalization)는 어떤 대상을 일정한 규칙이나 기준에 따르는 ‘정규적인’ 상태로 바꾸거나, 비정상적인 대상을 정상적으로 되돌리는 과정을 뜻한다."

위키백과에서는 위와 같이 정의하고 있습니다. 즉 다시 말해 오타, 문법오류가 있는 문장을 교정하는 작업과 같은 행위나 반복적이거나 비슷한 데이터를 처리하여 과적합을 피하는 방식 또한 정규화에 해당합니다.
 
쉽게 말하자면 전처리 과정은 어떠한 목표를 달성하기 위하여 데이터를 최적의 상태로 정규화시키는 것이라 할 수 있겠습니다.

 

전처리 과정에서 적절한 정규화는 무엇일까?

데이터 정규화 과정은 모델이 해결하려는 문제가 어떠한 정보를 필요로 하는지에 따라 달라집니다. 아래의 두 가지 케이스로 예를 들어보겠습니다.

 

여기서 언급되는 데이터는 html 태그(크롤링 데이터에 포함되어 오는 요소)와 같은 정보는 정제된 상태로 가정합니다.
 

정규화를 최소화 해야하는 경우 

감정분석을 하는데 이모티콘이나 특수기호와 같이 문장에 포함된 감정에 관련된 정보를 제거한다면 모델이 감정에 관련된 정보를 덜 학습하게 될 수 있어 성능이 떨어질 수 있습니다. 그러기에 문장의 하나하나 요소가 중요한 정보라면 정규화를 최소한으로 진행합니다. 하지만 성능을 일부 포기해서라도 정규화를 강행해야 하는 경우가 있습니다.

0.1 데이터 부족은 어쩔 수 없죠

만약 데이터가 충분하지 않다고 판단되는 경우 손실을 감안하고 강력한 전처리를 진행해야할 수 있습니다. 이때 적절한 전처리 방식을 찾기 위해서는 전처리 절차를 다양하게 구성하여 모델을 학습시키는 것이 좋습니다.

0.2 절차를 다양하게 구성하다?

예를 들면 인공지능 모델을 통하여 말뭉치에서 단어를 추출한 후 띄어쓰기 교정 작업을 진행한 후 vocab을 생성할 수도 있습니다. 아니면 띄어쓰기 교정 모델, 오타 교정 모델을 활용할 수도 있죠.

0.3 그리하여...

다양한 전처리 과정을 구상하여 모델의 성능 지표(ex. f1 score)에 따라 어떠한 정규화(전처리) 방식이 좋은 성능을 내는 지 비교하여 최상의 결과를 도출할 수 있습니다.
 

전처리를 해야 효율이 높아지는 경우

문장을 분석하여 요약하는 작업에서는 비교적 작은 요소가 전반적인 요약 내용에 영향을 적게 주기 때문에 특수한 상황이 아니라면 중요 키워드를 제외한 나머지 정보들은 제거하는 것이 효율적일 수도 있습니다. 이외에 전반적인 흐름을 학습하는 작업에서는 불순물을 제거하는 것이 중요한 사안이기도 합니다.
 

전처리 과정에서 사용되는 정규화 방식
도구와 같습니다.

띄어쓰기 교정, 문법 교정, 불용어 제거, 대문자 처리, 특수문자 제거.. 등등 전처리 방식은 무수히 많습니다. 좋다고 무턱대고 사용하다간 오히려 독이 될 수 있죠. 그러기에 왜 사용하는가, 사용을 안 한다면(혹은 한다면) 어떠한 영향이 있는가를 알아간다면 더욱 좋을 것 같습니다.