세상에 잘 정제된 데이터만 있으면 얼마나 좋을까요? 하지만 그건 너무 비현실적입니다. 그래도 우리는 이런 쉽지 않은 데이터를 기반으로 유의미한 예측을 하고 분류를 진행해야 합니다. 결측값이 너무 많다거나, 데이터의 이상치가 너무 크거나, 아니면 데이터의 분포가 한쪽으로 쏠리는 등 업무현장에서 많이 마주하게 됩니다. 1. 클래스불균형이란 그 중 제가 첫번째로 잡은 주제는 클래스 불균형 , 예측하려고 하는 클래스가 불균형한(한쪽으로 쏠린) 데이터셋를 가지고 분류를해야 할 때 입니다. 대표적인 예가 "고장분류" 입니다. 어떤 상품이 고장인지 정상인지 분류하는 데이터가 있다고 하면, 아마 98%의 데이터는 정상이라고 할 것이며, 2% 정도가 고장이라고 하는 데이터 일 겁니다.(왜냐면 고장이라는것이 흔한 현상은 ..