Q5) 전처리(preprocessing)는 왜 필요할까?

Q5) 전처리(preprocessing)는 왜 필요할까?

2018, Dec 23    

머신러닝을 할 때 전처리는 왜 필요할까요? 이런 질문에 대하여 어떻게 대답할 수 있을까요?


전처리를 하는 이유는 특징 추출 (feature extraction)을 통하여 문제를 좀 더 쉽게 정의함으로써 기존 보다 좀 더 쉽게 문제를 해결할 수 있기 때문입니다. 이렇게 전처리를 하게 되면 원래 입력 변수들을 새로운 변수 공간으로 전환할 수 있게 되는데, 이 새로운 변수 공간들은 보통 입력 변수들 보다 간단한 공간으로 구성되게 되므로 문제를 풀때 발생하는 너무 많은 변수들을 줄여줄 수 있게 됩니다.

예를 들어 이미지에서 얼굴을 찾아야 하는데, 전체 이미지의 픽셀들을 다 검토하게 되면 픽셀 값 범위 ^ (픽셀 수) 만큼의 복잡한 공간이 생성되는 반면 얼굴의 특징을 전처리로 검출해 놓으면 공간을 상당히 줄여줄 수 있습니다.

이렇게 공간을 줄이는 것을 차원 축소(dimensionality reduction) 이라고 하는데, 차원 축소를 잘못하게 되면 중요한 정보들이 사라져서 오히려 문제를 해결하기 어려운 문제가 발생할 수도 있으니, 전처리 할 때는 그 데이터에 대한 이해가 충분한 상태에서 필요없는 정보에 해당하는 공간을 없애는 것이 중요합니다.