Data 전처리란 : Raw Data을 학습하기 전에 변경하는 작업 Garbage in, Garbage out. - 좋은 train dataset으로 학습 해야 좋은 예측 결과를 만드는 모델을 학습할 수 있다. - 좋은 train dataset을 만드는 것은 모델의 성능에 가장 큰 영향을 준다. 목적에 따른 전처리 분류 1. 학습이 가능한 데이터셋을 만들기 위한 전처리 - 머신러닝 알고리즘은 숫자만 처리할 수 있다. (수식이므로) 그래서 결측치, 문자열이 있으면 학습이나 추론을 할 수 없다. 2. 학습이 더 잘되도록 만들기 위한 전처리 - 공학적 전처리 (Feature Engineering) - 도메인 지식에 의한 전처리 레이블 인코딩(Label encoding) 범주형 feature의 고윳값들 오름차수..