반응형
Data 전처리란
: Raw Data을 학습하기 전에 변경하는 작업
Garbage in, Garbage out.
- 좋은 train dataset으로 학습 해야 좋은 예측 결과를 만드는 모델을 학습할 수 있다.
- 좋은 train dataset을 만드는 것은 모델의 성능에 가장 큰 영향을 준다.
목적에 따른 전처리 분류
1. 학습이 가능한 데이터셋을 만들기 위한 전처리
- 머신러닝 알고리즘은 숫자만 처리할 수 있다. (수식이므로) 그래서 결측치, 문자열이 있으면 학습이나 추론을 할 수 없다.
2. 학습이 더 잘되도록 만들기 위한 전처리
- 공학적 전처리 (Feature Engineering)
- 도메인 지식에 의한 전처리
레이블 인코딩(Label encoding)
범주형 feature의 고윳값들 오름차수 정렬 후 0부터 1씩 증가하는 값으로 반환
숫자의 차이가 모델의 학습에 영향을 주는 레이블은 원핫 인코딩을 쓴다.
원핫 인코딩 (one-hot encoding)
: N개의 클래스를 N 차원의 One-Hot 벡터로 표현되도록 변환한다.
단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식이다.
반응형
'데이터 분석일기 > deep learning' 카테고리의 다른 글
CNN (1) | 2023.11.11 |
---|---|
ANN (1) | 2023.11.03 |
CNN (Convolutional Neural Network) (0) | 2023.10.26 |
Deep Learning 개요 (0) | 2023.10.24 |
모델 저장 (1) | 2023.10.23 |