반응형
데이터 스케일링 : 데이터 값의 범위를 조정해주는것이다.
해야하는이유 : 데이터의 스케일이 다르다면 스케일값이 큰 데이터로 치우처져서 학습이 될 수가 있기때문
스케일러 종류
1. standardScaler()
- 이상치에 민감
2.MinMaxScaler()
- 이상치에민감, 분류보다 회귀에 유용하다.
3.로그스케일러
- 데이터분석에서 log를 취하는이유는 정규분포로 비슷하게 만들어주어서 더 정확하게 머신러닝을 학습을 시키고싶기때문
데이터 간 간격이 클 경우 사용하면 좋다.
Log를 취해주게 되면 큰 숫자를 같은 비율의 작은 숫자로 만들어주며, 첨도와 왜도가 줄어들면서 정규성이 높아진다.
이는 분석의 정확도를 더 높일 수 있는 결과를 가져온다.
728x90
댓글