반응형
Mixup은 데이터 증강(Data Augmentation) 기법 중 하나로, 학습 데이터의 다양성을 높이는 데 도움을 줍니다. Mixup은 기존의 두 개의 무작위 샘플 데이터를 선형적으로 결합하여 새로운 학습 샘플을 생성하는 방식입니다.
Mixup 기법은 다음과 같은 과정으로 이루어집니다:
- 두 개의 임의의 샘플 (x_1, y_1) 및 (x_2, y_2)를 데이터셋에서 선택합니다. x는 입력 데이터이고, y는 해당되는 레이블입니다.
- 랜덤한 하이퍼파라미터 α(alpha)를 사용하여 베타 분포를 따르는 랜덤한 숫자 λ(lambda)를 샘플링합니다 (0 <= λ <= 1).
- 새로운 데이터 샘플 x'와 레이블 y'를 생성하기 위해 두 샘플을 선형적으로 혼합합니다. 이때, x' = λ * x_1 + (1 - λ) * x_2 와 같이 계산하고, 레이블 y'도 y' = λ * y_1 + (1 - λ) * y_2로 계산합니다.
- 새로 생성된 샘플 x'와 레이블 y'를 학습 데이터셋에 추가하여 사용합니다.
이 과정을 통해 새롭게 생성된 샘플은 원래 샘플간의 경계를 더 부드럽게 할 수 있어 모델이 과적합을 방지하고, 일반화 성능을 향상시킬 수 있습니다. 크기가 작거나 불균형한 데이터셋의 경우, Mixup을 사용하면 특히 좋은 성능 향상을 기대할 수 있습니다.
728x90
'데이터분석 > 전처리' 카테고리의 다른 글
nan값 확인 (0) | 2023.05.05 |
---|---|
groupby를 dataframe으로 바꾸기 (0) | 2023.03.30 |
피처(feature)가 3개이상일때 데이터프레임 원핫인코딩 적용 (0) | 2023.03.21 |
데이터프레임에 바로 원핫인코딩 적용 (0) | 2023.03.21 |
원-핫인코딩 (0) | 2023.03.21 |
댓글