본문 바로가기
데이터분석/전처리

mixup기법

by dohunNewte 2023. 8. 1.
반응형

Mixup은 데이터 증강(Data Augmentation) 기법 중 하나로, 학습 데이터의 다양성을 높이는 데 도움을 줍니다. Mixup은 기존의 두 개의 무작위 샘플 데이터를 선형적으로 결합하여 새로운 학습 샘플을 생성하는 방식입니다.

 

Mixup 기법은 다음과 같은 과정으로 이루어집니다:

  1. 두 개의 임의의 샘플 (x_1, y_1) 및 (x_2, y_2)를 데이터셋에서 선택합니다. x는 입력 데이터이고, y는 해당되는 레이블입니다.
  2. 랜덤한 하이퍼파라미터 α(alpha)를 사용하여 베타 분포를 따르는 랜덤한 숫자 λ(lambda)를 샘플링합니다 (0 <= λ <= 1).
  3. 새로운 데이터 샘플 x'와 레이블 y'를 생성하기 위해 두 샘플을 선형적으로 혼합합니다. 이때, x' = λ * x_1 + (1 - λ) * x_2 와 같이 계산하고, 레이블 y'도 y' = λ * y_1 + (1 - λ) * y_2로 계산합니다.
  4. 새로 생성된 샘플 x'와 레이블 y'를 학습 데이터셋에 추가하여 사용합니다.

이 과정을 통해 새롭게 생성된 샘플은 원래 샘플간의 경계를 더 부드럽게 할 수 있어 모델이 과적합을 방지하고, 일반화 성능을 향상시킬 수 있습니다. 크기가 작거나 불균형한 데이터셋의 경우, Mixup을 사용하면 특히 좋은 성능 향상을 기대할 수 있습니다.

 

728x90

댓글