vit #VIT1 AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 논문정리 transformer 아키텍쳐는 자연어처리 task와 computer vision에는 제한적으로 적용할 수 있다고합니다. transformer은 연속적인 이미지 patch들을 적용시킬 수 있고 image classification task에도 적용시킬 수 있습니다. 그리고 매우 큰 data를 전이학습 시킬때 Vision Trnasformer(Vit)는 훈련하는 데 상당히 적은 계산 자원이 필요합니다. transformer는 계산 효율성및 확장성이 뛰어나다고 합니다. 이로인해 transformer는 100B parameter가 넘는 상황에서도 모델을 훈련할 수 있다고합니다. NLP의 성공에 영감을 받아서 cnn 아키텍쳐와 self-attention을 결합을 했다고합니다.이미지 patch들은 NLP의 tok.. 2023. 8. 4. 이전 1 다음