본문 바로가기

논문/vision_transformer3

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows_2021 논문정리 Abstract 저자들은 image에 따라서 1.시각적 개체의 크기 변동성이 큼 2.이미지의 픽셀 해상도가 단어에 비해 매우 높음 이러한 점들에서 기존의 vision Transformer에서 도전사항들이 있었다고합니다. 이러한 어려움을 다루기 위해서 이 저자들은 hierarchical Transformer의 representation을 Shifted sindows로 계산했다고합니다. shifted windowing 방식은 비교적 효율적인 self-attention 계산을 위해 겹치지 않는 local window로 제한함으로써 더 큰 효율성을 가져오고 동시에 cross-window connection이 가능합니다. 이러한 hierarchcial 구조는 모델이 다양한 scale에서 더욱 유연하고 선형적인 계.. 2023. 9. 29.
AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 논문정리 transformer 아키텍쳐는 자연어처리 task와 computer vision에는 제한적으로 적용할 수 있다고합니다. transformer은 연속적인 이미지 patch들을 적용시킬 수 있고 image classification task에도 적용시킬 수 있습니다. 그리고 매우 큰 data를 전이학습 시킬때 Vision Trnasformer(Vit)는 훈련하는 데 상당히 적은 계산 자원이 필요합니다. transformer는 계산 효율성및 확장성이 뛰어나다고 합니다. 이로인해 transformer는 100B parameter가 넘는 상황에서도 모델을 훈련할 수 있다고합니다. NLP의 성공에 영감을 받아서 cnn 아키텍쳐와 self-attention을 결합을 했다고합니다.이미지 patch들은 NLP의 tok.. 2023. 8. 4.
big_transfer(BIT) pytorch 구현 from functools import partial from collections import OrderedDict %config InlineBackend.figure_format = 'retina' import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.axes_grid1 import ImageGrid import torch import torch.nn as nn import torch.nn.functional as F from torch.autograd import Variable import torchvision as tv device = torch.device("cuda:0" if torch.cuda.is_available() .. 2023. 8. 2.