본문 바로가기
논문/classification

cv(computer vision) vggnet 논문

by dohunNewte 2023. 3. 5.
반응형

Vggnet 논문

VGGNET.pdf
0.19MB

2012년 AlexNet , 2014년 vggNet, 2014년 GoogleNet, 2015년 Resnet 

여기 4개의 논문들은 레이어를 깊이쌓는것에 중점을 두었다.

이것을 기억해두고 읽으면 좋을거같다.

 

그러나 깊이쌓기만하면 역전파가 일어나 기울기소실(loss로부터 역전파를 했을때 이전레이어에서 미분을하는데 여기에서 미분했던값이 소수점이면 0에 가까워지므로) 문제생기고 이로인해 모델의 정확도가 낮아지는 문제가 생기는데

여기까지의 연구초점은 깊게쌓되 기울기 소실문제가 덜 일어나도록 효울적인 모델을 만드는게 여기까지의 연구초점이었다.

 

이제 이 논문의 초록을 보자(요약부분)

In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting.

컨볼루션 네트워크의 깊이에 대한 정확성을 조사했다.-모델의 깊이와 accuracy의 관계를 알고싶어했다.(모델을 깊이 쌓을수록 accuracy가 올라가는가)

 

Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small

( 3 × 3) convolution filters

3x3 필터에대해서 말하고싶어하는것을 알 수 있다.

 

which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16–19 weight layers.

16-19레이어를 쌓았을때 좋은 결과를 얻었다는것을 알 수 있다.

(AlexNet은 8-9레이어를 쌓았었다, AlexNet은 3x3보다큰 7x7필터를 썼었는데

vggNet이 AlexNet보다 효율적이게 거의 2배가까이 쌓은이유는 결론적으로 vggNet은 3x3필터를 썼기때문에 그렇다.)

이 논문은레이어를 깊게쌓는것을 연구했는데

그림을 보면 A모델, A-LRN모델, B모델, C모델, D모델, E모델로 나누어서 연구를했다는것을 알 수 있다.

conv3-64의 의미: 3x3필터를 한세트로 64세트를 만든다는뜻

 

A~E모델로 갈수록 layer의 수와 모델의 깊이가 깊어짐을 알 수 있다.

여기서 특이한점은 C모델은 conv1을 사용하였는데

연구에서 주된 화두는 layer깊게쌓는데 기울기 소실x 인데

이때 conv3을 사용한 이유가 conv7보다 더 깊게 쌓을 수 있기때문에 conv3을 사용하는데 그래서 동일한이유로

conv1도 사용했던거같다.

conv1을 사용하면 weight가 굉장히 적어지는데 만약 output이 64x64라면 1x1x3(채널 rgb)x64이므로 매우 적어지므로

비효율적이다.

 

결론 : 3x3이 가장 효율적인 필터개수임을 알았다.

vggnet이후로 거의다 필터개수를 3x3으로한다.

(maxpooling = 2x2)

728x90

'논문 > classification' 카테고리의 다른 글

A ConNet for the 2020s 논문정리  (0) 2023.10.25
cv(computer vision) resnet논문  (1) 2023.03.12
cv(computer vision) googlenet 논문  (1) 2023.03.07

댓글