본문 바로가기
논문/segmentation

논문 U-Net

by dohunNewte 2023. 4. 2.
반응형

U-Net은 Fully Conv 아키텍쳐로 되어있다.

 

Fully Conv 아키텍쳐

- 입력사이즈에 대한 제한이없다. vggent은 나중에 Flatten을 해주기때문에 입력사이즈의 제한을 받았다. fully conv는 3x3으로 훑기만하기때문에 입력사이즈의 제한이없다.

 

맨위에 input image tile의 input의 conv를 적용해주면 사이즈손실은 거의없고 채널이 64개로 늘어나게된다..

그리고 빨간색 화살표로 maxpooling을 하게되는데 그러면 사이즈가 줄어든다. 572x572에서 284x284로 줄어들은것을 알 수 있다.

 

반복해주면 채널수가 1024가 되는데(이미지의 맨아래부분) 여기까지를 인코더(incoder,contract_path, 압축)라고한다. 그리고 나머지 반을 디코더(decoder, Expanding_path, 확장)이라고한다.

디코더를할때 transposed conv2d를 사용할수있고, upsampling 2d를 사용할 수 있다. 둘중에 하나를 쓰면서 size를 늘리면된다.

 

 

 

채널수가 28x28x1024인 블록에서 up-conv2x2를 하게되서 28x28x1024가 56x56x1024로 변하게된다.(56x56x1024의 파란색 색칠한부분) 나머지 반의 흰색부분은 왼쪽의 64x64x512의 부분에서 그대로 copy and crop한 부분이다.

그 두부분을 더해주었다.

->56x56x1024는 파란색부분과 흰색부분을 concat 한거다.

 

일반적인 모델은 대부분 인코더부분에서 끝이나는데 U-Net은 인코더후에 디코더를 해준다. -> 파라미터수가 일반적인 classfication 모델에비해서 거의 2배가된다. 

디코더를 해줄때 transposed conv2d를 사용할수있고 upsampling2d를 사용할수있다고 했는데

transposed conv2d는 가중치가있고 upsampling 2d는 가중치가없다.(보간법이라)

 

transposed conv는 겹치는부분에대해서 이미지생성모델에 대해 격자무늬가 생기게되고 하이퍼파라미터 수도 늘어나게되서 유넷모델에서도 픽셀이 겹치게되어서 나오는 단점들이있어서 유넷의 코드는 보통 upsampling 2d를 사용한다.

 

decoder 과정에서 copy한 부분이랑 upsampling한 부분이랑 concat해서 이 concat한 부분들을 정리해주기 위해서 conv2d를 2번해주게된다.

 

최종적으로 나온것들을 1x1conv를 통해 채널수를 조절후 분류

 

정리 : conv를통해 압축한데이터, 업생플링한데이터를  concat -> 반복 ->다양한정보를 많이 가져올 수 있게된다.

 

728x90

'논문 > segmentation' 카테고리의 다른 글

FCN(Fully Convolution Network)  (0) 2023.03.27

댓글