본문 바로가기
논문/knowledge distilation

Deep Mutual Learning논문정리_2017

by dohunNewte 2023. 10. 6.
반응형

Abstract

model distillation은 효율적이고 광범위하게 사용된 teacher을 student network로부터의 knowledge를 transfer하는 기술입니다.

보통의 방법은 powerful large network로부터 transfer하거나 small network를 앙상블하는 방법이었으며 low-memory와 빠른 실행을 요구할때 적합했습니다.

이논문에서 저자들은 deep mutal learning(DML)을 제안합니다. 

이 전략에서는 정적으로 사전에 정의된 교사와 학생 간의 일방향 전달이 아니라, 학생들의 앙상블이 협력적으로 학습하고 훈련 과정 동안 서로에게 가르치는 방식을 사용합니다.

저자들은 다양한 network 아키텍쳐가 mutual learning으로부터 이익을준 실험을 보여줍니다.

놀랍게도, 우리는 강력한 teacher network가 필요 없다는 사실을 발견했습니다. 간단한 student network들의 상호 학습은 작동하며, 더욱이 더 강력하지만 정적인 교사로부터의 디스틸레이션보다 성능이 우수하다는 것을 확인했습니다.

 

Introduction

Deep neural network는 다양한 problem에서 sota를 달성했습니다. 그러나 많은 크기의 depth와 width와 많은 파라미타가 필요했습니다.

distilation-based 모델은 small network가 large network로써 같은 representation capacity를 가지게하는 observation과 연관됩니다. 그러나 large network와 비교해서 이 모델은 옳은 파라미터를 찾도록 학습시키는것이 어렵습니다. 그래서 이 한계는 최적화하는게 어려운거랑 똑같습니다.

small network의 성능을 올리기위해서 powerfull(깊고 wide한)teacher network를 small network가 흉내낼 수 있도록 했습니다.

이논문에서 저자들은  model distilation과 관련된 다른 개념인 mutual learning에대해 연구했습니다.

distilation은 powerful하고 크며 pre-train된 teacher network로 시작하며 작고 untrain된 student에게 일방향의 지식 전달을 수행합니다.

 

이 저자들은 student가 동시에 task를 해결하도록 함께 학습하도록 했습니다.

각 student는 두개의 loss로 훈련됩니다. 전통적인 supervised learning의 loss와 각 student들의 클래시 확률과 일치시키는 mimicry loss입니다.

이 방식으로 훈련된 결과 이러한 peer-teaching 기반 시나리오에서 각 student는 전통적인 supervised learning 시나리오에서 혼자 학습하는 것보다 훨씬 더 잘 학습한다는 것을 알았다고합니다.

게다가 이 방식으로 훈련된 학생 네트워크는 더 큰 사전 훈련된 교사로부터의 전통적인 디스틸레이션에 의해 훈련된 학생들보다 더 나은 결과를 달성합니다.

 

Depp Mutual Learning

DML의 아키텍쳐입니다. supervised learning loss와 KLD기반의 mimcry loss로 확률 분포를 추정합니다.

 

Deep Mutual Learning의 알고리즘1입니다.

 

cifar-100데이터셋에서의 성능비교표입니다.

 

Conclusion

이 저자들은 동료와 mutual distilation을 통해 훈련시킴으로써 deep neural network의 성능을 향상시키는 간단하고 일반적으로 적용 가능한 접근법을 제안하였습니다. 이 방법을 사용하면, 강력하지만 정적인 teacher로부터 distil된 것보다 더 나은 성능을 발휘하는 강력한 network를 얻을 수 있습니다. DML의 한 가지 응용 사례는 컴팩트하고 빠르며 효과적인 네트워크를 얻는 것입니다. 이저자들 역시 이 접근법이 큰 강력한 네트워크의 성능을 향상시키는데도 유망하며, 이런 방식으로 훈련된 네트워크 코호트는 앙상블로 결합되어 성능을 더욱 개선할 수 있다는 것도 보여주었습니다.

728x90

댓글