Hierarchical Self-supervised Augmented Knowledge Distillation논문_2022
Abstract
knolwedge distilation은 자주 정의하는 방법과 knowledge을 teacher에서 student로 효율적이게 전달하는 방식을 포함 합니다.
최근에 self-supervised contrastive knolwedge는 best성능을 달성했음에도 불구하고 지식을 네트워크가 배우도록 강요하는것은 original class를 인식하는 task의 표현학습에 손상을 줄지도 모릅니다.
이 저자들은 대체가능한 self-supervised augmented task를 network가 original 인식 task의 분포를 안내하도록 배우는것을 적용했습니다.
이는 표현력을 향상시키면서도 정상적인 분류 능력을 잃지 않는 더 풍부한 지식으로 나타납니다.
게다가 이전의 방법들은 마지막 layer사이에서 확률 knolwedge를 옮겨서 불완전합니다.
이 저자들은 몇개의 보조 classifier를 계층적으로 중간의 feature 맵을 다양한 self-supervised knowledge를 발생하기위해서 추가해주고 student network를 가르치기위해서 1대1전송을 해줍니다.
Introduction
Orthogonal to efficient network architecture designs논문과 Knowledge Distillation (KD)논문은 pretrain된 high-capacity teacher 네트워크에서 light로-weight인 student 네트워크로 knolwedge를 transfer하는데 도움을 주었습니다.
student의 성능은 상당히 향상 향상되었으며 독립적인 training과 비교해서 추가적인 guidane를 얻었습니다.
현재 KD의 패턴은 2개의 중요한 측면으로 요약할 수 있습니다.
(1) teacher 네트워크에 포함된 어떤 종류의 지식이 KD(지식 증류)를 위해 탐색될 수 있는가
(2)teacher에서 student로 지식을 어떻게 효율적으로 전달할 수 있을까.
original KD논문은 stduent와 teacher 사이의 예측한 class의 확률 분포의 KL-divergence 최소화했으며superior teacher가 최종 예측을 생성하는 방식을 학생이 모방하도록 강제한것이 직관적으로 이해가 가게 만듭니다.
그러나 이런 고도로 추상화된 dark한 지식은 hidden layer에 인코딘됭 많은 포괄적인 정보를 무시합니다.
나중에 연구에서는 자연스럽게 feature map을 transfer시키는 연구가 발표되고[Romero et al., 2015]
그들의정보를 teacher와 student의 layer 중간에서 재정의하는 논문도 발표가 되었다고합니다.
feature로 기반된 distillation의 성공에 대한 합리적인 해석은 CNN을 통해 계층적 feature map이 최종 술루션의 inductive bias를 가진 중간 학습 과정을 나타냅니다.
최근에 성공한 self-supervised visual repretentation learning논문[Chen et al., 2020], SSKD [Xu et al., 2020] 에 영감을받아서 풍부한 knolwedge를 추출하기위해 auxiliary self-supervised task를 소개했습니다.
이 저자의 method와 SSKD사이에 self-supervised knowledge의 차이점입니다.
(a)SSKD는 feature embedding 공간에서 이미지와 다른 변형된 버전을 다른 negative이미지들에 대해 가깝게 만들도록 강제함으로써 contrastive learning을 적용했습니다.
그것은 knolwedge로써 contrastive 관계를 정의했습니다.
(b)이 저자들의 방법은 original task와 self-supervised auxiaiary task를 공동의 task로 결합했습니다. 그리고 knolwedge 로써 self-supervised augmented 분포를정의 했다고합니다.
SSKD는 cross-sample self-supervied contrastive relationshp으로 KD에서 가장 높은 성능을 달성했다고합니다.
그러나 network에게 변형된 이미지 사이에서 self-supervised pretext task를 SSKD에서 활용된 0도 90도 180도 270로 random rotation과 사용하며 변하지않은 feature표현을 학습시키도록 강요하는것은 original visual의 segmentics를 파괴하지도 모릅니다.
DA보다 SAL의 성능이 더 좋음을 표로 알 수 있습니다.
원래의 fully supervised classification task에 간섭없이 self-supevised 표현 학습으로부터 knolwedge를 효율적으로 배우기위해
이 저자들은 original task의 label space를 결합하고 self-supervised task를 joint label space에 넣음으로써 통일된 task(FIg. 1b)를 사용합니다.
이 task는 self-supervised representation learning [Gidaris et al., 2018; Lee et al., 2020]이 논문에서 아이디어를 가져왔다고합니다.
self-supervised의 augmented된 라벨의 효율성을 확인하기위해 이 저자들은 table1에서 처럼 image classification 실험을 했다고합니다.
이 저자들은 SAL에 의해서 상당한 성능향상을 보았다고했으며 그리고 이것은 feature표현을 well-combine된 self-supervised task로부터 더 잘 학습할 수 있도록 기여했다고합니다.
그 좋은 성능은 이 저자들에게 KD를 위한 promising knowledge처럼 self-supervised augmented distribution에 대한 동기부여를 했습니다.
Vanilla KD는 마지막 layer에있는 확률분포를 정렬시키고 종합적인 knolwed를 무시합니다.
Feature-based distilation 방법은 teacher와 student의 같은 convolutional에서 1대1매치를 제공합니다.
그러나 매치된 feature map들은 다른 semantic 추상성을 가지고 negative supervisory 영향을 초래합니다.[Passalis et al., 2020]
feature의 정보를 비교했을때 확률 분포는 정말로 KD를위한 강력한 knowledge 를 제공하며 특히 teacher와 student사이에 큰 아키텍쳐가 존재할 때 그렇습니다 [Tian et al., 2020].
그러나 명쾌하게 hidden 레이어에있는 original 아키텍쳐로부터 종합적인 확률분포를 끌어내기는 어렵습니다.
그러므로 자연스러운 아이디어는 네트워크의 여러 은닉층 에서 여러 보조 준류기를 추가하여 계층적 feature map에서 다중 라벨 확률 분포를 생성하는것입니다.
이 아이디어는 knowledge 분포의 hidden레이어에서 우리에게 종합적인 1대1 매칭을 형성하는것을 허락해줍니다.
게다가 섬세하게 설계된 보조 분류기들 덕분에 어떤 일치하는 분포들 사이의 추상화 수준의 차이는 쉽게 줄어들것이라는 점도 주목할만합니다.
게다가 이 저자들은 teacher와 student사이에 1대1로 일치하는 모든 보조 분류기에서 Hierarchical Self-supervised Augmented Knowledge Distillation(HSAKD)를 수행했다고합니다.
풍부한 self-supervised augmented knowledge의 모든 장점을 가져옴으로써 student는 더나은 feature 표현을 배울 수 있습니다.
• 우리는 원래의 분류 작업과 보조 자기 감독 작업의 통합 지식을 포함하는 자기 감독 확장 분포를 소개합니다. 이것은 KD(지식 완화) 분야에서 더 풍부한 '어두운 지식'으로 사용됩니다.
• 우리는 아키텍처 보조 분류기를 활용하여 일대일 확률적 지식 완화 프레임워크를 제안합니다. 이것은 포괄적인 지식 전송을 촉진하고, 큰 아키텍처 차이가 있을 때 추상화 수준의 불일치 문제를 완화시킵니다.
• HSAKD는 표준 이미지 분류 벤치마크에서 이전의 SOTA SSKD에 의해 달성된 결과를 크게 개선합니다. 또한 하위 의미 인식 작업에 대한 잘 일반화된 특징 표현을 학습할 수 있습니다.
Related Work
Knowledge Distillation
KD세미나 [Hinton et al., 2015]는 knowledge의 패턴을 soft 확률 분포로 transfer하는 논문을 출판했습니다.
그다음 intermediate feature maps [Romero et al., 2015]과같은 KD의 hidden 레이어에서 feature-based 정보로 축약된 방법이 나왔습니다.
더 최근의 연구는 high-level의 다양하게 정의된 weight의 feature embedding을 이용한 cross-sample 연구가 출판되었고
후에 self-supervised auxiliary task로부터 knolwledge 구조를 추출한 SSKD논문이 나왔습니다.
그리고 매칭된 features사이에 상호정보가 최대화되는 knolwedge exploration논문[Ahn et al., 2019]이 나왔습니다.
[Passalis et al., 2020]이 논문은 teacher assistant model의 KD를 부드럽게 만드는 연구를 했었습니다.
그러나 teacher model은 training 파이파프라인에서 복잡성이 증가한다고합니다.
그러므로 이 저자들은 지식 간극을 완화하고 포괄적인 지식 전송을 촉진하기 위해 몇몇의 잘 적합된 보조 분류기를 추가했다고합니다.
Self-supervised Representational Learning (SRL)
SRL세미나는 네트워크가 변형된 이미지에 어떤 변환을 적용했는지 학습하여 feature 표현을 학습하는 패턴을 대중화했습니다.
SSKD와 저자들의 HSAKD는 SRL과 관련이있다고합니다. SSKD는 후자의 SRL패턴을 사용하여 knowledge를 추출합니다. 반면에 HSAD는 전자의 분류 기반 SRL 패턴과 fully-supervised classification task를 결합해서 더 풍부한 지식을 추출할 수 있다고합니다.
Method
Self-supervised Augmented Distribution
저자들은 CNN의 전통적인 분류 네트워크를 사용하여 원래 클래스 확률 분포와 self-supervised 사이의 차이를 제시했습니다.
CNN은 feature추출 Φ로 분해되고 linear classifier g로 분해되며 µ 와w는 weight tensor입니다.
X는 training set이고 X에 포함된 x를 input으로 주어집니다.
z = Φ(x; µ) ∈ R^d 는 feature embedding vector로 추출되었습니다. d는 embedding size입니다.
이 저자들은 전통적인 N개의 라벨 space가 있는 N-way object classification task를 고려했다고합니다.
linear classifier은 softmax로 정규화된 map을 가지고 label공간에있는 class 확률분포 p(x; τ ) = σ(g(z; w)/τ ) ∈ R^N z로 예측된 feature embedding을 부착했다.
σ는 softmax 함수입니다. τ는 temperature 분포를 부드럽게 scale해주는 하이퍼파라미타 입니다.
이 저자들은 전통적인 supervised object class 공간을 augment할 추가적인 self-supervised task를 소개합니다.
learning처럼 공통의 확률분포는 netowrk에게 많은 정보를 발생하도록 강요하고 original과 auxiliary self-supervised task로부터 의미있는 예측 이점을 발생하도록 강요합니다.
효율적이게 합성된 knowledge를 배우기위해서 이 저자들은 original supervised object recongnition task와 self-supervised 를 통일한 task로부터 class space를 결합합니다.
Auxiliary Architecture Design
다양한 결정력을 가진 feature map은 다양한 정보표현의 패턴을 encode합니다.
more fine-grained된 feature map은 더 세밀한 object의 세부사항을 제공하며 반면에 lower-resolution 객체는 풍부한 global semantic 정보가 포함됩니다.
현대의 CNN은 일반적으로 단계별로 구성된 convolutional block을 사용하여 네트워크의 깊이가 증가함에따라 점차적으로 더 거친특징(고차원적인 feature)들을 추출합니다.
L개의 stage를 포함하는 network를 추정하는하면서 이 저자들은 각각의 stage이후에 auxiliary classifier을 추가했다고합니다.
Training the Teacher Network
이저자들은 teacher의 backbone 네트워크를 \( {f}^{T}\left (\cdot \right) \)라고 표시했고 L auxiliary classifier을
\( \left\{ c_{l}^{T}(\cdot ) \right\}_{l=1}^{L} \) 라고 표시했습니다.
이 저자들은 teacher의 백본 network를 normal data인 x와 cross-Entropy loss를 이용해 train하고 class 확률 분포를 만드비다. 그리고 이 저자는 L auxiliary classifier를 통해 계층적 self-supervised augmented 분포에 도움을 줄 수 있다고합니다.
Training the Student Network
이 저자는 teacher network와 비숫하게 train network도 end-to-end방식으로 설계했다고합니다.
전체적인 loss는 pre-defined된 ground-trugh label로부터 포함하고 teacher network로부터 pre-train된 loss를 흉내낸다고합니다.
Experiments
Experimental Settings
공정한 비교를 위해, 모든 비교 방법들은 기본적으로 전통적인 KD와 결합되며, 저자들은 SSKD와 같이 회전 {0°, 90°, 180°, 270°}을 자기 감독 보조 작업으로 채택했다고합니다.
모델의 각 부분이 전체 성능에 어떤 영향을 미치는지 이해하기 위해 특정 부분을 제거하고 실험을 진행했습니다.
여기서는 손실 함수의 각 항목(loss terms)과 보조 분류기(auxiliary classifiers)가 어떻게 학생 네트워크의 성능에 영향을 미치는지를 조사했습니다.
Effect of auxiliary classifiers
이 저자들은 몇개의 auxiliary classifier을 학습하기에 다양한 depth를 가지고있는 network에 추가했고 계층적인 feature로부터 추출한 다양한 self-supervised augmented 분포를 전달했습니다.
모든 auxiliary 분류기는 정확도 향상을 최대화해주었다고합니다.
Comparison with State-Of-The-Arts
Results on CIFAR-100 and ImageNet
Teacher*는 teacher network중에서 가장 best 성능의 network입니다.
Ours*는 더나은 성능을 추구하는 Teacher*에 의해 supervised를나타낸 결과입니다.
역대 SOTA distillation method들과 이저자의 SSKD method를 비교한 표입니다.
ImageNet에서도 SSKD가 성능이 좋음을 알려줍니다.
다른 SOTA방법들과 비교했을때 HSAKD는 보조 분류기(auxiliary classifiers)를 사용하여 더욱 효과적인 학습이 가능하도록 설계했습니다.
Transferability of Learned Representations
객체 데이터셋에서의 정확도를 넘어서, 저자들은 student network가 일반화된 특징 표현을 생성할 수 있으며 이러한 특징이 다른 보이지 않은 의미 인식 데이터셋으로 잘 전이(transfer)될 것을 기대한다고합니다.
표 4에서 볼 수 있듯이, SSKD와 HSAKD 모두 다른 비교 방법들보다 더 나은 정확도를 달성함을 관찰할 수 있습니다. 이는 지식 전달을 위해 자기 감독 보조 작업을 사용하는 것이 더 나은 특징 표현을 생성하는 데 도움이 됨을 보여줍니다.
결과는 자기 감독 보조 작업을 HASKD에서 확장된 분포로 인코딩하는 것이 SSKD의 대조적인 관계보다 좋은 특징을 학습하기 위한 감독 품질이 더 우수함을 확인합니다
Transferability for Object Detection
저자의 방법은 원래의 기준선을 2.27% mAP로, 가장 경쟁력 있는 SSKD를 0.85% mAP로 능가합니다. 이러한 결과는 semantic recognition task에대해 더 나은 특징 표현을 학습하도록 네트워크를 안내할 수 있음을 확인합니다.
Efficacy under Few-shot Scenario
표 6에서 보여지는 바와 같이,저자의 방법은 다양한 소수샷 설정하에서 다른 방법들을 큰 차이로 능가할 수 있습니다. 더욱이, 훈련 샘플의 단지 25%만을 사용함에도 우리의 방법은 완전한 세트로 훈련된 기준선과 비교할 수 있는 정확도를 달성할 수 있다는 점은 주목할 만합니다."
소수샷(few-shot) 설정은 매우 적은 양의 학습 데이터만을 가지고 모델을 학습시키는 상황을 의미합니다.
Conclusion
이 저자들은 KD(지식 전달)를 위한 자기 감독 확장 작업을 제안하고, 계층적 특징 맵에서 파생된 풍부한 지식을 잘 설계된 auxiliary classifier를 활용하여 추가로 전송합니다
이 방법은 네트워크가 semantic recognition task을 위한 잘 일반화된 특징 표현을 학습하도록 안내할 수 있습니다.
게다가 조정해야 할 하이퍼파라미터가 없고 구현하기 쉽습니다.