Knowledge Distillation from Internal Representation #self-supervised1 Knowledge Distillation from Internal Representations_2019 Abstract knowledge distillation은 보통 큰 모델(teacher)을 흉내내기위해 small model(student)에서 훈련되었다고합니다. 이 아이디어는 output의 예측값을 soft label로 student 모델을 optimize 되는거에 의해서 teacher model으로부터 지식을 압축하기위해서 사용한다고합니다. 그러나 teacher모델이상당히 클때 이점이 없는데 이때 internal teacher 모델의 knowledge는 student로 옮겨집니다. 심지어 만약에 그 student모델이 가깝게 soft-label를 match한다면 그것의 internal 표현을 아마도 상당히 다르게 될것입니다. 이 internal mismatch는 teacher에서 student로 전.. 2023. 8. 27. 이전 1 다음