논문/knowledge distilation3 Deep Mutual Learning논문정리_2017 Abstract model distillation은 효율적이고 광범위하게 사용된 teacher을 student network로부터의 knowledge를 transfer하는 기술입니다. 보통의 방법은 powerful large network로부터 transfer하거나 small network를 앙상블하는 방법이었으며 low-memory와 빠른 실행을 요구할때 적합했습니다. 이논문에서 저자들은 deep mutal learning(DML)을 제안합니다. 이 전략에서는 정적으로 사전에 정의된 교사와 학생 간의 일방향 전달이 아니라, 학생들의 앙상블이 협력적으로 학습하고 훈련 과정 동안 서로에게 가르치는 방식을 사용합니다. 저자들은 다양한 network 아키텍쳐가 mutual learning으로부터 이익을준 실험.. 2023. 10. 6. Hierarchical Self-supervised Augmented Knowledge Distillation논문_2022 Abstract knolwedge distilation은 자주 정의하는 방법과 knowledge을 teacher에서 student로 효율적이게 전달하는 방식을 포함 합니다. 최근에 self-supervised contrastive knolwedge는 best성능을 달성했음에도 불구하고 지식을 네트워크가 배우도록 강요하는것은 original class를 인식하는 task의 표현학습에 손상을 줄지도 모릅니다. 이 저자들은 대체가능한 self-supervised augmented task를 network가 original 인식 task의 분포를 안내하도록 배우는것을 적용했습니다. 이는 표현력을 향상시키면서도 정상적인 분류 능력을 잃지 않는 더 풍부한 지식으로 나타납니다. 게다가 이전의 방법들은 마지막 laye.. 2023. 9. 19. Knowledge Distillation from Internal Representations_2019 Abstract knowledge distillation은 보통 큰 모델(teacher)을 흉내내기위해 small model(student)에서 훈련되었다고합니다. 이 아이디어는 output의 예측값을 soft label로 student 모델을 optimize 되는거에 의해서 teacher model으로부터 지식을 압축하기위해서 사용한다고합니다. 그러나 teacher모델이상당히 클때 이점이 없는데 이때 internal teacher 모델의 knowledge는 student로 옮겨집니다. 심지어 만약에 그 student모델이 가깝게 soft-label를 match한다면 그것의 internal 표현을 아마도 상당히 다르게 될것입니다. 이 internal mismatch는 teacher에서 student로 전.. 2023. 8. 27. 이전 1 다음