카테고리 없음

[CV] DeiT 논문 정리

meenham 2024. 6. 20. 09:48

논문 제목 : Training data-efficient image transformers & distillation through attention

https://arxiv.org/pdf/2012.12877

 

 

배경

 

- Image Classification과 같은 Computer Vision 분야에 transformer 가 도입되기 시작했다.

- ViT 논문으로 많은 양의 데이터, 많은 수의 파라미터, 많은 컴퓨팅 자원이 있다면 Transformer 기반의 모델이 CNN 기반의 모델과 유사한 성능을 보인다는 것이 보여졌다.

- 하지만 vision transformer가 성능을 보이기 위해서는 수억장의 train image 와 오랜 시간이 필요하다.

- 본 논문에서는 적은 컴퓨팅 자원과 적은 수의 데이터로 SOTA 성능을 보이고자 한다. 

 

- ImageNet 1k data 로 학습시킨 결과 다음의 성능과 image 처리 속도를 보인다.

 

방법

 

- 저자들은 knowledge distillation 아이디어를 가져온다.

- 기존의 distillation 방식 대신에 transformer 에 적합한 token-based distillation 기법을 채택한다.

 

https://hyoseok-personality.tistory.com/entry/Paper-Review-DeiT-Training-data-efficient-image-transformers-distillation-through-attention



결과

 

- soft distillation 보다 hard distillation 이 성능이 더 높다.

- token 을 이용한 distillation 이 성능이 높다.

 

 

 

- Teacher 는 CNN 기반의 모델일 때, 성능이 더 높았다. ( inductive bias 를 가르쳐준 것으로 생각할 수 있다 )

 

 

 

- reference

https://hyoseok-personality.tistory.com/entry/Paper-Review-DeiT-Training-data-efficient-image-transformers-distillation-through-attention

 

[Paper Review] DeiT : Training data-efficient image transformers & distillation through attention

2020년 Vision Transformer가 등장하면서 Vision task에서도 Transformer가 큰 격변을 가져오기 시작했습니다. 하지만, 이러한 Vision task에서의 Transformer들은 1. 거대 데이터셋으로 학습 필요 2. 매우 무거움 등

hyoseok-personality.tistory.com