Computer Vision
-
An Image is worth 16*16 words: Transformers for image recognition at scale공부/논문 2024. 6. 6. 13:07
https://arxiv.org/pdf/2010.11929 ViT논문 드디어 리뷰한다! Abstracttransformer는 자연어 처리에서 많이 사용되는 중, 컴퓨터 비전에서는 제한적 사용주로 vision에선 attention은 conv net과 함께 적용되거나 전체 구조를 유지하면서 conv net의 특정 구성 요소를 대체하는 데 사용여기서는 CNN에 의존하지 않고 이피미 패치 시퀀스에 직접 transformer를 사용해서 이미지 분류 작업에 우수한 성능을 보인다는 것을 보임ImageNet, CIFAR-100, VTAB 등 여러 중형~소형 이미지 벤치마크로 ViT가 훨씬 적은 자원으로 CNN에 비해 우수한 결과를 내는 것을 확인했음1. Introductionself-attention 기반 아키텍처(특..