본문 바로가기

CV1

[최대한 쉽게 설명한 논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Vision Transformer 논문) - Reference [DMQA Open Seminar] Transformer in Computer Vision 0. 글 쓰기에 앞서 Transformer는 자연어 처리에서는 굉장히 획기적인 아이디어였지만, 컴퓨터비전 분야에서는 잘 사용되지 않았다. 비전 분야에서는 주로 CNN구조를 사용하는 경우가 많았는데 이번 논문에서는 CNN을 아예 사용하지 않고 Vision task에 Transformer를 최대한 변형 없이 적용하였다. 이 논문은 Transformer 구조를 활용해 image classification을 수행한 최초의 논문이라는데서 의미가 있다. (CNN 기반 모델들(SotA)과 비슷하거나 그 이상의 성능을 낸다) 1. Vision Transformer 개요 1-1. Vision Transform.. 2022. 3. 23.

이전 1 다음

티스토리툴바