본문 바로가기

Paper Review/Vision Transformer2

[최대한 자세하게 설명한 논문리뷰] Learning Transferable Visual Models From Natural Language Supervision (CLIP 논문) 해당 포스팅은 CLIP 논문 (Learning Transferable Visual Models From Natural Language Supervision)을 읽고 논문의 순서에 따라서 최대한 자세하게 정리한 포스팅입니다. 궁금한 점이나 피드백 있으시면 댓글 남겨주세요! 감사합니다:) Reference - https://openai.com/blog/clip/ (openai 블로그) - https://arxiv.org/abs/2103.00020 (clip paper) Flamingo, DALL-E 2, Stable Diffusion 심지어 어제(22/09/29) Meta에서 발표한 Image to Video model인 DALL-E for video 까지 대부분의 최신 multimodal model pap.. 2022. 10. 6.
[최대한 쉽게 설명한 논문리뷰] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Vision Transformer 논문) - Reference [DMQA Open Seminar] Transformer in Computer Vision 0. 글 쓰기에 앞서 Transformer는 자연어 처리에서는 굉장히 획기적인 아이디어였지만, 컴퓨터비전 분야에서는 잘 사용되지 않았다. 비전 분야에서는 주로 CNN구조를 사용하는 경우가 많았는데 이번 논문에서는 CNN을 아예 사용하지 않고 Vision task에 Transformer를 최대한 변형 없이 적용하였다. 이 논문은 Transformer 구조를 활용해 image classification을 수행한 최초의 논문이라는데서 의미가 있다. (CNN 기반 모델들(SotA)과 비슷하거나 그 이상의 성능을 낸다) 1. Vision Transformer 개요 1-1. Vision Transform.. 2022. 3. 23.