본문 바로가기

논문리뷰9

[논문 리뷰] Null-text Inversion for Editing Real Images using Guided Diffusion Models (CVPR 2023) arxiv : https://arxiv.org/abs/2211.09794 code : https://github.com/google/prompt-to-prompt/#null-text-inversion-for-editing-real-images 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계 Text-to-Image generation task에서 특정한 사람이나 사물을 보존하면서, condition하게 image를 생성하려면 DDIM Inversion process가 반드시 필요하다. DDIM inversion이.. 2024. 1. 18.
[Weekly paper review] 10월 1주차 논문 리뷰 (ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation) 이번주에 읽은 논문은 아래 1편의 논문이다. [읽음] ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation 이번주에는 주로 현재 생각중인 아이디어를 MNIST dataset으로 구현하는데 시간을 많이 할애했다. unet에 image condition을 어떻게 주어야할지가 조금 고민인데, 우선 IP-Adapter, Visii 등의 방식과 비슷하게 구현중이다. 원래는 논문을 안 읽으려했는데, unet에 image condition을 주는 reference paper들을 찾아보다가 이 논문을 발견하였다. 논문에서 하고자 하는 것이 내가 생각한 아이디어와 비슷한 것 같아서 바로 읽어보았다. (코드가 공개되.. 2023. 10. 7.
[최대한 자세하게 설명한 논문리뷰] Learning Transferable Visual Models From Natural Language Supervision (CLIP 논문) 해당 포스팅은 CLIP 논문 (Learning Transferable Visual Models From Natural Language Supervision)을 읽고 논문의 순서에 따라서 최대한 자세하게 정리한 포스팅입니다. 궁금한 점이나 피드백 있으시면 댓글 남겨주세요! 감사합니다:) Reference - https://openai.com/blog/clip/ (openai 블로그) - https://arxiv.org/abs/2103.00020 (clip paper) Flamingo, DALL-E 2, Stable Diffusion 심지어 어제(22/09/29) Meta에서 발표한 Image to Video model인 DALL-E for video 까지 대부분의 최신 multimodal model pap.. 2022. 10. 6.