본문 바로가기

논문리뷰7

[논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for ConsistentImage Synthesis and Editing (ICCV 2023) arxiv : https://arxiv.org/abs/2304.08465 code : https://github.com/TencentARC/MasaCtrl Before reading 논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다. -> Mutual Self-Attention이 뭘까... 논문의 main figure를 보고 전체 흐름을 유추해봅시다. 이해되지 않는 파트가 있나요? 있다면 미리 표시해두고 집중적으로 읽어봅시다. 1. Introduction 논문이 다루는 task : conditional image generation Input : image + prompt Output : image 해당 task에서 기존 연구 한계점 reference로 주어진(condition.. 2024. 2. 11.
[논문 리뷰] NOISE MAP GUIDANCE: INVERSION WITH SPATIALCONTEXT FOR REAL IMAGE EDITING (ICLR 2024) arxiv : https://openreview.net/pdf?id=mhgm0IXtHw code : https://github.com/hansam95/NMG 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계점 DDIM inversion의 image reconstruction은 원래 이미지로 복원하지 못하고, 전혀 다른 이미지로 reconstruct되는 문제점이 있다. (Prompt-to-Prompt에서는 이러한 문제점의 원인이 CFG(classifier free guidance)에 있다고 말한다.) Null Tex.. 2024. 2. 10.
[논문 리뷰] Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions (ICLR 2024 Oral) arxiv : https://arxiv.org/pdf/2310.03016.pdf code : X In-context learning에 대해 나온 논문들 중 엄청 최근에 나온 논문이다. 얼마 전 발표된 ICLR 2024에서 oral paper로 선정되었고, 매주 목요일마다 진행 중인 LLM 스터디에서 내가 발표를 맡기로 해서(고르고 약간 후회했다 ..), 매우 자세하게 리뷰할 예정이다. 아마 이 논문을 완벽하게 이해하면, top-down으로 in-context learning을 공부하는 좋은 스타트가 되지 않을까 생각한다. Before reading 논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다. -> Discrete Function을 학습해 Transformer 및 LLM의.. 2024. 2. 1.
[논문 리뷰] General Image-to-Image Translation withOne-Shot Image Guidance (ICCV 2023) arxiv : https://arxiv.org/abs/2307.14352 code : https://github.com/CrystalNeuro/visual-concept-translator 1. Introduction 논문이 다루는 task : image2image translation, style transfer Input : 2 images (reference image, source image) Output : image (source image의 structure는 보존하고, reference image의 concept(style)을 적용한 new image) 2. Related Work GAN Image2Image translation task에서 기존의 GAN 기반 방법론들은 학습이 어렵고, .. 2024. 1. 24.
[논문 리뷰] Null-text Inversion for Editing Real Images using Guided Diffusion Models (CVPR 2023) arxiv : https://arxiv.org/abs/2211.09794 code : https://github.com/google/prompt-to-prompt/#null-text-inversion-for-editing-real-images 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계 Text-to-Image generation task에서 특정한 사람이나 사물을 보존하면서, condition하게 image를 생성하려면 DDIM Inversion process가 반드시 필요하다. DDIM inversion이.. 2024. 1. 18.
[Weekly paper review] 10월 1주차 논문 리뷰 (ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation) 이번주에 읽은 논문은 아래 1편의 논문이다. [읽음] ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation 이번주에는 주로 현재 생각중인 아이디어를 MNIST dataset으로 구현하는데 시간을 많이 할애했다. unet에 image condition을 어떻게 주어야할지가 조금 고민인데, 우선 IP-Adapter, Visii 등의 방식과 비슷하게 구현중이다. 원래는 논문을 안 읽으려했는데, unet에 image condition을 주는 reference paper들을 찾아보다가 이 논문을 발견하였다. 논문에서 하고자 하는 것이 내가 생각한 아이디어와 비슷한 것 같아서 바로 읽어보았다. (코드가 공개되.. 2023. 10. 7.