본문 바로가기

Diffusion11

[논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for ConsistentImage Synthesis and Editing (ICCV 2023) arxiv : https://arxiv.org/abs/2304.08465 code : https://github.com/TencentARC/MasaCtrl Before reading 논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다. -> Mutual Self-Attention이 뭘까... 논문의 main figure를 보고 전체 흐름을 유추해봅시다. 이해되지 않는 파트가 있나요? 있다면 미리 표시해두고 집중적으로 읽어봅시다. 1. Introduction 논문이 다루는 task : conditional image generation Input : image + prompt Output : image 해당 task에서 기존 연구 한계점 reference로 주어진(condition.. 2024. 2. 11.
[논문 리뷰] NOISE MAP GUIDANCE: INVERSION WITH SPATIALCONTEXT FOR REAL IMAGE EDITING (ICLR 2024) arxiv : https://openreview.net/pdf?id=mhgm0IXtHw code : https://github.com/hansam95/NMG 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계점 DDIM inversion의 image reconstruction은 원래 이미지로 복원하지 못하고, 전혀 다른 이미지로 reconstruct되는 문제점이 있다. (Prompt-to-Prompt에서는 이러한 문제점의 원인이 CFG(classifier free guidance)에 있다고 말한다.) Null Tex.. 2024. 2. 10.
생성모델의 평가지표 톺아보기(Inception, FID, LPIPS, CLIP score, etc ..) 생성모델 관련 연구를 하며, 또 몇번의 인턴 면접을 보며, 생성모델을 평가하는 메트릭에 대해 "잘" 알고있는 것이 매우 중요하다는 생각이 든다. 사실 이미지를 잘 생성한다라는 것을 수치적으로 명확히 정량화하는 것은 매우 어려운 영역이고, 아직도 활발히 연구 중에 있다. 그러나 그럼에도, 생성모델을 연구하는데 있어서 정량적인 비교는 반드시 필요하기에 이미 많은 논문에서 자신만의 혹은 기존에 쓰이던 정량지표를 활용하여 해당 본인 논문의 우수성을 입증하고 있다. 오늘은 이러한 생성모델(gan, diffusion)의 연구들에서 주로 쓰이는 평가지표에는 어떤 것들이 있고, 각각이 어떤 의미를 갖는지 정리해보겠다. (사실 여기 나온 지표들 말고, 더 많은 좋은 메트릭들이 있을 수 있지만 내가 직접 논문들을 읽으며 .. 2024. 2. 7.
[논문 리뷰] General Image-to-Image Translation withOne-Shot Image Guidance (ICCV 2023) arxiv : https://arxiv.org/abs/2307.14352 code : https://github.com/CrystalNeuro/visual-concept-translator 1. Introduction 논문이 다루는 task : image2image translation, style transfer Input : 2 images (reference image, source image) Output : image (source image의 structure는 보존하고, reference image의 concept(style)을 적용한 new image) 2. Related Work GAN Image2Image translation task에서 기존의 GAN 기반 방법론들은 학습이 어렵고, .. 2024. 1. 24.
[논문 리뷰] Null-text Inversion for Editing Real Images using Guided Diffusion Models (CVPR 2023) arxiv : https://arxiv.org/abs/2211.09794 code : https://github.com/google/prompt-to-prompt/#null-text-inversion-for-editing-real-images 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계 Text-to-Image generation task에서 특정한 사람이나 사물을 보존하면서, condition하게 image를 생성하려면 DDIM Inversion process가 반드시 필요하다. DDIM inversion이.. 2024. 1. 18.
[Weekly paper review] 10월 1주차 논문 리뷰 (ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation) 이번주에 읽은 논문은 아래 1편의 논문이다. [읽음] ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation 이번주에는 주로 현재 생각중인 아이디어를 MNIST dataset으로 구현하는데 시간을 많이 할애했다. unet에 image condition을 어떻게 주어야할지가 조금 고민인데, 우선 IP-Adapter, Visii 등의 방식과 비슷하게 구현중이다. 원래는 논문을 안 읽으려했는데, unet에 image condition을 주는 reference paper들을 찾아보다가 이 논문을 발견하였다. 논문에서 하고자 하는 것이 내가 생각한 아이디어와 비슷한 것 같아서 바로 읽어보았다. (코드가 공개되.. 2023. 10. 7.