본문 바로가기

Diffusion18

[논문 리뷰] Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model (SIGGRAPH 2024) ImageBrush의 후속 연구.ImageBrush 저자들한테 코드 공개 계획에 대해 메일을 보내봤지만 연락이 없었다. 그러던 중 후속 연구로 이 논문을 발견하게 되었는데, 코드가 공개되어 있었다. arxiv : https://arxiv.org/abs/2405.10316code : https://github.com/edward3862/Analogist1. Introduction논문이 다루는 task : ICL + diffusion modelInput : A, A', B (three images)Output : B' (one image)해당 task에서 기존 연구 한계점ICL + diffusion model들은 디테일한 부분까지 잡지는 못함.학습 시간도 오래걸리고 training-based methods의.. 2024. 5. 28.
[논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for ConsistentImage Synthesis and Editing (ICCV 2023) arxiv : https://arxiv.org/abs/2304.08465 code : https://github.com/TencentARC/MasaCtrl Before reading 논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다. -> Mutual Self-Attention이 뭘까... 논문의 main figure를 보고 전체 흐름을 유추해봅시다. 이해되지 않는 파트가 있나요? 있다면 미리 표시해두고 집중적으로 읽어봅시다. 1. Introduction 논문이 다루는 task : conditional image generation Input : image + prompt Output : image 해당 task에서 기존 연구 한계점 reference로 주어진(condition.. 2024. 2. 11.
[논문 리뷰] NOISE MAP GUIDANCE: INVERSION WITH SPATIALCONTEXT FOR REAL IMAGE EDITING (ICLR 2024) arxiv : https://openreview.net/pdf?id=mhgm0IXtHw code : https://github.com/hansam95/NMG 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계점 DDIM inversion의 image reconstruction은 원래 이미지로 복원하지 못하고, 전혀 다른 이미지로 reconstruct되는 문제점이 있다. (Prompt-to-Prompt에서는 이러한 문제점의 원인이 CFG(classifier free guidance)에 있다고 말한다.) Null Tex.. 2024. 2. 10.
생성모델의 평가지표 톺아보기(Inception, FID, LPIPS, CLIP score, etc ..) 생성모델 관련 연구를 하며, 또 몇번의 인턴 면접을 보며, 생성모델을 평가하는 메트릭에 대해 "잘" 알고있는 것이 매우 중요하다는 생각이 든다. 사실 이미지를 잘 생성한다라는 것을 수치적으로 명확히 정량화하는 것은 매우 어려운 영역이고, 아직도 활발히 연구 중에 있다. 그러나 그럼에도, 생성모델을 연구하는데 있어서 정량적인 비교는 반드시 필요하기에 이미 많은 논문에서 자신만의 혹은 기존에 쓰이던 정량지표를 활용하여 해당 본인 논문의 우수성을 입증하고 있다. 오늘은 이러한 생성모델(gan, diffusion)의 연구들에서 주로 쓰이는 평가지표에는 어떤 것들이 있고, 각각이 어떤 의미를 갖는지 정리해보겠다. (사실 여기 나온 지표들 말고, 더 많은 좋은 메트릭들이 있을 수 있지만 내가 직접 논문들을 읽으며 .. 2024. 2. 7.
[논문 리뷰] General Image-to-Image Translation withOne-Shot Image Guidance (ICCV 2023) arxiv : https://arxiv.org/abs/2307.14352 code : https://github.com/CrystalNeuro/visual-concept-translator 1. Introduction 논문이 다루는 task : image2image translation, style transfer Input : 2 images (reference image, source image) Output : image (source image의 structure는 보존하고, reference image의 concept(style)을 적용한 new image) 2. Related Work GAN Image2Image translation task에서 기존의 GAN 기반 방법론들은 학습이 어렵고, .. 2024. 1. 24.
[논문 리뷰] Null-text Inversion for Editing Real Images using Guided Diffusion Models (CVPR 2023) arxiv : https://arxiv.org/abs/2211.09794 code : https://github.com/google/prompt-to-prompt/#null-text-inversion-for-editing-real-images 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계 Text-to-Image generation task에서 특정한 사람이나 사물을 보존하면서, condition하게 image를 생성하려면 DDIM Inversion process가 반드시 필요하다. DDIM inversion이.. 2024. 1. 18.