본문 바로가기

논문리뷰9

[논문 리뷰] Diffusion Self-Guidance for Controllable Image Generation (NeurIPS 2023) NeurIPS 2023 논문.openreview를 보면 6 6 5 7을 받아 accept되었는데, 내가 논문의 contribution을 덜 이해한건지 조금 아쉽긴 했다. (논문이 별로라기보단, NIPS의 명성과 더 좋은 논문들이 reject되는걸 너무 많이 봐서 약간의 아쉬움 정도..)arxiv : https://arxiv.org/abs/2306.00986code : https://github.com/Sainzerjj/Free-Guidance-Diffusion(non official) Before reading논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다.Self Guidance? additional한 condition없이 스스로 guiding 하는 방법론 인 것 같다. (.. 2024. 6. 4.
[논문 리뷰] DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models (AAAI 2024) arxiv : https://arxiv.org/abs/2309.06933code : https://github.com/webtoon/dreamstyler Before reading논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다.Style Inversion이라는 것을 통해 style을 저장(?)한 뒤 그 style을 원하는 프롬프트 혹은 이미지에 입혀서 새로운 이미지를 생성하는 논문일 것 같다.논문의 main figure를 보고 전체 흐름을 유추해봅시다.이해되지 않는 파트가 있나요? 있다면 미리 표시해두고 집중적으로 읽어봅시다figure만 보고 유추를 해보자면, Style을 BLIP-2를 이용해 captioning을 하고 그 정보 C_c와 prompt로 부터의 token C_o.. 2024. 5. 28.
[논문 리뷰] MasaCtrl: Tuning-Free Mutual Self-Attention Control for ConsistentImage Synthesis and Editing (ICCV 2023) arxiv : https://arxiv.org/abs/2304.08465 code : https://github.com/TencentARC/MasaCtrl Before reading 논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다. -> Mutual Self-Attention이 뭘까... 논문의 main figure를 보고 전체 흐름을 유추해봅시다. 이해되지 않는 파트가 있나요? 있다면 미리 표시해두고 집중적으로 읽어봅시다. 1. Introduction 논문이 다루는 task : conditional image generation Input : image + prompt Output : image 해당 task에서 기존 연구 한계점 reference로 주어진(condition.. 2024. 2. 11.
[논문 리뷰] NOISE MAP GUIDANCE: INVERSION WITH SPATIALCONTEXT FOR REAL IMAGE EDITING (ICLR 2024) arxiv : https://openreview.net/pdf?id=mhgm0IXtHw code : https://github.com/hansam95/NMG 1. Introduction 논문이 다루는 task : text guided image editing Input : image Output : (text guidance를 통해 condition된) image 해당 task에서 기존 연구 한계점 DDIM inversion의 image reconstruction은 원래 이미지로 복원하지 못하고, 전혀 다른 이미지로 reconstruct되는 문제점이 있다. (Prompt-to-Prompt에서는 이러한 문제점의 원인이 CFG(classifier free guidance)에 있다고 말한다.) Null Tex.. 2024. 2. 10.
[논문 리뷰] Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions (ICLR 2024 Oral) arxiv : https://arxiv.org/pdf/2310.03016.pdf code : X In-context learning에 대해 나온 논문들 중 엄청 최근에 나온 논문이다. 얼마 전 발표된 ICLR 2024에서 oral paper로 선정되었고, 매주 목요일마다 진행 중인 LLM 스터디에서 내가 발표를 맡기로 해서(고르고 약간 후회했다 ..), 매우 자세하게 리뷰할 예정이다. 아마 이 논문을 완벽하게 이해하면, top-down으로 in-context learning을 공부하는 좋은 스타트가 되지 않을까 생각한다. Before reading 논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다. -> Discrete Function을 학습해 Transformer 및 LLM의.. 2024. 2. 1.
[논문 리뷰] General Image-to-Image Translation withOne-Shot Image Guidance (ICCV 2023) arxiv : https://arxiv.org/abs/2307.14352 code : https://github.com/CrystalNeuro/visual-concept-translator 1. Introduction 논문이 다루는 task : image2image translation, style transfer Input : 2 images (reference image, source image) Output : image (source image의 structure는 보존하고, reference image의 concept(style)을 적용한 new image) 2. Related Work GAN Image2Image translation task에서 기존의 GAN 기반 방법론들은 학습이 어렵고, .. 2024. 1. 24.