본문 바로가기
Paper Review/Diffusion Model

[논문 리뷰] Diffusion Self-Guidance for Controllable Image Generation (NeurIPS 2023)

by climba 2024. 6. 4.

NeurIPS 2023 논문.

openreview를 보면 6 6 5 7을 받아 accept되었는데, 내가 논문의 contribution을 덜 이해한건지 조금 아쉽긴 했다. (논문이 별로라기보단, NIPS의 명성과 더 좋은 논문들이 reject되는걸 너무 많이 봐서 약간의 아쉬움 정도..)

arxiv : https://arxiv.org/abs/2306.00986

code : https://github.com/Sainzerjj/Free-Guidance-Diffusion(non official)

 

Before reading

  1. 논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다.
    1. Self Guidance? additional한 condition없이 스스로 guiding 하는 방법론 인 것 같다. (cfg도 비슷한거 아닌가?)
  2. 논문의 main figure를 보고 전체 흐름을 유추해봅시다.

figure만 봐서는 잘 모르겠다..

1. Introduction

  1. 논문이 다루는 task : diffusion guidance method
  2. 해당 task에서 기존 연구 한계점

Textual Inversion, DreamBooth : finetuning을 잘해야함

Text2Live InstructPix2Pix : expensive paired data로 finetuning 필요 + costly optimization process

P2P, SDEdit : limited control, structure-preserving appearance manipulation은 가끔씩 못함

2. Related Work

Diffusion generative models, Guidance(CG,CFG), attention in Diffusion models

3. 제안 방법론

- Main Idea

Diffusion Unet의 activation과 attention map에 self-guidance를 줄 수 있는 정보들이 이미 있고, 아래의 수식들을 통해 각각의 (self) guiding을 할 수 있다.

 

위치(position) 바꾸기

위 centroid 식을 이용해 아래와 같이 0.3, 0.5 위치로 object를 이동시킬 수 있다.

 

크기(size) 바꾸기

모양(shape) 바꾸기

생김새(appearance)바꾸기

 

 

 

그리고 위 position, size, shape, appearance 네개의 guidance들을 잘 조합하면 복잡한 mainpulation도 가능

 

4. 실험 및 결과

- Baseline

ControlNet, P2P등과의 비교
Dreambooth와의 비교

성능이 그렇게 좋나? 싶긴하지만, training-free이고 sampling process만 바꿔서 이 정도면 잘하는것 같다.

- Results

real image editing도 가능

- Limitations

특히 potato만 옮기고 싶은데, object(potato)가 팝콘이랑 붙어있으면 둘 다 옮겨지는게 critical해보인다.

 

버클리, 구글에서 낸 NIPS논문 치고 많이 아쉬운 것 같다.

그래도 self-guidance라는 키워드의 novelty와, 기존에 diffusion unet이 충분한 representation을 잘 담고 있다는 연구들을 잘 응용했고, 성능도 준수해서 accept된 게 아닌가 싶다.(그치만 official code도 안 낸건 .....ㅠ)

댓글