논문 리뷰9 [논문 리뷰] Matryoshka Multimodal Models (arxiv 240527) arxiv : https://arxiv.org/abs/2405.17430code : https://github.com/mu-cai/matryoshka-mm 이용재 교수님 세미나를 들으며 직접 전해들었던 논문.이 랩실의 연구들은 참 내 스타일인게 많은 것 같다.근데 사실 논문 자체는 뭐가 1도 없다;; Before reading논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다.Matryoshka 인형 처럼(?) token 수를 정하면 그거에 맞는 output(coarse to fine)을 출력하는 LMM논문의 main figure를 보고 전체 흐름을 유추해봅시다.적절한 M을 어떻게 구해야하는지가 궁금하다. 특정 이미지가 얼마나 복잡한지 그 최적의 token 수를 사람이 눈으로 보.. 2024. 8. 23. [논문 리뷰] IMPUS: IMAGE MORPHING WITH PERCEPTUALLY UNIFORM SAMPLING USING DIFFUSION MODELS (ICLR 2024) AID: Attention Interpolation of Text-to-Image Diffusion 논문과 비슷하게 image interpolation task(여기서는 image morphing task)를 수행한 연구다.실험부분에 AID와의 비교가 없어서 찾아보니, 이 논문이 선행연구여서 AID의 Appendix E에 본 논문(IMPUS)과 DiffMorpher(CVPR 2024)과의 비교가 있었다. 본 논문에서는 AID 이전에 있었던 diffusion interpolation 논문인 Interpolating between Images with Diffusion Models (ICMLW 2023)하고만 비교한다. 선행연구인 Interpolating ~ 이 논문이 real image에 대한 interp.. 2024. 6. 10. [논문 리뷰] FastDrag: Manipulate Anything in One Step (arxiv0524) Gradient based optimization 논문들을 찾아보다가 발견한 논문. DragGAN이나 DragDiffusion 등을 몇 번 들어봤었는데, Drag xxx의 sota model인 것 같다. 이해하는데 꽤 어려웠지만, 배울점이 많은 논문이였다.arxiv : https://arxiv.org/abs/2405.15769code : x Before reading논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다.~~~ Anything이란 제목을 그닥 좋아하지는 않지만 manipulate anything이라니 .. 방법이 굉장히 궁금했다. one step이란 단어는 처음에는 눈에 들어오지 않았는데, related work를 읽으며 기존에 drag xx 방식이 전부 몇십 ste.. 2024. 6. 7. [논문 리뷰] Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance (arxiv 24/03/26) arxiv : https://arxiv.org/abs/2403.17377code : https://github.com/KU-CVLAB/Perturbed-Attention-Guidance Before reading논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다.Rectifying이란 단어를 몰랐는데, 바로 잡는다는 뜻이다. self-guidance와 같이 스스로 바로잡는(?) 아마 cfg도 self guidance 느낌이니 그런 느낌이지 않을까 생각한다.(+ perturbed attention guidance를 덧붙인..)논문의 main figure를 보고 전체 흐름을 유추해봅시다. Figure가 정말 기가 막히다. CFG를 쓰는 논문을 정말 많이 보았지만, 이 그림이 CFG를.. 2024. 6. 3. [논문 리뷰] Improving Sample Quality of Diffusion Models Using Self-Attention Guidance (ICCV 2023) arxiv : https://arxiv.org/abs/2210.00939code : https://github.com/KU-CVLAB/Self-Attention-Guidance cfg에 대한 깊은 고민을 하다가 관련 연구들을 좀 찾아보았다.김승룡 교수님 연구실에서 낸 SAG와 PAG를 읽고, 몇 개의 다른 guidance 관련 논문들을 읽어보려한다.(https://arxiv.org/abs/2401.02847, https://arxiv.org/abs/2301.12334, https://arxiv.org/abs/2404.07724, https://arxiv.org/abs/2312.02150, https://arxiv.org/abs/2302.07121, https://arxiv.org/abs/2306.0098.. 2024. 6. 3. [논문 리뷰] MetaICL: Learning to Learn In Context (NAACL 2022) arxiv : https://arxiv.org/abs/2110.15943 code : https://github.com/facebookresearch/MetaICL 1. Introduction 논문이 다루는 task : in-context learning Input : x_1,y_1, ... ,x_k Output : y_k 해당 task에서 기존 연구 한계점 기존의 연구들에 따르면 LM의 모델 사이즈가 크거나(68B 이상), task reformatting 혹은 task-specific templates가 있어야만 in-context learning이 가능하다. 그러나 본 연구에서 제시하는 MetaICL은 훨씬 더 작은 언어 모델들로, specific한 formula없이 in-context learnin.. 2024. 1. 20. 이전 1 2 다음