본문 바로가기
기타/잡설

논문 좀 읽자

by climba 2024. 4. 29.

KIST에서 인턴 시작한지도 벌써 2달이 지났다.

많은 것을 배웠고 또 하고 싶었던 실험도 실컷 하였지만, 주로 코딩(만)을 많이 하고 있고, 논문은 별로 안 읽는 것 같아 걱정이다.

일단 이번주에는 무슨 일이 있어도 아래 5편의 논문은 읽을 것이다.

 

코딩 실력은 확실히 실험도 많이 돌리고 코딩을 많이 하니까 느는 것 같다. 사수분 연구 도와드리는 것 말고 내 연구 주제도 얼른 잡아야하는데, 석사 2년이 너무 짧을 것 같아 조급한 마음이 드는 것 같다.

우선은 LLM의 여러 논문들을 읽어보고, 좋은 특성들이 있으면 diffusion model같은 vision model이나 multimodal model에 적용하는 연구를 하고 싶은데, 뜬구름 잡는 얘기같아서 공부가(및 실험) 좀 더 필요할 것 같다.

 

수학도 위상수학을 공부해야하는데, 1주일 정도 밀리고 있는 것 같다. 그래도 마음의 짐이였던 교양과목 중간고사 및 사수분 실험 도와드리는게 어느정도 안정기에 접어들어 시간을 좀 더 낼 수 있을듯하다.

무엇보다 이번주부터는 출근좀 일찍(지금보다 훨씬)하자!

 

https://arxiv.org/abs/2304.06025

 

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

We present DreamPose, a diffusion-based method for generating animated fashion videos from still images. Given an image and a sequence of human body poses, our method synthesizes a video containing both human and fabric motion. To achieve this, we transfor

arxiv.org

https://arxiv.org/abs/2403.17804

 

Improving Text-to-Image Consistency via Automatic Prompt Optimization

Impressive advances in text-to-image (T2I) generative models have yielded a plethora of high performing models which are able to generate aesthetically appealing, photorealistic images. Despite the progress, these models still struggle to produce images th

arxiv.org

https://arxiv.org/abs/2312.04410

 

Smooth Diffusion: Crafting Smooth Latent Spaces in Diffusion Models

Recently, diffusion models have made remarkable progress in text-to-image (T2I) generation, synthesizing images with high fidelity and diverse contents. Despite this advancement, latent space smoothness within diffusion models remains largely unexplored. S

arxiv.org

https://arxiv.org/abs/2304.06140

 

An Edit Friendly DDPM Noise Space: Inversion and Manipulations

Denoising diffusion probabilistic models (DDPMs) employ a sequence of white Gaussian noise samples to generate an image. In analogy with GANs, those noise maps could be considered as the latent code associated with the generated image. However, this native

arxiv.org

https://arxiv.org/abs/2305.15391

 

A Neural Space-Time Representation for Text-to-Image Personalization

A key aspect of text-to-image personalization methods is the manner in which the target concept is represented within the generative process. This choice greatly affects the visual fidelity, downstream editability, and disk space needed to store the learne

arxiv.org

 

'기타 > 잡설' 카테고리의 다른 글

최근 근황 (졸업과 논문)  (1) 2024.08.19
당분간 영어 시험 그만 봐야지..  (1) 2024.02.15
논문 리뷰 방향성  (0) 2024.01.12

댓글