Paper Review/Large Multimodal Model2 [논문 리뷰] Matryoshka Multimodal Models (arxiv 240527) arxiv : https://arxiv.org/abs/2405.17430code : https://github.com/mu-cai/matryoshka-mm 이용재 교수님 세미나를 들으며 직접 전해들었던 논문.이 랩실의 연구들은 참 내 스타일인게 많은 것 같다.근데 사실 논문 자체는 뭐가 1도 없다;; Before reading논문 제목을 보고 해당 모델이 어떤 방법론을 바탕으로 할지 가설을 세워봅시다.Matryoshka 인형 처럼(?) token 수를 정하면 그거에 맞는 output(coarse to fine)을 출력하는 LMM논문의 main figure를 보고 전체 흐름을 유추해봅시다.적절한 M을 어떻게 구해야하는지가 궁금하다. 특정 이미지가 얼마나 복잡한지 그 최적의 token 수를 사람이 눈으로 보.. 2024. 8. 23. [최대한 자세하게 설명한 논문리뷰] Flamingo: a Visual Language Model for Few-Shot Learning (1) - References https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/tackling-multiple-tasks-with-a-single-visual-language-model/flamingo.pdf (논문 원본) Multimodal VLM은 nlp뿐만 아니라 computer vision에서도 알아야 할 사전 지식이 많아 글 중간중간에 특정 설명을 논문 링크로 대체한 경우들이 있습니다. 해당 논문들에 대해서는 추후에 다시 읽고 정리해보겠습니다. Flamingo 논문을 자세히 읽으며 공부한 내용들을 논문의 목차 순서대로 정리해보았다. (연구 주제를 찾는 과정에서 논문들을 읽었기 때문에, 레퍼런스 논문을 최대한 많이 첨부하였고, 설명이 다소.. 2022. 8. 26. 이전 1 다음