[VLM] 교재 및 주요논문

1. VLM 소개Vision Language Model비전정보를 이용하여 언어정보로 변환하는 모델그림을 보여주면 그림을 설명하는 텍스트를 생성하는 모델자율주행모델에서 모델이 출력한 제어명령의 판단근거를 설명해주는 모델 교재 : 허깅페이스로 배우는 멀티모달 모델, 정우준,이정인저, 디지털북스, 2026-> VLM부터 이미지생성모델까지 최신동향을 개론적인 수준에서 잘 정리해줌, 짧은시간안에 VLM 전체트렌드를 파악하는 입문서로 적당 최근동향dynamic resolution 지원positional embedding 기술 개선학습방식 개선 clip -> siglipVisual chain of thought 훈련fine tuning method -> LoRA, QLoRA인코더없이 영상, 텍스트, 오디오를 LLM이 바로 입력받는 native multi-modal LLM 방식 -> Gemma 4, Qwen3-Omni 2. 서베이 논문Vision-Language Models for Vision Tasks: A Survey, 2023<a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10445007" target="_blank" class="ke-link">https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10445007</a> An Introduction to Vision-Language Modeling, 2024<a href="https://arxiv.org/abs/2405.17247" target="_blank" class="ke-link">https://arxiv.org/abs/2405.17247</a> A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Eval‎uations and Challenges, 2025<a href="https://arxiv.org/abs/2501.02189" target="_blank" class="ke-link">https://arxiv.org/abs/2501.02189</a> 3. 주요논문CLIP : Learning transferable visual models from natural language supervision, 2021, OpenAI <a href="https://arxiv.org/pdf/2103.00020" target="_blank" class="ke-link">https://arxiv.org/pdf/2103.00020</a><a href="https://github.com/OpenAI/CLIP" target="_blank" class="ke-link">https://github.com/OpenAI/CLIP</a>-> contrastive learning을 이용하여 fine tuning 없이 zero shot prediction이 가능함을 보여준 논문 ConVIRT: Contrastive Learning of Medical Visual Representations from Paired Images and Text, 2020, Stanford University->  CLIP모델은 ConVIRT을 단순화시킨 모델이므로 CLIP 이해하려면 먼저 공부해야함<a href="https://arxiv.org/abs/2010.00747" target="_blank" class="ke-link">https://arxiv.org/abs/2010.00747</a> SLIP: Self-supervision meets Language-Image Pre-training, 2021, UC berkeley<a href="https://arxiv.org/abs/2112.12750" target="_blank" class="ke-link">https://arxiv.org/abs/2112.12750</a>-> CLIP는 지도학습을 사용했으나 SLIP는 자기지도학습을 통해 VLM을 학습시키는 방법제안 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, 2022, Salesforce Research-> 웹에 떠도는 노이즈가 많은 이미지-텍스트 데이터를 스스로 정제(부트스트래핑)하여 학습 효율과 성능을 극대화<a href="https://arxiv.org/abs/2201.12086" target="_blank" class="ke-link">https://arxiv.org/abs/2201.12086</a>  BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, 2023, Salesforce Research<a href="https://arxiv.org/abs/2301.12597" target="_blank" class="ke-link">https://arxiv.org/abs/2301.12597</a>-> 비전인코더와 LLM을 연결하는 모듈로 Q-Former를 제안하여 기존의 선행학습된 비전모델, LLM은 그대로 사용하고 연결부만 파인튜팅하여 기존 모델의 성능을 능가함을 증명  InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning , 2023, Salesforce Research-> instruction tuning 형식으로 구체적인 지시를 이해하고 그 의도에 맞게 반응하도록 훈련하여 제로샷일반화 성능 향상<a href="https://arxiv.org/abs/2305.06500" target="_blank" class="ke-link">https://arxiv.org/abs/2305.06500</a> UniCL : Unified Contrastive Learning in Image-Text-Label Space, 2022, Microsoft<a href="https://arxiv.org/abs/2204.03610" target="_blank" class="ke-link">https://arxiv.org/abs/2204.03610</a>-> Image-Text-Label 을 이용한 학습제안 CoCa: Contrastive Captioners are Image-Text Foundation Models, 2022, Google<a href="https://arxiv.org/abs/2205.01917v2" target="_blank" class="ke-link">https://arxiv.org/abs/2205.01917v2</a>-> image -> caption 변환 모델 FLAVA: A Foundational Language And Vision Alignment Model,2021, facebook<a href="https://arxiv.org/abs/2112.04482" target="_blank" class="ke-link">https://arxiv.org/abs/2112.04482</a>-> Vision Alignment 모델 SigLIP: Sigmoid Loss for Language Image Pre-Training, 2023, Google-> Sigmoid Loss 함수를 이용하여 CLIP 모델개선<a href="https://arxiv.org/abs/2303.15343" target="_blank" class="ke-link">https://arxiv.org/abs/2303.15343</a> LLaVa : Visual Instruction Tuning, 2023, University of Wisconsin–Madison and Microsoft<a href="https://arxiv.org/abs/2304.08485" target="_blank" class="ke-link">https://arxiv.org/abs/2304.08485</a>-> 비전인코더와 LLM을 연결하는 선형레이어(투영행렬, Projector) 제안, 기존의 BLIP-2의  Q-Former를 대체하면서 성능을 그대로 유지됨, BLIP-2 처럼 비전인코더 + 연결부 + LLM 구조이고 연결부만 파인튜팅하는 방식제안  Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond, 2023, Alibaba Group<a href="https://arxiv.org/abs/2409.12191" target="_blank" class="ke-link">https://arxiv.org/abs/2409.12191</a>-> 알리바바에서 개발한 VLM, ViT비전인코더+ Qwen LLM, Qwen2-VL(2024), Qwen3-VL(2025)으로 발전DeepSeek와 함께 중국에서 개발한 대표 LLM SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features,2025, Google deepmind<a href="https://arxiv.org/pdf/2502.14786" target="_top" class="ke-link">https://arxiv.org/pdf/2502.14786</a>-> siglip의 개선버전 SmolVLM: Redefining small and efficient multimodal models, 2025, Hugging Face<a href="https://arxiv.org/abs/2504.05299" target="_blank" class="ke-link">https://arxiv.org/abs/2504.05299</a>-> SmolVLM은 작고 효율적이면서도 강력한 성능을 목표로 개발된 새로운 모델, SmolVLM은 일상적인 기기에서도 AI를 쉽게 사용할 수 있는 가능성을 제시 Gemma4 : Unified Deployment-Aware Eval‎uation of Open Reasoning Language Models, 2026, Google deepmind<a href="https://arxiv.org/abs/2604.07035" target="_blank" class="ke-link">https://arxiv.org/abs/2604.07035</a><a href="https://github.com/google-gemma/cookbook" target="_blank" class="ke-link">https://github.com/google-gemma/cookbook</a> Qwen3-Omni Technical Report, 2025, Alibaba-> 텍스트, 영상, 오디오를 동시에 처리가능한 모델, 오디오 생성도 가능함<a href="https://arxiv.org/abs/2509.17765" target="_blank" class="ke-link">https://arxiv.org/abs/2509.17765</a> 4. fine tuning method InstructGPT: Training language models to follow instructions with human feedback, 2022, OpenAI<a href="https://arxiv.org/abs/2203.02155" target="_blank" class="ke-link">https://arxiv.org/abs/2203.02155</a> LoRA: Low-Rank Adaptation of Large Language Models, 2021, Microsoft<a href="https://arxiv.org/abs/2106.09685" target="_blank" class="ke-link">https://arxiv.org/abs/2106.09685</a> QLoRA: Efficient Finetuning of Quantized LLMs, 2023, University of Washington<a href="https://arxiv.org/abs/2305.14314" target="_blank" class="ke-link">https://arxiv.org/abs/2305.14314</a>