[3DOD] 6. Multi-modal 3d object detection 주요 논문

1. RNN, Attention, Transformer, Mamba  멀티모달 3d detection 모델에서 백본모델로 Transformer 를 많이 사용하기 때문에 Transformer에 대한 공부가 필요Transformer 모델은 RNN-> Attention을 갖는 RNN -> Self Attentention -> Transformer 순서로 발전해왔기 때문에 RNN 부터 순서대로 공부할것 (1) RNN, Transformer 기초머신러닝 교과서 파이토치편, 세바스찬 라시키 등 지음, 박해선 옮김, 길벗출판15장 RNN, 16장 Transformer 공부 RNN에 대해 이론적으로 깊이 있게 공부하고 싶다면 다음 교재를 참고할것기계학습, 한빛아카데미, 오일석, 2021년 -> 8장 순환신경망 참고 (2) Transformer (Attention Is All You Need), 2017년<a href="https://arxiv.org/abs/1706.03762" target="_top" class="ke-link">https://arxiv.org/abs/1706.03762</a>GPT, Gemini, Claude 등 LLM의 기반이 된 모델임,AI 역사상 가장 위대한 업적을 이룬 논문이니 꼭 읽어볼것-> Transformer모델을 최초로 제안한 논문, 위 교재 16장에 나옴-> 좀 설명이 부족함논문을 바로 이해하기는 힘들고 아래 교재에 자세히 설명되어 있으니 참고할것참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 트랜스포머 파트 참고할것 (3) Vision Transformer(ViT), 2020<a href="https://arxiv.org/abs/2010.11929" target="_blank" class="ke-link">https://arxiv.org/abs/2010.11929</a><a href="https://github.com/google-research/vision_transformer" target="_blank" class="ke-link">https://github.com/google-research/vision_transformer</a>-> Transformer모델은 주로 자연어 처리에 이용하는데 이를 비전분야에 적용한 논문, 영상분류용 모델참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것 (4) DETR : End-to-End Object Detection with Transformers, 2020<a href="https://arxiv.org/abs/2005.12872" target="_blank" class="ke-link">https://arxiv.org/abs/2005.12872</a>-> 객체검출용 Transformer모델참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것 (5) SETR : Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers , 2021<a href="https://arxiv.org/abs/2012.15840" target="_blank" class="ke-link">https://arxiv.org/abs/2012.15840</a>-> 영상분할용 Transformer모델참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것 (6) Swin Transformer: Hierarchical Vision Transformer using Shifted Windows , 2021<a href="https://arxiv.org/abs/2103.14030" target="_blank" class="ke-link">https://arxiv.org/abs/2103.14030</a>-> 분류,검출,분할,추적, 등에 두루 사용가능한 백본비전 트랜스포머 모델참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것 여기서부터는 안봐도 됨 (7) Mamba: Linear-Time Sequence Modeling with Selective State Spaces, 2024<a href="https://arxiv.org/pdf/2312.00752" target="_top" class="ke-link">https://arxiv.org/pdf/2312.00752</a><a href="https://github.com/state-spaces/mamba" target="_blank" class="ke-link">https://github.com/state-spaces/mamba</a>-> Transformer모델를 대체하는 최신 AI 모델 (8) Vision Mamba(Vim), 2024<a href="https://arxiv.org/abs/2401.09417" target="_blank" class="ke-link">https://arxiv.org/abs/2401.09417</a><a href="https://github.com/hustvl/Vim" target="_blank" class="ke-link">https://github.com/hustvl/Vim</a>-> Mamba 모델를 비전분야에 적용한 모델 (9) Jamba: A Hybrid Transformer-Mamba Language Model, 2024<a href="https://arxiv.org/abs/2403.19887" target="_blank" class="ke-link">https://arxiv.org/abs/2403.19887</a>-> Transformer모델과 Mamba 모델을 결합한 하이브리드 모델 (10)  AI 반도체 설계 논문Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving, 2025<a href="https://arxiv.org/abs/2507.10178" target="_blank" class="ke-link">https://arxiv.org/abs/2507.10178</a> <a href="https://www.irobotnews.com/news/articleView.html?idxno=42877" target="_blank" class="ke-link">https://www.irobotnews.com/news/articleView.html?idxno=42877</a> 2. Multi-modal 3D object detection 3d 객체인식 분야에서 카메라 영상과 라이다 포인트 클라우드를 동시에 사용하는 멀티모달 모델이 최신 경향임 (1) BEV 기반모델 BEVFusion, 2023년<a href="https://arxiv.org/abs/2205.13542" target="_top" class="ke-link">https://arxiv.org/abs/2205.13542</a><a href="https://github.com/mit-han-lab/bevfusion" target="_top" class="ke-link">https://github.com/mit-han-lab/bevfusion</a><a href="https://youtu.be/UAGOB3s1J3c" target="_blank" class="ke-link">https://youtu.be/UAGOB3s1J3c</a> LSS, 2020<a href="https://arxiv.org/abs/2008.05711" target="_top" class="ke-link">https://arxiv.org/abs/2008.05711</a><a href="https://research.nvidia.com/labs/toronto-ai/lift-splat-shoot/" target="_top" class="ke-link">https://research.nvidia.com/labs/toronto-ai/lift-splat-shoot/</a> MetaBEV, 2023년<a href="https://arxiv.org/abs/2304.09801" target="_blank" class="ke-link">https://arxiv.org/abs/2304.09801</a><a href="https://github.com/ChongjianGE/MetaBEV" target="_blank" class="ke-link">https://github.com/ChongjianGE/MetaBEV</a> UniBEV, 2024<a href="https://arxiv.org/abs/2309.14516" target="_blank" class="ke-link">https://arxiv.org/abs/2309.14516</a><a href="https://github.com/tudelft-iv/UniBEV?tab=readme-ov-file" target="_blank" class="ke-link">https://github.com/tudelft-iv/UniBEV?tab=readme-ov-file</a>