1. RNN, Attention, Transformer, Mamba
멀티모달 3d detection 모델에서 백본모델로 Transformer 를 많이 사용하기 때문에 Transformer에 대한 공부가 필요
Transformer 모델은 RNN-> Attention을 갖는 RNN -> Self Attentention -> Transformer 순서로 발전해왔기 때문에 RNN 부터 순서대로 공부할것
(1) RNN, Transformer 기초
머신러닝 교과서 파이토치편, 세바스찬 라시키 등 지음, 박해선 옮김, 길벗출판
15장 RNN, 16장 Transformer 공부
RNN에 대해 이론적으로 깊이 있게 공부하고 싶다면 다음 교재를 참고할것
기계학습, 한빛아카데미, 오일석, 2021년 -> 8장 순환신경망 참고
(2) Transformer (Attention Is All You Need), 2017년
https://arxiv.org/abs/1706.03762
GPT, Gemini, Claude 등 LLM의 기반이 된 모델임,
AI 역사상 가장 위대한 업적을 이룬 논문이니 꼭 읽어볼것
-> Transformer모델을 최초로 제안한 논문, 위 교재 16장에 나옴-> 좀 설명이 부족함
논문을 바로 이해하기는 힘들고 아래 교재에 자세히 설명되어 있으니 참고할것
참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 트랜스포머 파트 참고할것
(3) Vision Transformer(ViT), 2020
https://arxiv.org/abs/2010.11929
https://github.com/google-research/vision_transformer
-> Transformer모델은 주로 자연어 처리에 이용하는데 이를 비전분야에 적용한 논문, 영상분류용 모델
참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것
(4) DETR : End-to-End Object Detection with Transformers, 2020
https://arxiv.org/abs/2005.12872
-> 객체검출용 Transformer모델
참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것
(5) SETR : Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers , 2021
https://arxiv.org/abs/2012.15840
-> 영상분할용 Transformer모델
참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것
(6) Swin Transformer: Hierarchical Vision Transformer using Shifted Windows , 2021
https://arxiv.org/abs/2103.14030
-> 분류,검출,분할,추적, 등에 두루 사용가능한 백본비전 트랜스포머 모델
참고교재 : 컴퓨터비전과 딥러닝, 한빛아카데미, 오일석지음, 2023년 -> 11장 비전 트랜스포머 참고할것
여기서부터는 안봐도 됨
(7) Mamba: Linear-Time Sequence Modeling with Selective State Spaces, 2024
https://arxiv.org/pdf/2312.00752
https://github.com/state-spaces/mamba
-> Transformer모델를 대체하는 최신 AI 모델
(8) Vision Mamba(Vim), 2024
https://arxiv.org/abs/2401.09417
https://github.com/hustvl/Vim
-> Mamba 모델를 비전분야에 적용한 모델
(9) Jamba: A Hybrid Transformer-Mamba Language Model, 2024
https://arxiv.org/abs/2403.19887
-> Transformer모델과 Mamba 모델을 결합한 하이브리드 모델
(10) AI 반도체 설계 논문
Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving, 2025
https://arxiv.org/abs/2507.10178
https://www.irobotnews.com/news/articleView.html?idxno=42877
2. Multi-modal 3D object detection
3d 객체인식 분야에서 카메라 영상과 라이다 포인트 클라우드를 동시에 사용하는 멀티모달 모델이 최신 경향임
(1) BEV 기반모델
BEVFusion, 2023년
https://arxiv.org/abs/2205.13542
https://github.com/mit-han-lab/bevfusion
https://youtu.be/UAGOB3s1J3c
LSS, 2020
https://arxiv.org/abs/2008.05711
https://research.nvidia.com/labs/toronto-ai/lift-splat-shoot/
MetaBEV, 2023년
https://arxiv.org/abs/2304.09801
https://github.com/ChongjianGE/MetaBEV
UniBEV, 2024
https://arxiv.org/abs/2309.14516
https://github.com/tudelft-iv/UniBEV?tab=readme-ov-file