#용어 정리
FLOPs : 부동소수점 연산의 총 횟수. [연산량]
크기가 클수록 모델 복잡도가 크고, 추론 속도 큼
FLOPS : 부동소수점 연산을 1초동안 수행할 수 있는 횟수 [연산 속도]
하드웨어 성능과 관계 있음.
FPS : 1초 동안 처리할 수 있는 영상(이미지) 수 [모델 추론 속도]
FPS ≈ FLOPS(초당 연산량)/FLOPs(모델 연산량) ≈ 1/Latency(초)
- 딥러닝에서 모델 복잡도 비교 -> FLOPs
- GPU/CPU 성능 비교 -> FLOPS
| 모델 | 예상 FLOPs (GFLOPs) | 출처/비고 |
PointPillars (CVPR 2019) | 약 45–60 GFLOPs | 논문에는 FPS만 제시(62Hz, Fast 105Hz). FLOPs는 후속 벤치마크 논문에서 측정. |
SECOND (Sensors 2018) | 약 85–150 GFLOPs | 논문 본문에는 FLOPs 미기재, sparse conv라 연산량은 PointPillars보다 큼. |
Part-A²-Net (TPAMI 2020) | 약 200–250 GFLOPs | FLOPs 수치는 직접 계산해야 함. 논문에는 KITTI 기준 14FPS 언급. |
PV-RCNN (CVPR 2020) | 약 300–400 GFLOPs | 매우 무거움. FPS는 ~10–12, FLOPs 값은 repo에서 계산 가능. |
PV-RCNN++ (IJCV 2022) | 약 350–400 GFLOPs | FLOPs는 PV-RCNN과 비슷, 속도는 최적화 덕분에 3배 개선(10FPS 이상). |
CenterPoint (arXiv 2020) | 약 160–200 GFLOPs | anchor-free 3D detector. FLOPs 값은 공식 논문 미기재, OpenPCDet repo에서 계산 가능. |
Voxel R-CNN (arXiv 2020) | 약 200–250 GFLOPs | 논문에 25FPS on 2080Ti 언급. FLOPs는 sparse conv 기반이라 SECOND보다 약간 큼. |
DSVT (CVPR 2023) | Voxel: ~250–300 GFLOPs Pillar: ~120–150 GFLOPs | 논문 Experiments 참고. Transformer 구조라 연산량 큰 편. |
MPPNet (2022, 16frm) | 약 500+ GFLOPs | Multi-frame(16 frames) 입력 처리로 연산량 매우 큼. FLOPs는 OpenPCDet 구현에서 계산 가능. |
조사 논문
#PointPillars FLOPs 추론에 사용
PillarNeXt
https://openaccess.thecvf.com/content/CVPR2023/papers/Li_PillarNeXt_Rethinking_Network_Designs_for_3D_Object_Detection_in_LiDAR_CVPR_2023_paper.pdf
PillarNeSt
https://arxiv.org/pdf/2311.17770
첫댓글 예상 FLOPs 라는게 어떻게 구한건가요?
Chat Gpt를 이용하였습니다.
위 모델들에 대한 논문에 직접적으로 명시된 FLOPs값이 없으므로, 비슷한 형식의 모델의 FLOPs값을 사용하여 예상 FLOPs값을 추정하거나, FLOPs ≈ GPU성능(FLOPS) / FPS 의 식을 사용하여 추정. 혹은 모델 구조 기반 계산을 통하여 FLOPs 값을 계산하여 예상치를 구하는 방식을 사용했습니다.
현재는 대회의 목적이나 필요한 기초 정보들-알아야하는것-배워야하는것 등등을 찾아보고있으며, 이후 위 예상 FLOPs 값을 추정할때 사용된 논문들을 찾아보고 분석하여 예상 FLOPs 값에 대한 검증을 해볼 것 입니다.
개강 전까지는 대회 계획서에 따라 선정한 후보 모델에서 작년 데이터셋으로 점수 산출하여 모델 선정 하는 일을 선배님들과 하며 배워볼 예정입니다.