# 평가지표 리더보드
리더보드에서 평가지표로 생각하는 지표는 mAP50이다. 앞으로 Test 할때 mAP50지표를 기준으로 훈련을 평가해야겠다.
# 평가 지표 용어정리
P(precision) = 옳은 검출 / 모든 검출(옳게된 검출+틀린 검출) ==> 옳은 검출횟수 / 전체 검출횟수
ex) 알고리즘이 사람을 10명 검출했는데 그중에 옳게된 검출이 5였다. P=0.5
R(recall) = 옳다고 검출한 횟수 / 옳다고 검출해야하는 횟수
ex) 사람 10명을 옳게 검출해야하는데 그중에 5개만 옳다고 검출. R=0.5
mAP50 = 예측 바운딩박스가 정답바운딩박스영역과 50%이상 겹치는 갯수 / 전체 정답바운딩박스 갯수
mAP50-95 = 위의 설명과 동일하나 임계값(겹치는영역의 크기)가 증가한것
mAP50지표가 mAP50-95지표보다 높을 수 밖에 없음--> 임계값이 작기때문
# Data 분석
Train 데이터셋(20,000)여 장에는 환경이 낮이거나 흐린 데이터만 존재했다.
그러나 우리가 실제로 모델의 정확도를 올려야하는 데이터는 13,000장 정도 되는데 Test데이터를 분석해보니 비오는날 매우 흐린날 저녁, 심야데이터등등 훈련데이터에는 없는 조건의 데이터가 굉장히 많았다. 특히 야간데이터가 3,000여장 정도 되었고 비오거나 흐린날 등도 4,000여장 되는것으로 파악되었다.
야간데이터를 살펴보면 신호등의 빛번짐이 심하고, 차량 후미등 가로등 불빛 그리고 건물 불빛등 신호등 불빛과 굉장히 유사한 특징을 가진것들이 분포하여서 야간이나 흐린사진에서 성능을 올리는것이 리더보드 점수를 올리는데 큰 도움이 될것으로 판단된다.
야간 데이터의 성능을 개선하기 위해선 train에 데이터를 야간데이터셋과 유사하게 만들어 줘야한다. 그러기 위해선 data 증식 기법을 사용하여 train데이터를 변형시켜 함수를 훈련시켜야 할것 같다. 그러기 위해선 Yolo에서 제공하는 함수의 data증식 파라미터를 공부해야한다. 그래야 내가 원하는 방식의 증식을 자유자재로 할 수 있다.
# Yolo 데이터 증식 분석
https://docs.ultralytics.com/modes/train/#introduction