혼동 행렬은 머신러닝 모델의 분류 성능을 평가하는 데 사용되는 테이블입니다. 특히, 모델이 얼마나 정확하게 예측을 수행했는지, 어떤 종류의 오류를 범했는지 시각적으로 보여줍니다.
혼동 행렬의 구성
혼동 행렬은 일반적으로 다음과 같은 네 가지 칸으로 구성됩니다.
- True Positive (TP): 실제로 양성인 데이터를 양성으로 정확하게 예측한 경우
- False Positive (FP): 실제로 음성인 데이터를 양성으로 잘못 예측한 경우
- True Negative (TN): 실제로 음성인 데이터를 음성으로 정확하게 예측한 경우
- False Negative (FN): 실제로 양성인 데이터를 음성으로 잘못 예측한 경우
혼동 행렬 활용
- 모델 성능 평가: 혼동 행렬을 통해 모델의 전체적인 정확도뿐만 아니라, 특정 클래스에 대한 예측 성능을 상세하게 분석할 수 있습니다.
- 오류 분석: 어떤 종류의 오류가 많이 발생하는지 파악하여 모델 개선에 활용할 수 있습니다.
- 모델 비교: 여러 모델의 혼동 행렬을 비교하여 가장 적합한 모델을 선택할 수 있습니다.
혼동 행렬에서 파생되는 지표
혼동 행렬을 기반으로 다음과 같은 다양한 성능 지표를 계산할 수 있습니다.
- 정확도 (Accuracy): 전체 예측 중 정확한 예측의 비율
- 정밀도 (Precision): 양성으로 예측한 것 중 실제 양성인 비율
- 재현율 (Recall): 실제 양성인 것 중 양성으로 예측한 비율
- F1 스코어: 정밀도와 재현율의 조화 평균
어떤 지표를 사용해야 할까요?
- 정확도: 모든 클래스의 비율이 비슷할 때 유용합니다.
- 정밀도: 오탐 (False Positive)을 최소화해야 할 때 중요합니다. (예: 스팸 메일 필터링)
- 재현율: 미탐 (False Negative)을 최소화해야 할 때 중요합니다. (예: 질병 진단)
- F1 스코어: 정밀도와 재현율을 동시에 고려해야 할 때 사용합니다.
카페 게시글
ML/DL/AI
정보
Confusion Matrix
주인장
추천 0
조회 16
24.07.30 15:04
댓글 0
다음검색