🤳
오늘은 자료의 중요한 특성 중 하나인 산포도에 대해 알아보고자 합니다.
산포도(Measure of Dispersion)
자료값들이 얼마나 흩어져 있는지 나타내주는 측도이며, 데이터 특성을 기술할 때 일반적으로 사용되는 중요 수치입니다.
산포도는 크게 1) 표준편차, 2) 변동계수, 3) 범위 로 구분됩니다.
1) 표준편차
- 평균으로부터 각각의 값이 얼마나 떨어져있는지를 측정하는 지수입니다.
- 표준편차가 클수록 평균으로부터 각각의 값이 넓게 분산되어 있고, 작을수록 평균을 중심으로 밀집되어 있음을 의미합니다.
표준편차 예시 : A학교와 B학교의 키 분포
- 위의 히스토그램은 A, B학교 학생의 키 분포입니다.
평균은 166.6 cm로 동일하지만, A학교는 140~190cm의 범위, B학교는 155~180cm까지의 범위로 나타납니다.
즉, A학교에 비해 B학교 학생의 키가 상대적으로 평균에 밀집되어 있고, 표준편차도 A학교보다 B학교가 작은 값으로 나타납니다.
- 이처럼 표준편차는 자료의 특성에 매우 중요한 의미를 지닙니다.
따라서 '평균'을 제시하는 경우에는 항상 '표준편차'가 함께 제시되어야 함을 기억하시기 바랍니다 ^^
2) 변동계수(CV)
- 단위가 서로 다른 자료들의 산포(퍼짐정도)를 비교하기 위한 값입니다.
- 측정 단위에 의존하지 않고 비교가 가능합니다.
변동계수 예시 : 한국인과 미국인의 발 사이즈 비교
- 한국과 미국은 서로 다른 단위로 발 사이즈를 표기합니다(한국: mm, 미국: inch)
따라서 단순히 표준편차로는 자료의 퍼짐 정도를 비교하기 어렵습니다. 이때 변동계수를 사용하여 비교합니다.
- 미국인 발 사이즈 자료 : 6.5, 7.5, 8, 8, 7.5, 6, 4.5, 8.5, 7.5, 5 (평균:7, 표준편차 1.35)
한국인 발 사이즈 자료 : 240, 250, 255, 260, 260, 270, 270, 255, 260, 250 (평균: 257, 표준편차: 9.19)
자료 분포를 확인한 결과, 미국인과 한국인 발사이즈 표준편차는 각각 1.35 inch, 9.19 mm입니다.
단순히 숫자만을 고려한다면 한국인의 발사이즈가 더 넓게 퍼져있는 것처럼 보이기도 합니다.
그러나 각각의 변동계수를 통해 단위를 동일하게 맞춘다면, 미국은 19.56, 한국은 3.58로 나타납니다.
즉, 실제로는 측정 자료로 볼 때, 한국인보다 미국인의 발 사이즈가 더욱 넓은 분포를 보인다고 할 수 있습니다.
3) 범위
- 최대값에서 최소값을 뺀 것으로, 자료 전체의 범위를 의미합니다.
- 장점: 계산이 편리하며, 직관적으로 이해하기 쉽습니다.
- 단점: 양 극단값 사이에 존재하는 다른 값들의 특성을 반영하지 못하고, 특이값에 따라서 범위가 바뀌기 쉬운 측면이 있습니다.