안녕하세요.
간단하지만 자주 접하는 상황에 대해서 질문드리고자 합니다.
만약 여러 집단 (a,b,c)의 데이터가 100개씩 있다면,
각 집단의 평균과 표준편차는 쉽게 구할 수가 있습니다.
그리고, 전체 집단의 평균도 각 집단의 평균을 평균함으로써 구할 수 있지요.
그렇다면 각 집단의 표준편차를 어떻게 전체 표준편차로 반영할 것인가의 문제가 남습니다.
한번 랜덤데이터를 만들어서 해보니까, 적어도 각 집단의 표준편차를 평균내는 것으로는 전체 표준편차 (a,b,c 집단의 모든 데이터의 표준편차)가 나오지 않더군요.
이런 경우에 전체 표준편차는 어떻게 구하는지 여쭤보고 싶습니다.
첫댓글 죄송합니다만 무슨 뜻인지 잘 모르겠습니다. 평균과 표준편차는 구하는 식이 다릅니다. 값을 더해서 갯수로 나누는 것과 제곱합을 갯수로 나누고 제곱근을 취하는데 같을 수가 없지요.
강성찬님 말대로 전체 표준편차는 각 집단의 표준편차의 평균으로 구해지지않습니다.
여러집단의 표준편차를 합치는 거라면... 이건 anova에서 공동분산 구하는 방식입니다. 일단 제곱해서 분산으로 바꾸고, (n-1)로 가중평균을 구합니다. 즉 세 집단 모두 n이 같다면 그냥 산술평균을 구하면 됩니다. 그걸 루트 씌우면 공동 표준편차가 되겠죠. 다르다면 분산의 가중평균을 구하는데 n이 각각 20, 30, 40 이라면 (19*s1 + 29*s2 + 39*s3) / (19+29+39) 가 공동분산입니다.
고맙습니다.
오며가며 들러 읽고갑니다.