안녕하세요. 이원분산분석 관련하여 공부하다 질문이 있어 Q&A를 남기게 되었습니다.
아래에 통계분석 질문을 남겨주세요.
=>
통계학 교재에 나온 표현을 인용하겠습니다.
" 이원분산분석은 크게 2가지로 나눌 수 있다.
2개의 독립변수로 구분되는 각 집단 내 관측치 수에 따라 나뉘는데,
각 집단 내 관측치 수가 1개인 경우에는 주효과 분석만이 가능하며,
각 집단 내 관측치 수가 2개 이상인 집단이 존재하면 주효과와 상호작용효과 분석이 모두 가능하다. "
위 내용이 현재 이해되지 않는 부분입니다.
제가 이해한 곳까지만 말씀 드리겠습니다.
예를 들어, 매장의 규모(대, 중, 소)와 매장의 위치(강남, 강북)에 따라 매출액의 변화를 보고자 합니다.
이런 경우 총 6가지의 조합이 나올 수 있습니다. (대-강남, 중-강남, 소-강남, 대-강북, 중-강북, 소-강북)
각 집단 내 관측치가 1개라는 말은, 위의 각 조합에 해당하는 관측치가 1개씩밖에 없다는 것으로 이해했습니다.
즉, 대-강남에 해당하는 매출액 데이터도 1개, 중-강남에 해당하는 매출액 데이터도 1개... 인 것이죠.
반면 각 집단 내 관측치가 2개 이상이라는 말은 각 조합에 해당하는 관측치가 2개 이상이라는 뜻으로 이해됩니다.
즉 대-강남에 해당하는 매출액 데이터가 2개 이상 (ex) 100만원, 150만원 ...)인 것이죠.
위와 같이 관측치의 수에 따라 분리하는 것까지는 이해하였으나,
각 집단 내 관측치가 1개인 경우에는 어째서 주효과 분석"만" 가능한 것인지가 이해되지 않아 질문 남깁니다.
다시 말하면, 집단 내 관측치가 2개 이상이어야 하는 것이 상호작용효과 분석을 위한 충분조건인 것인데,
왜 이러한 조건이 있는지(필요한지) 이해가 잘 되지 않습니다.
감사합니다.
통계학술연구회 SPSS온라인 교육 : http://www.stats.or.kr/lecture.php

첫댓글 데이터를 측정해서 평균을 살펴보는 방법은 단순히 평균값만의 문제가 아닙니다. 제시한 문제처럼 1개의 데이터는 평균산출의 의미가 없으며 이에 따라 표준편차나 분산등의 개념을 적용하기 어렵습니다.
통계에서 평균이외의 분산과 표준편차를 산출할 수 있어야 적용가능한 방법이 바로 분산분석의 방법입니다.
덧붙여 반복측정 분산분석에서는 상호작용항에 대한 관심을 갖는 것이 가능하나 그 외 이원배치 분산분석이나 삼원배치 분산분석에서는 상호작용항의 해석이 의미가 없게 됩니다.
데이터를 왜 1개씩만 추출하지 않고 여러개 추출한 표본으로 분석을 할까요? 표본은 모집단의 정보를 그대로 따라가야 한다는 가정을 생각해 보시면 좋습니다. 표본 1개 산출했을 때, 과연 그 값이 무조건 대표성을 가질 수 있을까요? 여러개를 선택하는 이유는 다시, 정규성을 고려하는 측면에서 중심극한정리와 같은 표본평균들의 분포와 연결되어 있습니다. 따라서 충분히 많은 표본을 랜덤하게 뽑아야 대표성을 가질 수 있습니다.
교호작용(상호작용항)도 이와 마찬가지입니다. 대표성을 잃은 상태에서 어떠한 분석도 하기 힘듭니다. 이를 단순히 각 항목당 표본의 갯수가 2개 이상이어야 한다고 쉽게 설명하기 위한 방법으로 이해가 됩니다. 도움이 되시길...