안녕하세요. 안재형 선생님의 책으로 R통계에 입문하여 열공 중인 초보 연구자입니다.
안재형 선생님의 책에서 "일원분산분석은 설명변수가 연속형 대신 이산형인 회귀분석이라고 생각하면 된다."라는 글을 보았는데요.
공부와 통계분석을 하다보니 궁금한 점이 생겼는데, 통계 비전공자로서 여기저기 찾아봐도 답이 잘 나오지 않아, 까페에 이렇게 질문드려 봅니다.
질문1. ANOVA의 정규성 가정
t-test의 경우에는 (X̄1-X̄2)의 표집분포의 정규성이 가정 중에 하나이고, n1과 n2의 크기가 클 때에는 두 모집단이 정규분포인가의 여부와 관계없이 중심극한정리에 의해 (X̄1-X̄2)의 표집분포는 정규분포를 따르기 때문에, n1> 30, n2>30인 경우 두 모집단이 정규분포를 따르지 않아도 상관 없는 것으로 알고 있습니다.
ANOVA의 경우에는 가정 중 하나가, normality <within each group>으로 알고 있습니다.
따라서 3 group에 대해 정규성을 검정할 때, 각 군에 대해 각각 정규성을 검정해야 하는 것으로 알고 있는데요.
t-test와 달리 ANOVA의 경우에는 가정이 normality <within each group>이라서, n1>30, n2>30, n3>30이어도, normality <within each group>의 가정이 만족되지 않기 때문에, 정규성 검정을 했을 때 정규성 검정이 만족이 되지 않는 경우, n1>30, n2>30, n3>30, 즉 n 수가 많다는 이유만으로 정규성 검정 결과를 무시하고 ANOVA 분석을 해서는 안 될 것 같다는 생각이 드는데요.
각 군의 n수가 30을 넘는 대표본이라면, 정규성 가정을 무시하고 ANOVA를 해도 되는지, 하면 안 되는지 궁금합니다.
질문2. 회귀분석의 일종으로서의 ANOVA
또한 ANOVA를 다르게 해석하면 회귀모형의 일종으로 해석할 수 있는 것으로 알고 있는데요.
ANOVA를 회귀모형의 하나로 생각하고 분석을 하게 되면, 회귀모형의 가정만 점검하면 되는데,
그럼 각군에 대해 각각 정규성 검정을 할 필요 없이, residual에 대해서만 정규성, 등분상성, 독립성을 검정하면 되게 되는 것 같은데요.
분석을 하다보면, ANOVA의 가정인 각군에 대한 정규성 검정을 했을 때는 정규성 검정은 만족하지 못 하는데,
ANOVA를 회귀모형의 하나로 생각하고 분석했을 때 residual에 대해서는 정규성, 등분상성, 독립성을 모두 만족하는 경우가 있는데요.
이 때 각군에 대한 정규성 검정이 만족되지 않아도, 그냥 ANOVA를 회귀모형으로 생각하고 residual에 대한 가정만 만족되면 분석을 진행해도 되는 건지 궁금합니다.
첫댓글 anova나 회귀분석이나 마찬가지입니다. y = 모형 + error 입니다. 여기서 모형을 추정하는데 정규분포 가정이 전혀 필요없습니다. 분포가정을 해서 p-value를 계산하려고 분포를 가정해야합니다. anova나 회귀분석의 정규분포 가정은 error가 정규분포를 따른다는 것입니다. 즉 error의 추정치인 "잔차"로 정규분포 가정을 테스트하면 됩니다. anova에서 각 그룹이 정규분포를 따를 필요는 없습니다.
n이 크다고 t-test나 anova를 사용할 수는 없습니다. 비모수 방법을 사용하죠.
선생님 답변 진심으로 감사드립니다. 혹시 괜찮으시면 하나 더 여쭤봐도 될까요?
위 2개 슬라이드는 coursera에서 Duke university의 Department of Statistical Science에서, Associate Professor of the Practice인 Mine Çetinkaya-Rundel가 진행하는 Statistics with R이라는 강좌의 슬라이드인데요.(https://www.coursera.org/specializations/statistics)
위 강의에서, Approximate normality: distributions should be nearly normal within each group라고 하고,
그것을 검정하는 방법으로 두번째 슬라이드를 보시면,
4개의 군에 대해서 각각 qqplot을 그려서 4개의 군에 대해 각각 정규성 검정을 합니다.
안재형 선생님 말씀이 정답이겠지만, 또 통계학과 교수가 위와 같이 이야기를 하니 헷갈리네요ㅠㅠ
앤디필드라는 사람이 유명한 사람인 것 같은데, 그 사람이 쓴 Discovering statistics using R이라는 책에서도,
10.3. Assumptions of ANOVA
The assumptions under which the F-statistic is reliable are the same as for all parametric tests based on the normal distribution (see section 5.2). That is, the variances in each experimental condition need to be fairly similar (homogeneity of variance), observations should be independent and the dependent variable should be measured on at least an interval scale. ★In terms of normality, what matters is that distributions within groups are normally distributed.★
라고 하구요.
통계 초보인지라 너무나 헷갈리네요. 고개숙여 가르침을 구합니다.
한번 더 가르침을 주시면 너무나 감사하겠습니다.
@김찬식 전 틀렸다고 봅니다. 교과서적인 모형 가정은 error가 정규분포를 따른다는 가정입니다. error의 추정치는 잔차고요. 교수는 강의만 하지 데이터 분석을 하는건 아니고 그냥 머리 속으로 잠깐 생각해봤을 가능성이 큽니다. 항상 맞다고 생각하기는 힘들죠. 사실 검색해보면 각 군마다 정규성 검정을 해야한다는 주장도 있습니다. 그런데 각 군마다 정규성 검정 하는게 맞다고 해도 현실적으로 쉽지않습니다. n이 몇개 안되는 경우도 많고 단 한 그룹에서라도 기각되면 어찌해야하는지... 2-way anova는 그 많은 조합을 다 조사야해야하는지... 현실성이 없어요.
@안재형 그렇군요! 소중한 답댓글 진심으로 감사드립니다^^