과거 보건학 석사때 논문쓰던 생각이 나서 퇴근후 밤에 술도 잘 안받고 한 밤에 잠도 없어
무료 통계패키지가 있다고 해서 통계학 공부를 시작했습니다
물어 볼때 가 없어서 초보로써 질문합니다
Shapiro-Wilk normality test
data: re
W = 0.95047, p-value = 1.378e-10
회귀분석에서 다음과 같이 결과가 나온 경우 정규분포 가정을 만족시키지 못하는 경우입니다.
궁금증
1) 회귀모형에 대한 기본 가정이 안되어 있으니 선형회귀식 자체가 의미가 없다
2)그래도 다른 것은 거의 만족 상태이니 선형회귀식을 써도 된다
3) 기타
솔직히 궁금하여 문의합니다 미리 답변을 주신 분께 감사드립니다
> sr=lm(waistline~weight)
> summary(sr)
Call:
lm(formula = waistline ~ weight)
Residuals:
Min 1Q Median 3Q Max
-31.967 -2.464 -0.260 2.604 14.005
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 38.58801 1.41375 27.30 <2e-16 ***
weight 0.65138 0.01876 34.71 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.312 on 414 degrees of freedom
Multiple R-squared: 0.7443, Adjusted R-squared: 0.7437
F-statistic: 1205 on 1 and 414 DF, p-value: < 2.2e-16
첫댓글 어차피 simulation된 데이터가 아니면 정규분포 가정을 완벽하게 만족시키는 건 없습니다. 정규성 검정은 표본 크기가 클수록 작은 차이에도 민감하게 반응합니다. qqplot 보시면 왼쪽 아래 뭔가 특이한 값이 있어보입니다. 그걸 넣을지 뺄지 결정하면 회귀분석 자체는 큰 문제가 없어 보입니다.
감사합니다
식을 보면 y=a+b*x+error에서 error가 정규분포를 따른다는 가정이죠. 정규분포가정은 회귀식의 정당성하고는 상관없습니다. 대신 추정에서 나온 검정통량들이 정규분포의 부산물인 t, F-분포를 따르지않습니다. 그래서 거기서 얻어진 p-value가 정확하지않습니다.
유용하게 책 잘 보고 있습니다. 단순회귀분석 98페이지에 나와있어 지식이 없다보니 꼭 필요할 것인줄 오해했습니다 ---------감사합니다
@황욱 보통 예측(prediction)만 하는 경우에는 회귀식만 있으면 되므로 정규분포가정이 필요없습니다. 그런데 가설검정을 하고 p-value를 구하려면 검정통계량의 분포를 알아야하므로 정규분포가정이 필요합니다.
@안재형 예 알겠습니다 감사합니다.
사실 perfect collinearity만 없다면 회귀계수 도출에는 아무런 문제가 없습니다. ((X'X)^-1 만 존재한다면)
나머지 가정은 적합도, unbiased, consistency, inference 문제가 발생합니다.
감사합니다