3가지 모형중 가장 최적화 모델을 찾는 문제입니다.
Std. Error 와 t value , Pr(>|t|) 를 이용해 제외사항을 걸러내야 하는데
비통계 전문가의 비애가 느껴집니다.
프로그램에 삽입해서 자동선택되도록 만들부분이라 자세히 설명좀 부탁드립니다.
책을 봐도 잘 이해가 되지를 않습니다.
> acc
Assign Mean X1 X2
1 5 6.00 6.0 6
2 10 11.50 11.0 12
3 20 19.00 18.0 20
4 30 25.00 24.0 26
5 40 31.25 30.5 32
6 50 37.75 37.5 38
> fit1 <- lm(acc$Mean ~ acc$Assign)
> fit2 <- lm(acc$Mean ~ acc$Assign + I(acc$Assign^2))
> fit3 <- lm(acc$Mean ~ acc$Assign + I(acc$Assign^2) + I(acc$Assign^3))
>
> summary(fit1)
Call:
lm(formula = acc$Mean ~ acc$Assign)
Residuals:
1 2 3 4 5 6
-1.4863 0.5904 1.2438 0.3973 -0.1993 -0.5459
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.0630 0.8345 4.869 0.00823 **
acc$Assign 0.6847 0.0275 24.897 1.54e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.072 on 4 degrees of freedom
Multiple R-squared: 0.9936, Adjusted R-squared: 0.992
F-statistic: 619.9 on 1 and 4 DF, p-value: 1.545e-05
> summary(fit2)
Call:
lm(formula = acc$Mean ~ acc$Assign + I(acc$Assign^2))
Residuals:
1 2 3 4 5 6
-0.7002 0.7153 0.5525 -0.4351 -0.4976 0.3651
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.446883 0.989504 2.473 0.08984 .
acc$Assign 0.867542 0.089987 9.641 0.00237 **
I(acc$Assign^2) -0.003376 0.001618 -2.086 0.12826
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.7911 on 3 degrees of freedom
Multiple R-squared: 0.9974, Adjusted R-squared: 0.9956
F-statistic: 571.8 on 2 and 3 DF, p-value: 0.0001338
> summary(fit3)
Call:
lm(formula = acc$Mean ~ acc$Assign + I(acc$Assign^2) + I(acc$Assign^3))
Residuals:
1 2 3 4 5 6
-0.17200 0.30196 -0.07907 -0.22003 0.24344 -0.07430
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.913e-01 7.491e-01 0.255 0.82227
acc$Assign 1.303e+00 1.244e-01 10.476 0.00899 **
I(acc$Assign^2) -2.256e-02 5.243e-03 -4.302 0.05002 .
I(acc$Assign^3) 2.309e-04 6.255e-05 3.692 0.06617 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3466 on 2 degrees of freedom
Multiple R-squared: 0.9997, Adjusted R-squared: 0.9992
F-statistic: 1991 on 3 and 2 DF, p-value: 0.0005021
첫댓글 제 책 11장대로, anova(작은모형, 큰모형)을 이용해서 제거하는게 나을겁니다. 책에 있는대로 해보면,
> ff = anova(out2,out)
> ff$"Pr(>F)" 라고 하면 p-value를 포함하는 vector가 나옵니다.
> ff$"Pr(>F)"[2] 라고 하면 p-value가 나옵니다. 이걸 이용하시면 될겁니다.
fit을 이용하시려면
> names(summary(fit))을 해보시면 객체들이 나옵니다.
> summary(fit)$coefficients 가 t, Pr(>|t|)를 포함하는 array입니다. 좌표를 주면 원하는 값을 얻을수 있습니다.
감사합니다. 오늘도 즐거운 하루 되세요.