작년에 이어 올해에도 계속하고 있는 연구입니다. 손목의 혈관의 동맥경화 정도를 혈관내초음파를 이용하여 동맥경화 정도를 평가하였는데 나이의 제곱과 성별이 유의하게 나왔읍니다. 동맥경화 정도는 NTAV(mm3)이고 나이는 AGE(년)으로 표시되어 있고 성별은 MALE이라는 필드에 저장되어 있는데 남자는 1, 여자는 0으로 코딩되어 있읍니다.
ANCOVA를 이용하여 회귀식를 구해보면
> out2=lm(NTAV~(I(AGE^2)-1)+MALE,data=radial)
> summary(out2)
Call:
lm(formula = NTAV ~ (I(AGE^2) - 1) + MALE, data = radial)
Residuals:
Min 1Q Median 3Q Max
-55.698 -11.437 0.828 13.421 83.108
Coefficients:
Estimate Std. Error t value Pr(>|t|)
I(AGE^2) 1.247e-02 6.601e-04 18.897 < 2e-16 ***
MALE 2.936e+01 4.016e+00 7.311 4.08e-11 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 23.64 on 113 degrees of freedom
Multiple R-squared: 0.8967, Adjusted R-squared: 0.8948
F-statistic: 490.2 on 2 and 113 DF, p-value: < 2.2e-16
즉, NTAV = 0.0125*AGE2 + 29.4 * MALE의 회귀식을 얻었읍니다. 먼저 나이와 동맥경화 정도를 그래프로 나타내보면
> plot(sqrt(NTAV)~AGE,data=radial,col="blue")
> abline(out2,col="red")
그림 1과 같은 그래프를 얻습니다.
이 그래프도 의미는 있지만 남자와 여자의 데이타가 분간이 되지 않고 y축이 sqrt(NTAV)라는 점이 마음에 들지 않습니다.
남자,여자를 동그라미가 아닌 M,F로 표시하며 구분하고 y축을 sqrt(NTAV)가 아니라 NTAV로 취한후 각각의 회귀곡선을 그리면 그림 2와 같습니다.
먼저 MALE이라는 숫자 필드에 1,0으로 코딩되어 있는 것을 구별하여 “M”,”F”로 표시하게 위해 SEX라는 필드를 만들고 MALE이 1이면 “M”, 0이면 “F”으로 코딩합니다.
> radial$SEX[radial$MALE==1]="M"
> radial$SEX[radial$MALE==0]="F"
그리고 동그라미 대신 “M”,”F”를 사용하여 그래프를 그리고 회귀곡선을 그립니다.
> plot(NTAV~AGE,xlab="",ylab="",las=1,pch=as.character(SEX),data=radial)
> curve((0.01247)*x^2+29.4,0,100,n=101,col="blue",lwd=2,lty=1,add=TRUE)
> curve((0.01247)*x^2,0,100,n=101,col="red",lwd=2,lty=4,add=TRUE)
이 그림에서 파란 실선은 남자, 빨간 점선은 여자입니다. 아까 그래프보다는 남여가 구별되기는 하지만 눈에는 잘 들어오지 않습니다.
그래서 남자는 파란글씨로 “M”, 여자는 빨간글씨로 “F”로 표시하는 방법이 없을까 고민하다가 제 나름대로 해결했읍니다. 결과 그래프는 그림 3과 같습니다.
그림 3을 보면 남자와 여자가 색깔로 구분되니까 아까 그래프보다는 훨씬 한 눈에 들어옵니다. 그리고 회귀식을 제목으로 써 줍니다. 여기서 돌발문제 : 이 그래프를 그린 방법을 맞추시는 분께 제가 오프라인 정모에서 갈비 쏩니다. 즉 원소마다 남자는 파란색, 여자는 빨간색으로 그린 방법을 맞추시면 됩니다.
첫댓글 통계학을 실제 임상 연구에 적용하는 내용을 친절히 공유해 주셔서 감사드립니다. 아직 초보이지만 통계학이 이렇게 쓰이고 있구나, 내가 공부해야 할 부분이 이부분이구나, 저에게 많은 영감을 주고 있습니다. 다시한번 감사드립니다.
통계라는게 가야할길이 멀군요.