Biostatistics | 18장 Logistic Regression - Daum 카페

<P>### 예1</P> <P> </P> <P># respire.csv 이용</P> <P>respire=read.csv("respire.csv")<BR>glm(outcome ~ treat, <STRONG>weights=count</STRONG>, family=binomial, data=respire)</P> <P> </P> <P># respire2.csv 이용</P> <P>respire2=read.csv("respire2.csv")<BR>glm(outcome ~ treat, family=binomial, data=respire2)</P> <P> </P> <P># Odds Ratio</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox>> out = glm(outcome ~ treat, family=binomial, data=respire2) <P>> coef(out)["treattest"]<BR>treattest <BR> 1.791759 <BR>> coef(out)[2]<BR>treattest <BR> 1.791759 <BR>> exp(coef(out)["treattest"])<BR>treattest <BR>        6 </P></DIV> <P> </P> <P># Odds Ratio의 95% 신뢰구간</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> exp(confint(out, parm="treattest"))<BR>Waiting for profiling to be done...<BR>    2.5 %    97.5 % <BR> 2.803526 13.411701 </P></DIV> <P> </P> <P># tapply()이용하기</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox>> p = with(respire,tapply(count*outcome,treat,sum)/tapply(count,treat,sum))<BR>> p<BR>  placebo      test <BR>0.2500000 0.6666667 <BR>> odds=p/(1-p)<BR>> odds<BR>  placebo      test <BR>0.3333333 2.0000000 <BR>> odds[2]/odds[1]<BR>test <BR>   6 </DIV> <P> </P> <P># respire2를 이용하려면</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox>> p = with(respire2, tapply(outcome,treat,sum)/tapply(outcome,treat,<STRONG>length</STRONG>))<BR>  placebo      test <BR>0.2500000 0.6666667 </DIV> <P> </P> <P> </P> <P>### 예 2: toxic.csv</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox>> toxic = read.csv("toxic.csv")<BR>> with(toxic,tapply(count*response,dose,sum)/tapply(count,dose,sum))<BR>  0   1   2 <BR>0.3 0.5 0.8 <BR>> out = glm(response~dose,weights=count,family=binomial,data=toxic)</DIV> <P> </P> <P># odds ratio와 95% 신뢰구간</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox>> exp(coef(out)["dose"])<BR>    dose <BR>3.019392 <BR>> exp(confint(out,parm="dose"))<BR>Waiting for profiling to be done...<BR>   2.5 %   97.5 % <BR>1.165956 9.338941 </DIV> <P> </P> <P>### 예 3: death_penaty.csv</P> <P># Tables</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> death.penalty=read.csv("death_penalty.csv")</P> <P>> defendant = xtabs(count~defendant+death,data=death.penalty)</P> <P>> chisq.test(defendant)</P> <P> Pearson's Chi-squared test with Yates' continuity correction</P> <P>data:  defendant <BR>X-squared = 0.0863, df = 1, p-value = 0.7689</P></DIV> <P> </P> <P> </P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> victim = xtabs(count~victim+death,data=death.penalty)<BR>> chisq.test(victim)</P> <P> Pearson's Chi-squared test with Yates' continuity correction</P> <P>data:  victim <BR>X-squared = 4.7678, df = 1, p-value = 0.029</P></DIV> <P> </P> <P># Logistic Regression</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox>> out1=glm(death~victim*defendant,weights=count,family=binomial,data=death.penalty) <P>> out2=glm(death~victim,weights=count,family=binomial,data=death.penalty)</P> <P>> anova(out2,out1,test="Chisq")<BR>Analysis of Deviance Table</P> <P>Model 1: death ~ victim<BR>Model 2: death ~ victim * defendant<BR>  Resid. Df Resid. Dev Df Deviance P(>|Chi|)<BR>1         5     220.26                      <BR>2         3     218.38  2   1.8819    <STRONG>0.3903</STRONG></P></DIV> <P><STRONG></STRONG> </P> <P>95% CI for odds ratio</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> exp(confint(out2,parm="victimWhite"))<BR>Waiting for profiling to be done...<BR>   2.5 %   97.5 % <BR>1.239661 7.871553 </P></DIV> <P><STRONG></STRONG> </P> <P>### 예 4</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> library(MASS)<BR>> out=glm(low~lwt+factor(race)+smoke+ht+ui,data=birthwt,family=binomial)<BR>> summary(out)</P> <P>Call:<BR>glm(formula = low ~ lwt + factor(race) + smoke + ht + ui, family = binomial, <BR>    data = birthwt)</P> <P>Deviance Residuals: <BR>    Min       1Q   Median       3Q      Max  <BR>-1.7396  -0.8322  -0.5359   0.9873   2.1692  </P> <P>Coefficients:<BR>               Estimate Std. Error z value Pr(>|z|)   <BR>(Intercept)    0.056276   0.937853   0.060  0.95215   <BR>lwt           -0.016732   0.006803  -2.459  0.01392 * <BR>factor(race)2  1.324562   0.521464   2.540  0.01108 * <BR>factor(race)3  0.926197   0.430386   2.152  0.03140 * <BR>smoke          1.035831   0.392558   2.639  0.00832 **<BR>ht             1.871416   0.690902   2.709  0.00676 **<BR>ui             0.904974   0.447553   2.022  0.04317 * <BR>---<BR>Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 </P> <P>(Dispersion parameter for binomial family taken to be 1)</P> <P>    Null deviance: 234.67  on 188  degrees of freedom<BR>Residual deviance: 204.22  on 182  degrees of freedom<BR>AIC: 218.22</P> <P>Number of Fisher Scoring iterations: 4</P></DIV> <P> </P> <P># odds ratio</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> exp(coef(out))<BR>  (Intercept)           lwt factor(race)2 factor(race)3         smoke <BR>    1.0578897     0.9834068     3.7605373     2.5248886     2.8174471 <BR>           ht            ui <BR>    6.4974921     2.4718677 </P></DIV> <P> </P> <P> </P> <P>### R 결과물에서 통계치 추출</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> respire=read.csv("respire.csv")<BR>> respire2=read.csv("respire2.csv")</P> <P>> out1=glm(outcome~treat,family=binomial,weights=count, data=respire)<BR>> out2=glm(outcome~treat,family=binomial,data=respire2)</P></DIV> <P> </P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> B=coef(out1)<BR>> B<BR>(Intercept)   treattest <BR>  -1.098612    1.791759 <BR>> B[1]+B[2]*(respire$treat=="test")<BR>[1] -1.0986123 -1.0986123  0.6931472  0.6931472<BR>> exp(B[1]+B[2]*(respire$treat=="test"))<BR>[1] 0.3333333 0.3333333 2.0000000 2.0000000<BR>> exp(B[1]+B[2]*(respire$treat=="test"))/(1+exp(B[1]+B[2]*(respire$treat=="test")))<BR>[1] 0.2500000 0.2500000 0.6666667 0.6666667</P></DIV> <P> </P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> fitted(out1)<BR>        1         2         3         4 <BR>0.2500000 0.2500000 0.6666667 0.6666667 </P></DIV> <P> </P> <P> </P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> p=unique(fitted(out1))<BR>> p<BR>[1] 0.2500000 0.6666667<BR>> p/(1-p)<BR>[1] 0.3333333 2.0000000<BR>> log(p/(1-p))<BR>[1] -1.0986123  0.6931472</P></DIV> <P> </P> <P>### Simulation</P> <P> </P> <P>## respire, respire2</P> <P># 요약된 자료</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> total = with(respire, tapply(count,treat,sum))<BR>> total<BR>placebo    test <BR>     64      60 <BR>> set.seed(1234)<BR>> rbinom(n=length(total),size=total,p=unique(fitted(out1)))<BR>[1] 12 39</P></DIV> <P> </P> <P># 요약되지 않은 자료</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> set.seed(1234)<BR>> rbinom(n=nrow(respire2),size=1,p=fitted(out2))<BR>  [1] 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 0<BR> [38] 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 1 0 0 0 1 0 1 1 1 1 1 0 1 0<BR> [75] 1 1 1 1 1 0 0 1 1 1 1 0 1 1 1 0 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0<BR>[112] 1 0 1 1 0 0 1 1 0 0 0 0 0</P></DIV> <P> </P> <P>## toxic</P> <DIV style="BORDER-BOTTOM: #cbcbcb 3px double; BORDER-LEFT: #cbcbcb 3px double; PADDING-BOTTOM: 10px; BACKGROUND-COLOR: #ffffff; PADDING-LEFT: 10px; PADDING-RIGHT: 10px; BORDER-TOP: #cbcbcb 3px double; BORDER-RIGHT: #cbcbcb 3px double; PADDING-TOP: 10px" class=txc-textbox> <P>> toxic=read.csv("toxic.csv")<BR>> out=glm(response~dose,weights=count,family=binomial,data=toxic)<BR>> total=with(toxic,tapply(count,dose,sum))<BR>> set.seed(1234)<BR>> rbinom(3,total,unique(fitted(out)))<BR>[1] 1 5 8</P></DIV> <P> </P> <P> </P> <P> </P> <P> </P>

카페정보

Biostatistics

실버 (공개)
카페지기 안재형
회원수 4,484
방문수0
카페앱수15

카페 전체 메뉴

▲

친구 카페

이전 다음

ㆍ 1차 정모

카페 게시글

목록 이전글 다음글

책: R을 이용한 누구나 하는 통계분석 18장 Logistic Regression

안재형 추천 0 조회 1,444 09.12.15 00:37 댓글 2

게시글 본문내용

다음검색

첨부된 파일 개 ▼

저작자 표시 컨텐츠변경 비영리

댓글

emma
14.01.22 13:57

첫댓글 out1=glm(death~victim*defendant,weights=count,family=binomial,data=death.penalty)
여기 에서 종속병수에 *defendant 는 종속변수에 대해 무엇을 의미하나요?
또 weights=count 는 왜 지정해 주는건가요?
안재형
작성자 14.01.22 23:23

defendant는 종속변수가 아니라, 법정에서 고소를 당한사람 즉 "피고"를 의미합니다. 이 문제에서는 "피고"가 백인인지 흑인인지 구분하는 변수입니다. weights는 종속변수가 1, 0일때는 weight이 필요없지만, 1인 사람이 몇명, 0인 사람이 몇명인지 count라는 변수로 요약되면 weights=count를 줍니다.

검색 옵션 선택상자

댓글내용선택됨 옵션 더 보기

댓글내용

댓글 작성자

연관검색어

환율

환자

환기

최신목록