타이타닉 데이터로 승객 특징과 생존 여부 사이의 상관 계수 구하기
1. 성별과 생존 여부 사이의 상관 관계
tat <- read.csv("titanic2.csv", header=T)
tat$sex2 <- ifelse((tat$sex=='female'), 1, 0)
cor(tat$survived, tat$sex2)
-> 상관계수 : 0.5433514, 성별과 생존 여부 사이에 어느 정도 상관 관계가 있음을 알 수 있다.
2. 객실등급과 생존 여부 사이의 상관 관계
cor(tat$survived, tat$pclass)
-> 상관계수 : -0.338481, 음의 상관 관계를 보이고 있다. 분명한 반비례 관계를 보이고 있지만 상관 관계의 강도가 강하지 않다.
3. 어린이 여부와 생존 여부 사이의 상관 관계
tat$child <- ifelse((tat$age <= 12),1,0)
cor(tat$survived,tat$child)
-> 상관계수: 0.1166914, 상관 관계를 거의 보이고 있지 않다.
4. 여성이거나 어린아이이면서 1등급인 승객과 생존 여부의 상관 관계
tat$age[is.na(tat$age)] <- mean(tat$age, na.rm=TRUE) # 결측치 처리, age가 null인 데이터들을 평균치로 바꾸기
tat$women_child_1 <- ifelse(((tat$sex=='female')|(tat$age <= 12))&(tat$pclass==1), 1, 0)
cor(tat$survived, tat$women_child_1)
-> 상관계수: 0.4206138, 어느 정도 양의 상관 관계를 보이고 있음을 알 수 있다.