# 상관계수 분석
data1 <- read.csv("c:\\data\\강남_승하차.csv", header = TRUE, fileEncoding = 'euc-kr')
data1
plot( data1$time , data1$out_cnt, pch = 21, col = 'red', bg = 'red')
> cor( data1$time, data1$out_cnt )
[1] -0.3164196
# 두 변수 간에 약한 음의 관계가 있음을 나타냄
# 즉 시간이 증가함에 따라 하차 인원수가 약간 감소하는 경향이 있다고 볼 수 있음
# 이원 교차표 분석, 카이제곱 검정
# 귀무 가설 : 하차 인원수와 시간은 연관이 없다
# 대립 가설 : 하차 인원수와 시간은 연관이 있다
mean_out_cnt <- mean(data$out_cnt)
data$out_mean <- ifelse(data$out_cnt > mean_out_cnt, 1, 0)
data
data$rush_hour <- ifelse(data$time %in% c(8,9,17,18), 1, 0)
data
# 교차표 생성 및 카이제곱 검정
library(gmodels)
CrossTable(data$rush_hour , data$out_mean, chisq = TRUE)
# 해석
# p-value가 0.014로 유의수준(0.05) 미만이기 때문에 귀무가설을 기각하고 대립가설을 채택
# 하차 인원수와 시간은 연관성이 있음