안녕하세요,
이번에 contract job으로 호주 paramedic 들 roster 관리하는 부서에서 간단한 data 분석일을 도와주게 되었습니다.
통계 관련 지식이 필요한데.. 제가 지식이 부족해서 이렇게 조언을 드리고 싶습니다 ㅜㅜ
현재 데이터 베이스 시스템을 업그레이드 하는 중이라 OLD 시스템과 NEW 시스템에서 각각 자료를 뽑으면 자료가 조금 다르게 나옵니다.
예를 들어 A라는 사람의 실제 4월3일 로스터 근무 시간이 10시간인데.. OLD 시스템에서는 9시간으로 나오고 NEW 시스템에는 10.2시간으로 나오게 됩니다. NEW 시스템이 더욱 실제 근무 시간과 가깝게 자료가 추출됩니다.
4월 로스터 자료를 각각 시스템에서 뽑아봤는데 각각 대략 3만700여개의 로스터 ROW가 생성됩니다. 이중에 대부분의 로스터는(3만개의 row)는 그 시간 차이가 0입니다. (즉 new 시스템과 old시스템에서 뽑아낸 수치가 같습니다.) 하지만 대략 700여개의 로스터는 위에 처럼 old 시스템과 new 시스템이 차이가 나게 됩니다. (즉 실제는 10시간 근무인데.. new 시스템은 10.1시간, old 시스템은 8시간으로 나옴)
제가 궁금한 것은, Paired z-test 를 여기에 응용 할 수 있을까요? 두 시스템에서 뽑아낸 source는 동일한 실제 근무시간이므로 dependent하다고 가정하고, 샘플 수가 3만개 되므로 paired z-test를 쓸 수 있는지 궁금합니다. population은 데이터 베이스 전체 (1,2,3,4월...모두 포함)으로 가정하구요. h0: 두 시스템에서 나오는 자료의 차이는 통계적으로 유의하지 않다. 로 설정하고 싶습니다.
그런데 3만700여개 로스터 중에 3만개 로스터의 차이가 0 이기 때문에 sample mean을 계산해보면 -0.0013 시간으로 나오고, sample std 는 0.2435 정도로 나옵니다. 책에서 공식을 찾아서 샘플 수를 3만개700으로 해서 계산을 해보니 z-score가 3.28 정도로 나오구요. 현실적으로 이렇게 샘플 수를 많이 해서 z-score 계산이 가능한 것인지 궁금합니다..
그런데 상식적으로 생각해봤을때 3만개나 차이가 0이고 고작 700여개만 차이가 날뿐인데..z-score가 이렇게 높게 나오는 이유가 무엇인가요? 원래는 차이가 0인 ROW가 많아서 "두 시스템에서 나오는 데이터 차이가 통계적으로 유의하지 않다"는 걸 보일 목적으로 시작하려고 햇는데.. z-score가 높아서 p-value가 0.001 정도로 나오게 되어서 가설이 기각되어 버립니다.
제가 무얼 잘못알고 있는 것인가요.^^: 조언을 부탁드리고 싶습니다.^^;
혹시 이런 류의 data 를 분석하는데 쓰일 수 있는 다른 어떤 기법이 있을까요?..
미리 감사드립니다.
첫댓글 하나 확인할건 차이를 먼저 구한후 그 차이의 평균과 표준편차를 계산하신거죠?
n=30700, 차이의 평균이 -0.0013, 표준편차가 0.2435면 z=-0.935정도인데요.
> sqrt(30700)*0.0013/.2435
[1] 0.9354349
답변 감사드립니다! 제가 위에 평균을 잘못썼군요. 평균이 -0.0053 입니다. 그래서 z score의 절대값이 높게 나오는 것 같아요..
네 그 차이를 구한 후 그 차이의 평균과 표준 편차를 계산했습니다. 혹시 이런 류의 데이터에 대해서 적용할 통계 기법이 있을까요?..