Critical value등을 계산할 때 중요한 기준이 되는 95% quantile과 같이 quantile계산법을 단순하게만 생각을 했는데, 다시 자세히 들여다 보니 너무나 중요한 개념이라 그냔 넘어갈 수가 없다.
같은 데이터를 놓고, quantile을 계산하니 공식에 따라 너무 다른 값을 준다.
alpha=0.05일 때
case1=0.9497
case2=0.9566
case3=0.9513
case4=0.9513
case5=0.9513
정확한 값은 0.9500이 나와야 하는데 말이다.
가장 근사값은 case1이고, 오차값이 큰 결과는 case5이다.
case1~3은 쥬리히대학교 M. Wolf 교수님 홈피에서 찾은 것이고,
http://www.econ.uzh.ch/en/people/faculty/wolf.html
4는 Matlab quantile()함수이며,
5는 내가 이해한 개념으로 만든 함수이다.
문제는 데이터가 100개면 내림차순으로 정리된 95번째의 숫자가 quantile이 되는데 (즉 0.95*100=0.95), 데이터의 숫자가 101이 되면
95% quantile, 즉 101*0.95은 0.95가 아니다. 데이터의 길이에 따라 0.95보다 다소 부족하거나 많게 된다.
따라서 정교한 원칙이 필요하게 된다.
R에서도 다양한 케이스의 quantile함수를 소개하고 있다.
http://tolstoy.newcastle.edu.au/R/e17/help/att-1067/Quartiles_in_R.pdf
5% 신뢰수준에서 엄밀히 말하면
0.9501이면 significicant, 0.9499면 insignificant 라 판정하기에 quantile이 흔들리면 연구결과도 흔들린다는 것을 알아야 한다.
이 기준을 계산 해주는 것이 interpolation (보간법)이다. 다음 글에서 더 자세히 다뤄보자.