연속형 변수의 정규성 분석에 따른 모수적 비모수적 분석
국내 임상시험에서는 연속형 변수의 분석은 정규성 분석을 주로 실시하고 있습니다.
그리고 정규성 분석에 따라 모수적 비모수적 분석을 하도록 하고 있습니다.
통계학을 배우는 대학생이나 일반 타 전공자의 입장에서 보면 당연한 말일 것입니다.
그러나 통계학을 전공한 사람이나 실무 현장에 있는 통계학자라면 그 어느 누구도 동의전에 질문을 할 것입니다.
왜 그렇게 분석을 하지?라고
연속형 변수에서 정규성 분석은 대표적으로 Shapiro–Wilk test, Kolmogorov-Smirnov test, Anderson-Darling test, Cramér–von Mises test 등을 SAS Univariate Procedure에서 확인할 수 있습니다.
두 군에 대한 차이 분석을 진행한다고 하면 두 군 각각 정규성 분석을 실시하여 한 군 혹은 두군 모두 정규성을 만족하지 않으면 비모수적 방법을 사용합니다.
즉 정규성을 만족하면 two sample t-test, 정규성을 만족하지 않으면 wilcoxon's rank sum test(=Mann Whitney test)를 사용하고 있습니다.
그런데 비모수적 혹은 모수적 방법 중 어떤 것이 적절한 분석인가에 대해서는 여러 논의가 필요하고 각 배경 data의 성향에 따라 다르게 적용될 것입니다.
다만 문제가 되는 것은 무조건 적으로 정규성 검정을 만족하면 모수적 방법, 만족하지 못하면 비모수적 방법이라는 통념이 적용되고 있습니다.
임상시험 뿐만이 아니라 경제 경영 국가 data에서도 정규성을 만족하지 않는 경우에 분포가 왜 만족하지 않는지를 확인하고 제외하거나 Sub Group 분석이 불가능 한 경우에 한해서 비모수적 방법을 사용합니다.
그리고 이런 data들은 계획적으로 무작위배정을 하고 data를 수집하지 않습니다.
임상시험은 사람을 대상으로 하기 때문에 계획적으로 시행하고, 결과의 중요성 때문에 무작위배정과 Blind를 실시합니다. 즉 엄격하게 통제된 data입니다.
이러한 data를 두고 정규성 여부에 따라서 모수적, 비모수적을 나누는 것이 과연 적절한지 여부에 대해서는 문제가 있다고 생각합니다.
임상시험 data이기 때문에 비모수적으로 유의하거나 유의하지 않으며, 모수적 방법에서도 유의하거나 유의하지 않다는 논리도 있습니다. 그러나 통계적인 관점에서 볼 때, 하나의 data를 하나의 검정을 위해 분포를 고려하지 않는 분석은 시스템 적인 집계일 수 밖에 없다는 생각이 듭니다.
임상시험의 결과를 내보내고 나면 간혹 논문의 저자들에게 연락이 옵니다. Visit 3에서는 비모수적 방법을 썼고, Visit4에서는 모수적인 방법을 썼는데 이렇게 달라도 되냐고...
통계학에서는 무수히 많은 방법들이 개발되어 있지만, 사실 이런 방법들은 Observation Study에 적절한 방법들이라고 할 수 있습니다. 즉 통제되지 않은 연구에서 분류하고 분석할 수 있는 방법들이라 할 수 있습니다.
임상시험은 통제된 시험으로 연속형에서는 가장 간단한 분석방법 t-test(두군 차이에 대한 신뢰구간)를 수행할 수 있도록 두 군을 Random 하게 나누고 bias를 통제하기 위해 Monitoring과 Blind도 실시를 하고 있습니다.
그래서 국외의 임상시험의 경우에는 정규성 분석 자체가 없는 임상도 많으며, demographic 의 경우 정규성과 검정 자체도 하지 않는 경우도 있습니다.