© emcrit.org
선도적 통계학자들은 '과학자들이 선호하는 수치 중 하나인 P값에 좀 더 까다로운 표준을 적용해야 한다'고 주장한다. 그들의 주장은 두 가지로 요약된다: 1. 사회과학과 생의학의 경우, P의 문턱값을 0.005로 낮춰야 한다. 2. 0.05~0.005의 P 값을 들이대는 주장은 '확립된 지식'이 아니라 '암시적 증거'로 간주되어야 한다. |
과학은 재현성 위기에 직면하고 있으며(참고 1), 연구자, 연구비 제공자, 출판사들 사이에서는 '학술문헌들이 비현실적 결과에 가득 차 있다'는 우려가 점차 팽배해지고 있다. 이제 72명의 저명한 연구자 그룹이 나서 자신들이 생각하는 한 가지 문제점을 겨냥하고 있으니, 그것은 '새로운 발견을 주장하는 근거로 사용하는 통계학적 표준이 빈약하다'는 것이다.
많은 분야에서, 발견의 유의성을 판단하기 위해 P값(P value)을 사용한다. P값은 영가설(null hypothesis)을 검증(즉, 기각)하는 기준으로 사용되는데, 영가설은 일반적으로 '검증하고자 하는 결과가 존재하지 않는다'고 가정한다. 어떤 결과에 대한 P값이 작을수록, 결과가 순전히 우연에 의한 것일 가능성이 낮아진다. 지금껏 P값이 0.05보다 작으면, 결과가 통계적으로 유의하다고 간주되어 왔다. 그러나 많은 과학자들은 '0.05라는 문턱값 때문에, 위양성(false positive) 결과들이 문헌에 범람하고 있다(참고 2)'며 우려를 표명하고 있다. 이러한 문제는 P 해킹(P hacking)이라는 관행 때문에 악화되고 있는데, P 해킹이란 '가설도 없이 데이터를 수집한 다음, 통계적으로 유의하다고 보고될 수 있는 결과만 갖고서 패턴을 찾는 행위'를 말한다. 급기야 7월 22일 PsyArXiv 출판전 서버에 올린 도발적인 원고에서(참고 3), 연구자들은 사회과학과 생의학을 지목하며 "P값의 문턱을 0.005로 높여야 한다"고 주장했다. 최종 논문은 《Nature Human Behavior》에 실릴 예정이다. "연구자들은 'P value = 0.05'인 증거가 얼마나 빈약한지 모르고 있다"라고 이번 논문의 공저자인 남가주대학교(USC)의 대니얼 벤저민 박사(경제학)는 말했다. "나는 0.05 ~ 0.005 사이의 P값을 들이대는 주장을 '확립된 지식'이 아니라 '암시적 증거'에 불과한 것으로 간주해야 한다고 생각한다." 다른 공저자들 중에는 재현성 분야의 거두 두 명이 포함되어 있는데, 한 명은 스탠퍼드 대학교에서 과학의 견고함을 연구하는 존 이오아니디스 박사이고, 다른 한 명은 버지니아 주 샬롯빌에 있는 오픈 사이언스 센터(Center for Open Science)의 브라이언 노섹 소장이다. 샘플 크기를 왕창 늘려라 P값을 낮출 경우에 발생하는 문제 중 하나는 '위음성(false negative)의 가능성이 높아진다'는 것이다"라고 네덜란드 흐로닝언 대학교의 카스퍼르 알버르스 박사(심리측정학, 통계학)는 말했다. 벤저민 박사와 동료들은 그 문제에 대한 대응책으로, 샘플 사이즈를 70% 늘릴 것을 제안했다. "샘플 사이즈를 70% 늘리면 위음성 가능성이 낮아지며, 위양성 가능성은 여전히 매우 낮은 수준을 유지한다"라고 그들은 말하지만, 알버르스에 의하면 "그건 현실적으로 자금사정이 넉넉한 과학자들에게나 가능한 일"이라고 한다. 일리노이 공대의 숄로모 아르가몬 박사(컴퓨터과학)에 의하면, 그 문제를 해결할 간단한 방법은 없다고 한다. 그의 설명을 들어보자. "어떤 신뢰수준을 선택하든 간에 '실험을 설계하는 상이한 방법들'이 충분히 많다면, 그중 하나 이상에서 단지 우연히 '통계적으로 유의한 결과'가 나올 가능성이 매우 높다. 따라서 새로운 방법론적 표준이나 연구 인센티브와 같은 좀 더 근본적인 변화가 필요하다."
"P값을 낮추면 '파일서랍 문제'를 더욱 악화시킬 수 있다. 파일서랍 문제란 '부정적 결과가 담긴 연구를 출판하지 않는 경향'을 뜻한다"라고 영국 리딩 대학교의 톰 존스톤 박사(인지신경과학)는 말했다. 그에 대해 벤저민은 "모든 연구는 P값의 고하를 불문하고 출판되어야 한다"고 맞받았다. 규칙을 바꿔라 다른 과학분야에서는 이미 P값에 대해 단호한 조치를 취했으며, 2015년 한 심리학 저널에서는 P값 사용을 금지했다(참고 4). "원자파괴 실험에서 데이터를 수집하는 입자물리학의 경우, 오랫동안 0.0000003(3×10^(-7)) 미만의 P값을 요구해 왔다. 왜냐하면 문턱값이 그보다 높을 경우 잘못된 주장으로 이어질 수 있기 때문이다"라고 이번 논문의 공동저자인 텍사스 A&M 대학교의 밸런 존슨 박사(통계학)는 말했다. 10여 년 전, 유전학자들은 전장유전체연관분석연구(GWAS)에 대해 '5×10^(-8)'의 문턱값을 확립하기 위해 이와 비슷한 절차를 밟은 적이 있다. 한편 다른 과학자들은 P값을 포기하고, 베이지안 검증(Bayesian test)과 같은 좀 더 정교한 통계수단을 선호한다. 베이지안 검증에서는 연구자들에게 두 개의 대체가설을 설정하고 검증하도록 요구한다. "그러나 모든 연구자들이 베이지안 검증을 수행하는 데 필요한 전문지식을 갖고 있는 것은 아니다. 나는 P값이 아직 '가설이 증거에 의해 뒷받침되는지' 여부를 측정하는 데 유용한 수단이라고 생각한다"라고 존슨 박사는 말했다. "P값 자체가 꼭 나쁘다고 할 수는 없다"라고 그는 덧붙였다. ※ 참고문헌 1. https://www.nature.com/news/reality-check-on-reproducibility-1.19961 2. http://www.nature.com/news/scientific-method-statistical-errors-1.14700 3. Benjamin, D. et al., “Redefine statistical significance”, Preprint on PsyArXiv (2017); http://osf.io/preprints/psyarxiv/mky9j 4. http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 ※ 출처: Nature http://www.nature.com/news/big-names-in-statistics-want-to-shake-up-much-maligned-p-value-1.22375 |