신이 정수를 만들었다. 나머지는 인간의 창조물이다.
- 레오폴트 크로네커
며칠 전 한 인터넷서점에서 독자들에게 추천할 책 네 권을 골라 간단한 설명과 함께 보내달라는 요청을 받았다. 어떤 책을 고를까 생각하다 아무리 과학에 대한 글을 쓰면서 먹고 살더라도 과학책만 고르면 너무 삭막해보일 것 같아 인문서 두 권, 과학책 두 권 정도로 맞추기로 마음을 먹었다.
그런데 참고하라고 알려준 사이트를 클릭해 지금까지 참여한 사람들이 추천한 책들을 훑어보니 과학책이 없어도 너무 없었다. 안 되겠다 싶어 정서가 메마른 인간처럼 보이더라도 과학책만 네 권 추천하기로 마음을 바꿨다. 아예 수학, 물리, 화학, 생물로 한 권씩 골랐다가 좀 심하다 싶어서 물리는 빼고 심리/신경과학 책으로 바꿨다.
필자가 지금까지 읽은 교양수학서적 가운데 가장 깊은 인상을 남긴 책은 제정러시아 태생의 미국 수학자인 토비아스 단치히의 ‘수, 과학의 언어’다. 1930년 출간된 책으로 단치히가 72세로 사망하기 2년 전인 1954년 4판이 나왔다. 2008년 나온 번역서는 4판을 바탕으로 2005년 출간된 개정판을 옮긴 것이다.
수년 전 책을 읽으며 “이 책은 의심의 여지없이 내가 이제까지 읽어본 수학의 발전에 관한 책 가운데 가장 흥미롭다”는 알베르트 아인슈타인의 추천사가 접대성 멘트가 아님을 실감한 기억이 난다. 그럼에도 책 내용을 완전히 잊어버렸기 때문에 양심상 좀 읽어봤다.
‘임의의 직각삼각형에서 그 빗변의 길이의 제곱은 나머지 두 변의 길이의 제곱의 합과 같다’는 피타고라스의 정리는 좌표평면에서 두 점 사이의 거리를 구할 때도 쓰인다. - 위키피디아 제공
책 6장 ‘입 밖에 낼 수 없는 것’은 무리수에 대한 이야기다. 피타고라스가 이집트 사람들이 발견한 변의 비가 3:4:5인 ‘황금비’ 직각삼각형을 알게 된 뒤 정수비인 다른 직각삼각형을 발견하다가(5:12:13, 8:15:17) 문득 ‘임의의 직각삼각형에서 그 빗변의 길이의 제곱은 나머지 두 변의 길이의 제곱의 합과 같다’는 놀라운 사실을 깨달았다고 한다.
여기까지는 좋았는데 이등변직각삼각형의 경우 빗변의 길이를 정수나 정수의 비(유리수)로 나타낼 수 없다는 사실을 발견하고 충격에 빠진다. 결국 이 진실은 ‘입 밖에 낼 수 없는 것’이라는 뜻의 ‘알로곤(Alogon)’으로 불리며 피타고라스학파에서는 금기시됐고 이를 발설하는 자는 죽음을 면치 못했다고 한다. 이런 얘기로 시작해서 무리수의 불가피한 등장을 얘기한다.
필자는 수학에 소양이 없지만(과학의 언어 측면에서 수학을 약간 공부한 정도다) 수학처럼 고도로 논리적 영역에서 아름답다고 말하지 않을 수 없는 것들이 꽤 된다는 사실이 신비롭기만 한다. 변의 비가 3:4:5인 황금비 직각삼각형도 그런 예다. 서로 나란한 정수 세 개가 이처럼 절묘한 상관관계를 보이다니 생각할수록 이상하다.
지난해 12월 4일자 학술지 ‘플로스 원’에는 2500여 년 전 발견돼 지금은 초등학생들도 배우는 피타고라스정리를 적용해 기존의 데이터 해석법을 개선했다는 통계학 분야의 논문이 실렸다. 워낙 전문적인 영역이라 넘어갔는데 이번에 수학책 얘기가 나온 김에 한 번 다뤄보겠다.
●신호는 잡고 잡음은 버려야 하지만…
자극이 양질의 정보가 되기 위해서는 신호(signal)와 잡음(noise)을 구분할 수 있어야 한다. 예를 들어 레이더에 뭐가 잡히는 것 같기는 한데 이게 적의 비행기인지 새떼인지 애매하다면 효과적인 대응을 하기가 어렵다. 그런데 이런 애매함은 사실상 우리 생활 전 영역에서 일어나고 있다. 판단을 내리고 후회를 하는 이유다. 의료사고가 나면 사람들은 펄쩍 뛰면서 의사를 욕하지만 사실 의사들이 늘 100% 확신을 갖고 진단을 하고 치료법을 택하는 건 아니다. 혈중 특정단백질 수치가 10이면 정상이고 100이면 병에 걸린 것이 확실한데 30이나 50인 경우가 많기 때문이다.
이처럼 신호와 잡음이 애매한 영역에서 최선의 선택을 하기 위해 통계학자들은 다양한 기법을 개발했는데, 그 가운데 하나가 수신자조작특성(receiver operating characteristic)이다. 이때 수신자는 사람일수도 있고 기계(컴퓨터)일수도 있다. 자극을 접한 수신자는 이게 신호인지 잡음인지 판단을 내려야 한다.
신호라고 제대로 판단한 확률을 ‘적중확률(ture positive rate 또는 sensitivity)’이라고 부른다. 반면 잡음을 신호로 판단할 확률을 ‘오경보확률(false positive rate 또는 1-specificity)’이라고 부른다. ‘1-specificity’에서 specificity는 특이도로 잡음을 잡음이라고 해석한 확률이다(true negative rate).
통계학자들은 수신자조작특성곡선이라는 걸 만들었다. 즉 x축을 오경보확률, y축을 적중확률로 했을 때 주어진 자극에 따라 그 값을 그래프로 그린 것이다. 수신자가 완벽하다면, 즉 자극이 신호일 때는 100% 신호라고 답하고 잡음일 때는 100% 잡음이라고 답한다면 그래프는 왼쪽상단의 한 점(좌표로는 (0, 1))으로 수렴된다. 즉 적중확률이 1이고 오경보확률이 0이기 때문이다.
수신자조작특성곡선은 신호와 잡음을 구분하는 기준(역치)을 정할 때 유용하게 쓰인다. x축은 오경보확률, y축은 적중확률로 수신자가 완벽할 경우는 왼쪽 상단의 점(0, 1)으로 수렴하고 임의로 판단, 즉 찍을 경우 점선(y=x)을 그린다. 대부분의 곡선은 그 사이에 놓이는데 좌상쪽으로 불룩할수록, 즉 곡선의 적분값이 클수록 좋은 수신자다. - 위키피디아 제공
반면 자극이 주어졌을 때 그냥 찍는다면 수신자조작특성곡선은 y=x가 될 것이다. 예를 들어 동전을 던졌을 때 앞면을 신호, 뒷면을 잡음이라고 놓고 찍는 경우다. 앞면이라고 답했을 때 맞출 확률이 절반이므로 적중확률이 0.5가 되고 오경보확률도 0.5가 되므로 y=x 그래프 상에 있다. 만일 앞면이 나올 확률이 세 배 더 높은 동전을 갖고 찍을 경우 적중확률이 0.75, 오경보확률이 0.75(뒷면이라고 했을 때 뒷면일 확률(특이도)이 0.25이므로)로 역시 y=x 상에 있다. 결국 대부분의 수신자는 y=x에서 왼쪽이 불룩한 곡선을 보이는데 불룩한 정도가 클수록 좋은 수신자이다.
‘번거롭게 수신자조작특성곡선 같은 걸 왜 만들지?’ 이런 의문이 들 텐데 결국은 곡선의 패턴을 보고 신호냐 잡음이냐를 판단할 기준(역치)을 구하기 위해서다. 즉 적중확률이 1, 오경부확률이 0인 상황이 현실적으로 불가능할 때 통계적으로 가장 좋은 판단을 내릴 수 있는 지점을 찾기 위해서다.
곡선을 보면 알겠지만 역치가 너무 낮으면(오른쪽 상단), 즉 미미한 자극도 신호라고 판단하면 적중확률은 높지만(신호를 놓치는 경우가 거의 없다) 오경보확률도 높다(신호가 아님에도 신호로 판단). 예를 들어 단백질 수치 11을 역치로 해서 그 이상이면 병이라고 판단해 치료를 할 경우 환자 대다수는 치료를 받겠지만 병이 없는 사람 대다수도 치료를 받기 때문에 치러야 하는 비용이 크다. 반면 역치가 너무 높으면(왼쪽 하단), 예를 들어 단백질 수치 90을 역치로 해서 그 이상이면 병이라고 판단할 경우 건강한 사람이 치료를 받는 경우는 거의 없겠지만 환자임에도 병이 없는 걸로 분류돼 치료받지 못하는 경우가 많을 것이다.
즉 역치가 너무 낮으면 비용이 커지고(모험적) 너무 높으면 혜택이 줄어든다(보수적). 수신자가 찍는 게 아닐 경우 y=x가 왼쪽으로 휘어진 곡선이므로 그 중간 어디쯤에 적중확률의 희생은 적으면서 오경보확률이 낮은 최적의 역치가 존재한다. 예를 들어 수치가 50일 때 적중확률이 0.7, 오경보확률이 0.4라면(찍는 경우에는 0.7) 양 극단보다 이 지점을 병에 걸린 여부를 판단하는 기준으로 삼는 게 ‘통계적으로’ 비용 대비 이익이 가장 크다는 말이다.
●곡선에서 이상적 지점과 가장 가까운 점을 찾는 법
영국 워릭대 의대 로버트 프로드 교수와 케임브리지대 게리 아벨 박사는 치료를 받은 환자들의 건강 회복 상태를 알아보는 설문지 데이터를 수신자조작특성곡선으로 변환해 최적의 역치를 찾는 방법을 개발한 논문을 학술지 ‘플로스 원’에 발표했다. 현대인들에게 만연한 만성요통 같은 질환에 대해 비용 대비 효과가 가장 큰 치료법을 찾을 때 설문지의 데이터가 중요한 판단기준이 될 수 있다.
논문에서는 2004년 수행된 요통치료효과를 보는 임상시험의 데이터를 갖고 분석을 수행했다. 치료를 받은 환자 1334명은 일정 기간이 지난 뒤 24개 항목에서 몸상태를 체크한다. 이때 좋으면 0점, 나쁘면 1점을 준다. 따라서 점수는 0에서 24점 사이다. 그 뒤 환자들의 몸상태를 정밀하게 조사해 완쾌 여부를 평가했다. 설문지 수치가 완쾌 여부 판단에 쓸모가 있다면, 비슷한 상황에서 설문지 결과를 바탕으로 어떤 치료법의 효과와 적정기간을 정할 수 있을 것이다.
이번 연구는 설문지 수치를 수신자조작특성곡선으로 바꿨을 때 최적의 역치를 구하는 방법에 대한 내용이다. 기존에는 크게 두 가지 방법이 있었는데 하나는 곡선에서 적중확률과 특이도가 같은 지점을 찾아 그때의 값을 역치로 정하는 파라(Farrar)방법이다. 수신자조작특성곡선과 y=1-x 그래프가 만나는 지점이다. 수신자의 판단(이 경우 설문 답안)이 찍는 경우보다 나을 경우 (0.5, 0.5) 지점의 왼쪽상단 어딘가에서 만나다. 그런데 곡선이 대칭일 경우는 문제가 없지만 한쪽이 치우칠 경우는 적중확률과 특이도가 같은 값일 때가 최적의 역치가 아닐 수도 있다.
적중확률과 특이도를 대등하게 취급했을 때 수신자조작특성곡선에서 최적의 역치를 찾는 방법은 크게 세 가지가 있다. 위 왼쪽은 파라방법으로 곡선에서 적중확률과 특이도 값이 가까울수록 최적이다(선이 짙어진다). 위 오른쪽은 EMGO방법으로 이상적인 지점(왼쪽 위)에 가까울수록 최적으로 보는데 선형적인 방법으로 찾는다. 아래 왼쪽은 최근 논문에 소개된 방법으로 피타고라스의 정리를 써서 곡선에서 이상적인 지점에서 가장 가까운 점을 찾는 방법이다. 아래 오른쪽은 세 방법을 겹쳐놓은 그림이다. - 플로스원 제공
이런 문제를 해결하기 위해 나온 EMGO방법은 곡선에서 이상적인 상태, 즉 (0, 1)에 가까운 점을 찾아 역치로 삼는 것이다. (0, 1)을 기준으로 y=1-x에 대한 법선(수직)을 우하 방향으로 내리면서 곡선에서 가장 먼저 닿는 점을 찾는 방법이다. 이 경우 곡선이 대칭일 경우는 앞의 분석법과 결과가 같고 비대칭일 때는 다르다.
논문은 EMGO방법을 개선한 내용이다. 즉 곡선에서 이상적인 상태(0, 1)에 가장 가까운 상태인 점을 찾으려면 EMGO방법처럼 법선을 내리는 게 아니라(min{2-sens-spec}으로 표현됨) 이상적인 상태에서 나오는 동심원 물결이 곡선과 가장 먼저 만나는 지점을 택해야 한다는 것이다(min{(1-sens)2+(1-spec)2}으로 표현됨). 즉 수신자조작특성곡선 상의 점들에서 ‘1-적중확률’의 제곱과 오경보확률의 제곱을 합한 값이 최소가 되는 지점의 역치를 택하면 된다는 것. 바로 피타고라스정리를 이용해 구하는 방법이라는 말이다.
수신자조작특성곡선 형태에 따른 세 방법의 차이를 보여주는 그래프들이다. 위 왼쪽은 대칭 형태의 곡선으로 세 방법이 찾은 값이 동일하다. 위 오른쪽은 y=1-x 기준에서 왼쪽으로 치우친 곡선으로 파라방법(빨간점)과 EMGO방법(파란점), 피타고라스정리를 이용한 방법(녹색점)이 찾은 값이 다르다. 이 경우 대칭인 곡선에 비해 같은 오작동확률일 때 적중확률이 낮으므로 역치가 다소 올라가야 하는데 파라방법에는 반영되지 못하고 EMGO방법에는 지나치게 반영돼 있다. 아래는 y=1-x 기준에서 오른쪽으로 치우친 곡선으로 대칭인 곡선에 비해 같은 오작동확률일 때 적중확률이 높으므로 역치가 다소 내려가야 하는데 피타고라스정리를 이용한 방법이 이를 적절하게 반영하고 있다. - 플로스원 제공
통계기법의 자세한 내용은 모르더라도 좌표상의 어떤 곡선에서 한 점에 가장 가까운 점을 찾기 위해서는 피타고라스의 정리를 이용해야 한다는 건 상식이다. 그럼에도 어찌된 영문인지 EMGO방법을 개발한 사람들은 이걸 깜빡했다는 것이다. 저자들은 논문 제목에 ‘피타고라스의 잊힌 교훈(The forgotten lesson of Pythagoras)’라는 표현을 쓴 이유다.
강석기 과학칼럼니스트 sukkikang@gmail.com