회귀 이해하기
회귀 현상은 감지되든 안 되든, 제대로 설명되든 안 되든,
우리 인간의 머리로는 이해하기 힘든 낯선 현상이다.
어찌나 낯설던지, 중력 이론과 미분학이 나온지 200년이 지나서야 처음 인식하고 이해하기 시작했다.
그것도 19세기에 영국의 한 뛰어난 인물이 힘들게 겨우 이해했을 정도다.
평균회귀는 찰스 다윈의 사촌 격이자 매우 박식한 프랜시스 골턴(Francis Galton)이
19세시 후반에 발견해 이름 붙였다. 그는 1886년에
〈키 유전에서 평범함으로 회귀(Regression towards Mediocrity in Hereditary Stature)〉라는 논문을 발표했다.
그가 이 발견을 얼마나 기뻐했는지 엿볼 수 있는 논문이다.
논문에는 연이은 여러 세대의 씨앗 크기, 그리고 자손의 키를 그 부모의 키와 비교한 내용이 실렸다.
씨앗 연구에 대해서는다음과 같이 썼다.
대단힌 주목할 만한 결과가 나왔고, 나는 그것을 근거로 1877년 2월9일 영국와립과학연구소에서 강연을 했다.
실험 결과, 후대 씨앗의 크기는 그 위 세대를 닮지 '않고 항상 평범한수준에 좀 더 가까워졌다.
즉 위 세대가 크면 다음 세대는 그보다 작고, 위 세대가 작으면 다음 세대는 그보다 크다(.....)
나아가 후대가 폄범함으로 회귀하는 정도는 그 위 세대가 평범함에서 얼마나 멀어지는가에 거의 비례했다.
골턴은 세계에서 가장 오래된 국립 연구 학회인 영국왕립과학연구소의 똑똑한 청중이라면
"주목할 만한 결과"에 자기처럼 당연히 놀랄 것이라고 예상했다.
사실 진짜 주목할만항 일은 우리가 숨 시즌 공기만큼이나 흔한 통계의 규칙성에 골턴이 놀란 것이다.
회귀 효과는 도처에서 볼 수 있는데도, 눈치채지 못할 뿐이다. 그것은 빤히 보이는 곳에 숨어 있다.
골턴이 후대의 크기가 평균으로 회귀하는 현상에서 한 걸은 더 나아가
넓은 의미에서 두 측정치 사이의 상관관계가 불완전할 때
불가피하게 편균회귀가 일어난 다는 사실을 발견하기까지는 몇 해가 더 결렸는데,
이 결론을 얻기까지 당시 가장 똑똑한 수학자들의 도움이 필요했다.
골턴이 극복해야 했던 장애물 하나는
이를테면 몸무게와 피아노 연주처럼 측정기준이 다른 변수 사이에서
회귀를 어떻게 측정하느냐는 것이었다.
이때는 모집단을 참고 표준으로 이용한다.
초등학교 전 학년에서 학생 100명을 뽑아 몸무게와 피아노 연주를 측정해
높은 수치부터 낮은 수치까지 순위를 매겼다고 상상해보자
여기서 제인이 , 피아노 연주는 세 번째, 몸무게는 스믈일곱 번째였다면,
제인은 몸무게가 많이 나가는 것보다 더 훌륭한 피아노 연주라라고 말할 수 있다.
상황을 단순화하기 위해 다음과 같이 가정해보자
어떤 나이에서든
ㅇ 피아노 연주의 성공 여부는 오로지 주간 연습 시간에 달렸다.
ㅇ 몸무게는 오로지 아이스크림 소비량에 달렸다.
ㅇ 아이스크림 소비량과 주간 연습 시간은 상관관계가 없다.
이제 순위를 이용해 (또는 통게 전문가들이 좋아하는 말로 '표준 점수'를 이용해)
다음과 같은 방정식을 만들 수 있다.
몸무게=나이+아이스크림 소비량
피아노연주=나이+주간 연습 시간
몸무게로 피아노 연주를 예측하거나 피아노 연주로 몸무게를 예측할 때,
편균으로 회귀하는 현상을 볼 수 있다.
톰에 대해 아는 것이라고는 몸무게가 열두 번째(평균보다 한참 위)라는 사실 뿐일 때,
그 아이는 나이가 평균보다 많을 것이고,
다른 아이들보다 아이스크림을 더 많이 먹을 것이라고 (통계적으로) 추론할 수 있다.
바버라에 대한 하는 것이라곤 피아노 연주가 여든번째(평균보다 한참 아래)라는 사실뿐일 때,
다른 아이들보다 어릴 것이고, 대부분의 다른 이이들보다 연습 시간이 적을 것이라고 추론할 수 있다.
두 측정치 사이의 '상관계수'는 둘이 공유하는 요소의 상대적 비중을 0에서 1 사이의 값으로 나타낸다.
예를 들어, 우리는 양쪽 부모와 유전자의 절반을 공유하며,
환경에 비교적 영향을 덜 받는 키 같은 특성은
부모와 자녀의 상관 관계가 0.50을 크게 벗어나지 않는다.
상관관계 측정의 의미를 알아보기 위해 , 상관계수의 몇 가지 예를 보자.
ㅇ 물체의 크기를 영국식으로 측정할 ;대와 미터법으로 측정할 때, 정확히만 측정한다면
두 측정치의 상관관계는 1이다.
한 가지 측정에 영향을 미치는 요소는 다른 측정ㅇ도 영향을 미친다.
즉 결정 요인을 100퍼센트 공유한다.
ㅇ 미국 남자 성인들이 자기 입으로 말한 키와 몸무게는 상관관계가 0.41이다.
여기에 여성과 아이들을 넣으면, 상관관계는 훨씬 높아질 것이다.
개인의 성별과 나이는 키와 몸무게에 모두 영향을 미쳐,
키와 몸무게가 공유하는 요소의 상대적 비중을 더욱 높이기 때문이다.
ㅇ 미국 대학입학자격시럼(SAT) 점수와 대학 학점 평균(GPA)의 상관관계는 약 0.60이다.
그러나 적성검사와 대학원 성적의 상관관계는 이보다 훨씬 낮은데,
측정된 적성이 선별 집단 사이에서 큰 차이가 없기 때문이다.
다들 적성이 비슷하다면, 적성 측정치 차이가 대학원 성적 측정에 큰 역할을 할 가능성은 적다.
ㅇ 미국에서 수입과 교육 수준의 상관관계는 약 0.40이다.
ㅇ 가족 수입과 그들 전화번호의 마지막 네 자리 숫자와의 상관관계는 0이다.
272-275