직관적 예측 수정하기
읽기 능력이 조숙했던 줄리의 사례로 돌아가 보자.
줄리의 대학 평점을 정확히 예측하는 방법은 앞에서 소개랬다.
연이은 이틀 동안의 골프 경기나 몸무게와 피아노 연주 사례처럼
읽기 연령과 대학 평점을 결정하는 요소로 간단한 식을 만들면 다음과 같다.
읽기 연령 = 공통 요소+ 읽기 연령에 한정된 요소 = 100퍼센트
대학 평점 = 공통 요소 + 평점에 한정된 요소 = 100퍼센트
공통 요소에는 유전으로 결정되는 적성, 학업 흥미를 가족이 지원하는 정도,
그리고 한 사람이 읽기 능력이 조숙한 아이가 되고
동시에 학업 성취도가 높은 청년이 될 수 있는 모든 요인을 포함한다.
그리고 물론 조숙한 아이나 학업 성취도가 높은 청년 중 한쪽에만 영향을 준 요소도 많을 것이다.
욕심이 지나친 부모의 성화에 시달렸다거나, 연애 문제가 잘 풀리지 않아 학점에 타격을 입었다거나.
청소년기에 스키 사고 를 당해 가벼운 장애가 생겼다거나 등등.
두 가지 측정치(이 경우는 일기 연령과 대학 평점) 사이의 상관관계는
그 둘을 결정한 요소들에서 공통 요소가 차지하는 비율과 동일하다는 사실을 기억하라.
그 비율을 최대한 정확히 추측한다면 몇 퍼센트겠는가? 가장 낙관적인 내 예상치는 약 30퍼센트다.
이 추정을 마쳤다면 편향되지 않은예측을 내놓은 데 필요한 모든 것을 갖춘 셈이다.
그렇다면 이제 이런 비편향 결론에 이르는 법을 4단계로 간단히 정리하면 다음과 같다.
1. 우선 평점의 평균을 추정하라
2. 증거에서 받은 인상에 어울리는 평점을 정하라.
3. 증거와 평점의 상관관계를 추정하라.
4. 상관관계가 0.3이면 1번의 평점 평군에서 2번의 평점 쪽으로 30퍼센트만큼 이동하라.
1단계에서는 기준치를 정한다.
줄리가 대학 4학년이라는 시실밖에 아는 것이 없을 때 예상할 법한 평점이다.
다른 정보가 없다면 평균을 기준치로 예상할 것이다.
(톰 W에 대해 들은 바가 없을 때 그는 다니는 경영대학원의 기저율을 적용하는 것과 비슷하다.)
2단계에서는 증거를 평가해 그것에 어울리는 평점을 직관적으로 예측한다.
3단계에서는 기준치에서 직관 쪽으로 움직인다.
이때 움직이는 정도는 상관관계 예측에 달렸다.
마지막으로 4단계에서 직관에 영향을 받은 , 그러나 훨씬 더 평균에 가까운 예측을 내놓는다.
이 예측은 일반적인 방식이다.
학점 평균이나 투자 수익, 기업의 성장 같은 수량 변수를 예측할 때면 언제든지 적용할 수 있다.
직관에 기초하지만, 직관을 다소 조정해 평균으로 회귀하는 방식이댜.
자신의 직관적 예측이 정확하다고 신뢰할 이유가 충분하면,
그러니까 증거와 예측의 상관관계가 높으면, 조정 폭은 적다.
직관적 예측은 평균으로 회귀하지 않으며, 따라서 편향되었기 때문에 수정이 필요하다.
골프 경기에서 각 선수의 둘째 날 성적이 첫날 성적과 꼭같을 것이라고 예상한다고 해보자.
이 예측에는 평균회귀가 없다.
첫날 성적이 아주 좋았던 선수는 평군적으로 둘째 날은 그보다 덜 좋게 마련이고,
첫날 부진했던 선수는 대개 다음 날 더 좋아지게 마련이다.
비회귀 예측을 실제 결과와 비교해 보면 그것이 편향되었음을 알 수 있을 것이다.
이런 예측은 평균적으로, 첫날 최고였던 선수를 지나치게 낙관적으로 보는 반면,
출발이 영 안 좋았던 선수는 지나치게 비관적으로 본다.
선수의 실력이라는 증거만큼이나 극단에 치우친 예측이다.
마찬가지로 어린 시절의 재능으로 대학 학점을 예측할 때 평균 회귀를 고려하지 않는다면,
어려서 읽기가 빨랐던 사람의 이후 학업 성취도에 곧잘 실망하고,
상대적으로 더뎠던 사람의 이후 학점어 깜짝 놀라며 기뻐할 것이다.
직관적 예측을 수정하면 편향이 없어져, 실제 값을 과장하거나 축소하는 정도가 같아질 수 있다.
예측에서 편향을 없애도 오류가 아주 사라지지는 않지만,
그 오류는 전보다 줄어들고 한쪽으로만 일방적으로 치우친 결과는 나오지 않는다.
288-290