|
어른들을 위한 수학 〈21〉 기록과 확률과 통계의 스포츠, 야구
글 : 이충국 CMS에듀 대표
⊙ 야구는 경기 중 발생하는 모든 상황이 기록지에 남겨지는 유일한 스포츠
⊙ 통계적으로 분석해 보면 타율이 높은 타자보다 출루율이 높은 타자가 득점할 확률이 더 높아
⊙ 메이저리그에서는 Pitch F/X(투구정보추적시스템)를 이용하여 공의 움직임까지 분석
이충국
1963년생. 연세대 교육대학원 교육학 석사 / 생각하는 수학교실(CMS에듀의 전신) 설립, 세계수학올림피아드 WMO (World Mathematical Olympiad) 부위원장, CMS에듀 대표이사(2003.7~) / 《초등학생이 반드시 알아야 할 똑똑한 수학 공부법》 《엄마도 꼭 알아야 할 똑똑한 수학 공부법》 《잠자는 수학 두뇌를 깨우는 창의사고 수학》 출간
세계인의 관심과 이목이 집중되었던 ‘2018 평창 동계올림픽’이 성황리에 막을 내렸다. 한국 동계 스포츠에서 단연 효자 종목인 쇼트트랙 이외에도 수많은 유행어와 패러디 영상을 만들며 온 국민의 사랑을 받게 된 컬링과 훌륭한 성적을 낸 스피드스케이팅, 새로운 도전을 이뤄 낸 스켈레톤과 봅슬레이, 스노보드 등 많은 종목들이 주목을 받으며 스포츠에 대한 열기가 높아졌다. 이제 날이 풀리고 따뜻한 봄이 옴과 동시에 그 열기는 다시 프로야구로 옮아왔다.
프로야구는 각 팀이 다른 모든 팀과 겨루는 방식인 라운드 로빈 토너먼트(round robin tournament) 방식으로 정규시즌을 치르게 되므로 스포츠 경기를 오랜 시간 즐길 수 있어 두꺼운 팬층을 보유하며 매 시즌 최고의 인기 스포츠로 자리매김해 왔다.
승률, 타율, 방어율
야구는 흔히들 기록의 스포츠, 확률과 통계의 스포츠라고 한다.
야구는 경기 중 발생하는 모든 상황이 기록지에 남겨지는 유일한 스포츠이다. 기록지를 토대로 직접 보지 않은 경기 내용도 재구성하는 것이 가능하다. 매 경기 풍성하게 쏟아져 나오는 기록을 바탕으로 응원하는 팀이나 선수에 대한 예측을 하며 새로운 기록들이 나오기를 기대하기도 한다. 기록이 없었다면 고교야구 선수로서 17이닝 연속 노히트 노런을 기록한 최동원, 높은 퀄리티스타트로 우수선수로 자리매김할 수 있었던 박찬호, 9경기 연속 홈런으로 세계 신기록을 달성한 이대호도 그저 잘 던지는 투수와 잘 치는 타자 정도로만 남았을 것이다. 하지만 오랜 기간 쌓여 온 기록을 토대로 산출된 통계는 그들이 얼마나 대단한 선수였는지를 이야기해 주는 근거가 된다.
팀 간의 우열을 가리기 위한 것이 승률이다. 타자가 타석에 들어서면 제일 먼저 타자에 대한 정보를 제공하는 것이 타율이다. 투수에 대한 정보 중 가장 먼저 알려주는 것이 방어율이다.
타율은 타자의 타격정확도를 알려주는 척도로 (타율) = (안타 수) ÷ (타수), 즉 안타 수를 타격한 횟수로 나누는 것이다. 타자가 타석에 들어서서 정상적으로 타격을 했을 때 안타를 친 비율을 말한다.
방어율은 투수가 평균적으로 한 게임(9회)당 실점한 점수를 의미한다. 방어율은 {(총 자책점)×9} ÷ (등판한 횟수)이다. 또한 각 팀의 순위를 결정하는 승률은 (승리한 경기의 수) ÷ (승패를 기록한 경기 수)로 승리한 경기수의 비율을 의미한다. 여기서 알 수 있는 것은 타율, 방어율, 승률 모두 비율을 따지는 확률이라는 것이다. 모두 소수점 4자리에서 반올림하여 구하는데 이를 바탕으로 각 팀과 선수의 우열을 가리게 된다.
야구의 평가 지표를 마련한 세이버메트릭스
야구를 통계학적으로 분석하는 세이버메트릭스의 창시자 빌 제임스의 책. |
야구를 통계학적으로 분석하는 방식인 세이버메트릭스(Sabermetrics)는 SABR와 metrics의 합성어이다. 세이버메트릭스 창시자인 빌 제임스(Bill James)는 미국야구연구협회인 SABR(The Society for American Baseball Research)라는 모임을 만들어 야구의 모든 기록을 통계학적으로 분석하여 객관적인 수치로 나타냈다.
처음에는 단순한 취미 차원에서 야구를 분석하는 데 사용되었으나 이제는 모든 구단에서 야구단을 운영하기 위해 기본 데이터로 사용하고 이 기록을 바탕으로 팀을 운영한다. 즉, 각 팀 더그아웃의 주관적인 분석이 아니라 스포츠에 빅데이터를 접목시켜 객관적인 지식과 정보를 바탕으로 팀 전략을 세우게 된 것이다.
세이버메트릭스의 전문가를 세이버메트리션(sabermetrician)이라 부른다. 이들은 야구에 관한 모든 지표를 최대한 객관적이고 세밀하게 분석한다. 최근에는 더그아웃에서뿐 아니라 해설자, 전문 기자, 스포츠 칼럼니스트와 일반인들까지도 다년간 누적해 온 야구 기록에 대한 빅데이터를 이용하여 세이버메트릭스를 바탕으로 야구 경기 분석을 하기도 하고 선수들과 구단 간의 연봉 협상 시 이 방식의 분석 결과를 근거로 제시하고 있다.
미국의 많은 프로야구 구단 중 가장 가난한 구단이었던 오클랜드 애슬레틱스는 1998년 빌리 빈(Billy Beane)이 단장으로 취임한 이후 2000년대에는 거의 매년 포스트시즌에 진출하는 강팀이 되었다. 특히 2002년에는 아메리카 리그 사상 최초 20연승을 하며 그해 프로야구에서 가장 주목받는 팀이 되었다. 이는 홈런이나 타율이 높은 타자보다 출루율이 높은 타자가 득점확률이 높다고 제시한 ‘머니볼(money ball)이론을 바탕으로 예산이 적은 스몰마켓팀이 저비용, 고효율을 추구하는 운영방식을 도입하였기 때문이다. 이후 빅마켓팀에서도 스타선수나 높은 타율, 홈런 등의 요소가 아닌 객관적 데이터를 바탕으로 하는 머니볼 이론을 야구단 운영에 적용하였다. 대표적으로 빅마켓팀인 보스턴 레드삭스는 1918년 이후 월드 시리즈 우승이 없었는데 2004년 세이버메트리션을 기용한 후 ‘밤비노의 저주’를 깨뜨리고 86년 만에 월드시리즈에서 우승했다. 보스턴 레스삭스는 이후에도 2번이나 더 우승을 하였다.
세이버메트릭스가 알려주는 정보
세이버메트릭스는 이전의 상식과는 조금 다른 결과를 이야기한다. 한 예로 타율과 득점의 상관계수(0.672)보다 출루율과 득점의 상관계수(0.835)가 더 높다는 결과가 나왔다. 즉, 타율이 높은 타자보다 출루율이 높은 타자가 득점할 확률이 더 높다는 의미이다. 출루율(OBP: On Base Percentage)은 타자가 베이스에 얼마나 많이 살아나갔는지를 백분율로 나타낸 지표이고 득점 가능성의 지표로 삼기 위한 계산 방법으로 다음과 같은 공식을 적용할 수 있다.
(H: 안타, BB: 볼넷, HBP: 몸에 맞는 볼, AB: 타수, SF: 희생플라이)
여기서 알 수 있는 것은 에러나 야수 선택에 의한 출루는 더해지지 않고, 희생 플라이는 출루율을 낮춘다는 사실이다. 오클랜드의 단장 빌리 빈이 타율은 낮지만 볼넷을 자주 얻어내 출루율이 좋은 타자들을 낮은 값에 계약하여 저비용으로 오클랜드를 강팀으로 만들었다. 이를 계기로 출루율은 타자를 평가할 때 중요한 타격지표로 사용된다.
승률에 관한 세이버메트릭스도 있다. 빌 제임스는 한 시즌 동안 팀의 실제 승률과 득실차 사이에 유의미한 관계가 있음을 발견하고 팀의 득점과 실점을 기반으로 하여 승률을 예측하는 방식을 고안한다. 그 공식은 다음과 같다.
이는 피타고라스의 정리(A2=B2+C2)와 비슷하여 ‘피타고리안 승률(Pythagorean Expectation)’ 혹은 ‘피타고라스 승률’이라고 불리게 되었다. 하지만 이 식은 실제 결과와 다소 오차가 발생하였고 보다 현실적인 결과를 찾기 위해 연구한 결과 1.83이란 지수를 사용한 식을 현대 야구에서는 사용하고 있다.
피타고리안 승률은 일반적으로 사용하는 승률과는 약간 다른 개념이다. 야구 시즌 중 어떤 팀의 피타고리안 승률이 0.500(5할)인데 비해 실제 승률이 0.600(6할)이라고 한다면 그 팀의 해당 시즌 최종 승률은 5할로 수렴한다고 하여 미래 예측 지표로 사용하기도 한다. 하지만 반드시 피타고리안 승률로 시즌을 마감하지는 않는다. 즉, 이 지표가 말하고자 하는 것은 결국 확률, 어떤 일이 일어날 수 있는 가능성이기 때문이다. 주사위의 눈 중 1이 나올 확률은 1/6이지만, 주사위를 60번 던졌을 때 반드시 1이 10번 나오지는 않는다. 피타고리안 승률도 이와 마찬가지로 결과를 정확하게 예측하지는 못한다.
하지만 피타고리안 승률로 팀 운영을 평가하고 앞으로의 성적을 예측할 수 있다. 팀 승률이 피타고리안 승률보다 높다면 그 팀은 효율적인 운영을 했다고 볼 수 있다. 게임당 득점의 표준편차가 크고 변동이 많은 경우 실제 승률이 피타고리안 승률보다 커지는 현상이 발생하는데, 이러한 현상은 주로 불펜진이 강한 팀에서 나타나는 현상이다. 이 팀은 앞으로 성적이 내려갈 확률이 높을 것으로 예상할 수 있으나 불펜 투수진이 시즌 마지막까지 버텨 준다면 실제 승률이 피타고리안 승률보다 높은 상태로 시즌을 마감할 수도 있게 된다.
OPS와 WHIP
이외에도 세이버메트릭스에서 나온 지수 중 현대 야구에서 많이 사용하는 것에는 OPS, WHIP 등이 있다.
OPS란 On base Plus Slugging의 약자로 출루율과 장타율의 합을 의미한다. 세이버메트리션들의 오랜 연구의 결과는 야구의 데이터 중 가장 중요한 것이 득실점이라는 것을 밝혀 냈다. 이 중 득점과 가장 밀접한 부분이 ‘얼마나 자주 출루하느냐’(출루율)와 ‘얼마나 많은 베이스를 나가느냐’(장타율)인데 OPS는 두 요소를 한꺼번에 보여주는, 득점과 가장 밀접한 타격지표로 출루율보다도 팀 득점에 더 높은 기여를 하는 지표이다.
WHIP는 Walks Plus Hits Divided by Innings Pitched 즉, 이닝당 안타 볼넷 허용률로 투수의 평가 항목 중 하나이다.
피안타 수와 볼넷 수의 합을 투구 이닝으로 나눈 수치로 한 이닝에 몇 명의 주자를 출루시켰는지를 나타내는 지표이다. 여기에는 고의사구는 포함되며 몸에 맞는 볼은 포함하지 않는다. 이는 주자가 적으면 실점할 가능성 역시 적어지므로 투수의 안정도를 측정할 때 사용된다. 일반적으로 에이스는 1.00 미만, 1선발급 투수는 1.20 전후, 1.40을 넘어서면 4~5선발급으로 분류된다. 참고로 한국프로야구에서 최고의 WHIP를 기록한 선수는 1993년 선동렬의 0.54이고 통산 WHIP 역시 선동렬의 0.80이다.
세이버메트릭스의 한계
야구의 모든 기록이 남는 야구 기록지. |
세이버메트릭스가 야구팀의 운영과 각 선수에 대한 평가 지표로 유용하게 사용되고 있지만 시즌 예측 시스템으로서 보여주는 결과는 정확성이 다소 떨어진다는 평가를 받고 있다. 시스템의 정확성을 산출하는 근거 자료는 과거의 누적된 기록들과 통계 자료들이다. 기록은 그 자체로서 중립적이며 세이버메트리션들은 기존 지표에 비해 더 많은 연관성을 지니는 지표를 만들기 위해 연구한다. 스포츠에는 기록 이외에도 심리나 부상 등 수많은 변수가 존재하므로 세이버메트릭스가 그 변수(變數)들에 대한 보정(補正)까지 고려할 수는 없다. 지표의 불확실성을 극복하기 위해서 기존 지표를 뛰어넘는 새로운 지표를 만들어 내기 위한 연구를 하는데 이 과정에서 기존에 놓치고 있던 요소들에 대한 가치나 선수의 가능성에 대해 재조명하게 된다는 점이 세이버메트릭스의 매력이다.
또한 당연한 이야기이겠지만 충분히 만족할 만한 결과를 얻기 위해서는, 즉 운이라는 요소를 배제한 결과값을 얻기 위해서는 표본의 크기가 충분히 커야만 만족스러운 결과를 얻을 수 있다. 결국 정확한 통계 분석을 위해서는 충분한 기록이 토대가 되어야 한다.
지금까지의 세이버메트릭스가 단순한 통계 자료를 이용한 분석이었다면 현재에는 각종 최첨단 기기의 힘을 빌려 기록이 알려주지 않는 영역까지 예측할 수 있는 지표를 개발 중이다. 메이저리그에서는 Pitch F/X(투구정보추적시스템)를 이용하여 공의 움직임을 분석하고 있다. 이것은 투수가 던진 공의 속도와 움직임을 측정하는 것으로 속도와 움직임으로 구종을 분류할 수 있다. 이 기술을 기반으로 타격 이후 공의 방향까지도 추적할 수 있는 시스템이 현재 연구되고 있다고 한다. 시즌이 거듭될수록 통계 분석 자료에 기반한 야구 운영의 필요성은 더욱 주목받게 될 것이다.⊙