|
|
출처: 여성시대 (twins)
1편 https://cafe.daum.net/subdued20club/ReHf/5482320
2편 https://cafe.daum.net/subdued20club/ReHf/5482634
여시들이 재밌게 봐줘서 또 가져왔습니다요
댓글 많이 달아주니까 이게 머띿오 피식피식 글 쓰게 되내ㅎ
3편 주제는 통산기록입니다
이번 편은 세이버 매트릭스에 대한 설명과 맹점, 그리고 제가 세이버 매트리션 추구를 시작한 이유를 함께 늘어놓을 예정입니다
이번에도 기준은 스탯티즈로 함
왜냐면 통산기록은 스탯티즈만 제공하기 때문임
저번에도 말했겠지만 스탯티즈는 1. 수비WAR 뻥튀기 2. 근데 그와중에 1루수, 2루수 수비 평가절하 있음 등등의 이슈가 있음
진짜 스포키가 이상하게 만진 후에 너무 이상해졌어.. 그러나 나름 데이터의 방대함과 편의성은 스탯티즈가 탑이므로 저는 그냥 스탯티즈를 씁니다
***주의: KBO 야구 데이터 수집은 그리 오래된 역사가 아닙니다 따라서 2013년(또는 그 후에도) 이전 기록들은 의미 없을 확률 높음***
2025년 스탯티즈 기준 통산 WAR 순위
1위 양준혁 / 2위 최정 / 3위 선동열 / 4위 최형우 / 5위 양의지 / 6위 이승엽 / 7위 이종범 / 8위 김현수 / 9위 강민호 / 10위 김태균 / 11위 박경완 / 12위 양현종 / 13위 김광현 / 14위 송진우 / 15위 오지환 / 16위 장성호 / 17위 손아섭 / 18위 김동주 / 19위 김동수 / 20위 장종훈
여러분 내 팀 영결은 어디있노 이 늙은 사람은 누고 하고 계신가요?
아니면 키움 NC KT 휀여시들은 우리 팀 왜 없냐고 하고 계신가요?
이번 편에서는 세이버매트릭스의 정수와 같은 WAR이라는 기록에 대해서 말해보고자 합니다
1. WAR이란 무엇인가
WAR의 정의는 대체 선수 대비 승리 기여도임
대체 선수 = 그 리그의 평균치 라고 보면 됨
우리가 세이버 매트릭스를 보는 이유는 바로 '평균치'의 보정 때문이 가장 크다고 보면 됨
예를 들어보자 2018년에는 3할 타자가 34명인데 2025년에는 11명이다
이걸 보고 "ㅋㅋㅋ크보 빠따 다 죽었네 수준 ㅋㅋ" 하는 건 솔직히 야알못임
타율/출루율/장타율/OPS 같은 '클래식 스탯'은 같은 조건 아래 있을 때에는 유의미하지만, 그 조건이 바뀌면 비교 선상을 달리 놓아야 한다는 거임
뭐가 그렇게 바뀌냐고?
구장이 어디인지, 공인구의 성질이 어떤지, 베이스러닝 쉬워졌는지, 견제구 몇개 던질 수 있는지, 트레이닝 수준은 얼마나 올라왔는지, 심판의 스트존은 어땠는지 등등 정말 무수히 많은 변수가 있음
그래서 2018년 3할의 가치과 2025년 3할의 가치를 동선상에 놓을 수가 없는 것임
정말 조심스럽지만, 이해를 돕기 위해 선수 실명을 거론하겠음
24도영과 25성문임
도영군은 타율 0.347 / 출루율 0.420 / 장타율 0.647 / OPS 1.067 / 홈런 38
성문씨는 타율 0.315 / 출루율 0.387 / 장타율 0.530 / OPS 0.917 / 홈런 26
클래식만 보면 도영군의 압승임 당연함
그러나 세이버매트릭스는 두 선수의 퍼포먼스가 용호상박이라고 해석함
왜 그런걸까?
가장 큰 이유는 2024년 리그타격의 평균과 2025년 리그타격의 평균이 다르다는 데 있음
여기 가장 큰 영향을 미친 공인구의 성질임. 24년 공은 2010년대 중후반의 타고투저 마냥 맞으면 쫙쫙 날아가는 공이었음
그런데 25년 공은 22년이나 23년 정도는 아니지만 상대적으로 투고타저 공이라는 게 통설임
그럼 공이 똑같으면 둘의 타격은 똑같을까? 정답은 당연히 아니오.
둘의 팀이 다르니 72경기를 뛴 구장이 다를거임. 근데 고척에서의 홈런과 광주챔필에서의 홈런의 가치는 절대 동일하지 않음
(물론 쓰리런의 가치는 동일함 선수의 평가 측면에서 달라진다는 거임 잠실에서 홈런친다고 +1 얹어주지는 않습니다요)
이런 것도 보정해? => 례 데이터 변태들은 다 보정한다네요 좌-중-우 , 펜스 높이 등 비거리 따라 홈런 파크팩터(HF)라는 걸로 보정함
야구 좀 본 여시들은 '가장 중립에 가까운 구장이 챔필이다'라는 말 들어봤을거임
이게 데이터로 드러남 ㅇㅇ 파크팩터 보정은 1000을 평균치로 지정하고 있음 챔필은 딱 997임
반면 고척은 933임 홈런치는 게 '어려운' 구장이라는 거. 더 긴 비거리를, 더 높은 발사각도로 쏴야한다는 거임.
어쨌든 이런 저런 걸로 타격치에는 보정이 들어가게 됨
그 런 데
사실 우리는 지난번에 wRC+ 라는 걸 같이 봤음
득점 창출력 = 타격생산성이라서 타자들의 '공격력'만 보고 싶을 때 활용되는 스탯임
자 다시 wRC+로 줄을 세우면
갑자기 신인군필고릴라 25안현민이 1위로, 25오스틴이 3위로, 25송성문이 4위로 위치함
참고로 이 wRC+역시 진퉁 세이버매트릭스 스탯 중 하나이므로 평균치의 보정이 적용됨
그니까 어쨌든 김도영의 타격이 송성문보다 유의미하게 빼어나다는 거임
그럼 뭐가 WAR의 차이를 만들었을까.. 다시 WAR의 정의를 생각해보자 대체 선수 대비 승리 기여도다
타자의 대체 선수는 타격만 하지 않습니다 '수비'도 하고 '주루(도루 포함)' 다 합니다
이 점에서 WAR은 클래식 스탯과 또 다른 차이가 생기는 거임
지난번에 말했던 거 처럼 수비지표로 대표적인 건 DER이 있기는 한데
솔직히 호크아이 같은 개쩌는 측정기계 쓰고 있는 MLB에서도 아직 '수비'를 측정하는 방식에 대한 정확한 답을 내리지는 못했음
그래서 수비 지표의 반영 산식이나, 반영 가중치에 따라 업체별로 WAR이 굉장히 크게 차이가 남..
조심스레 말을 얹어보자면 스탯티즈는 포수/유격/3루 보정치가 크게 들어가는 거 같고, 그에 비해 2루, 1루, 외야수는 영 보정치가 좋지 않아 보임
어쨌든 타자의 타격 뿐만 아니라 수비툴, 주루툴까지 죄다 수치로 반영해버리자! 라는 것이 타자 WAR의 의의인 것임
25성문씨는 엄청난 수비실력으로 24도영군과의 간극을 메운 것임
자 그럼 다시 통산 WAR 순위를 봐보까요
그래서 순위 안에는 유격수(종범햄은 몇년만 뛰긴했지만), 포수, 3루수 비중이 꽤 크고 1루수와 외야수 비중은 정말 낮다는 걸 알 수 있음
그치만.. 그치만 아직 뭔가 이상하다.. 이상해.. 라는 걸 알아채신 분 있나요?
2. WAR의 맹점
우리 대호헴 어디갔누..
롯데휀 여시들 빠따를 내려놔 주세요 이건 절대 그의 위대함을 폄훼하려는 게 아닙니다...
왜 대호헴 없음? => 이게 바로 WAR의 장점이자 단점, 토탈짬뽕스탯이라는 특성을 드러내는 거임
제가 WAR는 수비지표와 도루지표를 모두 반영한다고 말씀드렸죠
그리고 잘하는 선수는 무조건 타석에 많이 서든 수비이닝을 소화하든 하는 게 팀에게 도움이 되지 않습니까
(부상당한 선수 없다고 우리팀 망한다고 소리 지르던 때를 기억해보세요)
그게 무슨 뜻이냐.. 하면 잘하는 넘은 경기에 많이 출장할수록/ 타석에 많이 설수록 / 수비이닝을 많이 먹을 수록 내가 내 팀에 기여한 정도가 커질 수 밖에 없다는 것임
팀플을 생각하면 쉬움 적어도 GPT한테 일을 시켜서 뭐라도 정리할 수 있는 럼이 있다면 도움이 되긴 하잖음 설령 그가 4장 레포트 중 3줄만 썼다고 하더라도.
스탯티즈가 보여주는 스탯은 KBO기준임.
그러니까 (1) 대졸 선수인지 (2) 1군 데뷔가 얼마나 빨랐는지 (3) 해외 진출 얼마나 했는지 (4) 부상으로 자주 빠지는지 와 같이 타석에 얼마나 서서 출루하고 안타때리고 홈런 넝궜는지까지 WAR에 다 반영이 되는 거임
대호헴은 NPB갔다가 메이저도 갔고, 심지어 그 시기가 데호헴의 전성기였으니 그 좋은 기록들은 KBO가 아닌 다른 리그에 남아있게 된 것임
사실 이건 스탯티즈만의 맹점이라고 할 순 없음 걍 1부리그가 아닌 KBO의 문제 아닌 문제지
다만 2000년 초까지만 해도 고졸야구선수보다는 대졸야구 선수가 더 많았던 영향은 분명히 있을 것임
요즘 선수들은 빠르면 고졸 신인부터 기록 쌓는데, 4년을 대학리그에서 보내고 오면 누적 쌓기에는 불리할 것임
그럼에도 짧은 기간에 높은 WAR을 쌓았다면 그만큼 더 대단하다는 것
근데 개인적으로 생각하는 진짜 문제는, 구장이니 공인구니 하는 건 다 반영되어도, 타순이나 팀의 뎁스에 따라 받는 영향을 모두 보여주지는 못한다는 거임
예를 들어보겠음 주인공은 암흑기의 LG와 이병규임
"이몸 등장"
"어디보자보자... 루상에 선행 주자도 없고 .. 이미 아카 2개 잡았고 ... 뒤에 타순도 이대형??ㅋㅋ ㅇㅋ 라뱅이헴만 열심히 잡으면 되겠네 안되면 걍 거르고 ㅋㅋ"
(물론 이병규 뒤에 이대형을 배치할 미친 감독은 없음 쉽게 설명하기 위한 예시임)
결과: 볼넷
다른 주인공은 같은 년도의 롯데와 이대호임
"빤히"
"아.. 손아섭 2루에 있네... 하 뒤에 타순도 홍성흔 강민호... 이거 뭐 걸러도 의미가;; ㅇㄴ돌겠네;;; 일단 땅볼유도 해본다;;;"
결과: 우측 담장을 때리는 1루타
아시겠습니까? 그 팀의 다른 야수풀이 좋을 수록 '좋은 타자 1명을 거르고 상대' 또는 '좋은 타자 1명에게 전력 투구'하기가 좋아집니다
물론 세이버는 '출루' 또한 타격생산성에 잘 반영을 해주긴 하더라도 그게 안타와 동일한 값이지는 않습니다
그리고 모든 팀에 있을 멘헤라 투수들은 꼬오옥 선행주자 있으면 꼭 폭투하고, 아카 1개도 없으면 꼭 볼질하잖슈 ㅠ
어쨌든 그 팀의 야수 뎁스가 해당 타자의 성적에 영향을 미칠 확률이 있다는 거임...
그러나 이런 건 세이버에 반영되지 않음. 왜냐면 이걸 데이터로 어떻게 증명해?
세이버는 데이터로 잡지 못하는 건 절대 반영하지 않음
소위 세이버 매트리션은 이런 심리적인 영향 어쩌고 하는거 다 무시하고 데이터만 봄
참고로 팀 뎁스는 타격 성적에만 영향이 가지 않음 수비 성적에도 영향이 감
또다시 주인공은 암흑기 LG..
"아 나 고등학교때도 투수만 했는데 1군 유격수 이거 바로 해도 되는건가???"
(어찌저찌 잡음)
"ㅋㅋ와 미친 이걸 내가 잡음ㅋㅋ 1루에 있는 페타지니 형 보고있지?"
(1루 송구)
"한국말 몰라"
(포구 실패)
"하.. 하.. 미친.. 하.. 그거 좀 잡아주지..."
(기록: 유격수 송구 실책)
이와 같이 1루수는 원래 높은공 낮은 공 튀는 공 다 잡아주는 포구 실력도 꽤나 중요한데
1루수 수비 범위가 좁거나, 포구를 잘 못하는 경우에는 그게 그냥 송구실책으로 기록되어버릴 수도 있음
아무튼 이런 이유들로 세이버 매트릭스가 완벽하진 않을 수 있다는 건 알아두면 좋음
특히 옛날 기록들은 보정치가 이상하게 적용되어 있을수 있어서 그대로 믿기에는 조금 왜곡이 있을 수 있음
3. 그럼에도 WAR이 의미가 있는 점
WAR은 종합짬뽕승리기여선물세트 라는 건 계속 설명해왔음 그럼 다시 살펴보자
* 다시 말하지만 데뷔년도가 80~90년도인 선수들의 기록은 보정치가 제대로 안들어가 있을 수 있음
우리 생각보다 현역 선수가 많이 보일거임
최정, 최형우, 양의지, 김현수, 강민호, 양현종, 김광현, 오지환, 손아섭 등등등..
결국 통산 WAR는 그 선수의 꾸준함도 반영하기 때문임
없는 것보다는 있는 게 좋고, 오래오래 팀에서 거르지 않고 뛰어줬다는 거임
실제로 출장수도 1위 강민호, 2위 최정, 3위 최형우임
그리고 WAR은 야수의 가치를 종합적으로 바라볼 수 있게 해줌
예전부터 5툴 이라는 말은 있어왔지만, 클래식은 그걸 전혀 반영해주지 않았음
그렇지만 세이버는 그런 5툴까지 어쨌든 다 합쳐서 가치를 평가해 줌
아마 여시들 중에 수비하나는 쥑이는데 빠따가 아쉬워서 많이 못본 선수들이 있을거임
그런 선수들은 클래식만 보고서는 절대 살아남을 수 없음
그렇지만 세이버 매트릭스는 주루툴과 수비툴까지 그 선수의 가치에 반영해 줄 수 있음
그 대표적 수혜자가 컨택이 좋지 않지만 4툴은 되는 오지환인 것
4. 결어
데이터와 세이버 매트릭스의 세계 어떠신가요
특정 팀 휀이 불편하지 않도록 글을 쓰고 싶었답니다
그래서 안좋은? 예시는 최대한 LG를 썼습니다ㅎ 편애 이런 거 아니니까 오해하지 말아줘요 ㅎ
(엘지휀이긴해서 엘지를 더 잘 알긴 하는데 이번에는 그런 의도는 아니었다는 뜻 아무튼 아니라는 뜻)
이게 머띿오 몇시간을 글 썼내요
혹시 불편하거나 문제되는 내용 있으면 역시 다정하게 타일러주십쇼 가슴이 아파버리니까
그리고 댓구리 남겨주면 다 읽고 있습니다 잼게 보셧다면 힘찬 댓글 남겨서 저에게 웃음을 선뭃해주십쇼 ㅋ
|
|
첫댓글 아직 완벽하게 이해는 못하지만 데이터야구글 흥미롭게 챙겨보고있어ㅋㅋㅋ 글쪄줘서 고마워~~ 하나씩 알아간다
한국말 몰라 미치겟네 웃겨서 댓 먼저달고 더 읽을껰ㅋㅋㅋㅋ
와 여시 미쳤다 이렇게 정리를 잘해준다고.. 나도 스탯같은거 대충 보기만하고 자세히는 몰랐는데 너무 재밌게 설명 잘해준다 고마워ㅋㅋㅋㅋ
와 war 흥미돋ㄷㄷ 우르크는 잘 몰랐는데 여기서 알고가네요 글 재밌게 읽고갑니다 ㅎ
스탯 딥하게 보진 못하고 순위 높으면 좋지~ㅋ 하고 마는데 이렇게 디테일하게 적어준다니 개쩔어요
우와 진짜 자세하다 ㅋㅋㅋㅋ 똑똑해...어려운데 사족이 재밌어서 잘 읽히네
예시가 너무 눈물이 나는데 보니까 우리팀인거예요
아니 여시 글 개재밌게 쓴다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
정독해야지 쫌따
아 넘 재밌다 잘봤어 여샤ㅋㅋㅋ나도 스토브리그 때 데이터 공부 좀 해봐야겠다..
오ㅏ 순페이여시 진차 재밌게 잘 봤어👏
진짜 재밌다ㅋㅋㅋㅋ 전에 한화 김태균도 유사한 상황으로 기록면에서 되게 많이 손해봤다고 들었슨(김태균만 막으면되...=응너볼넷) 데이터로는 알 수 없는 세계가 있지
아 넘웃기게 잘써줬닼ㅋㅋㅋㅋㅋㅋㅋ 이해쏙쏙 고마워