|
31
3566
Updated at 2015-04-27 00:36:51
독일의 마르크는 라이히스마르크를 대체하여 1948년 서독의 통화로 출범해서 통일 독일의 통화의 역할을 맡다가 2002년 유로화에게 그 자리를 내어주고 역사 속으로 사라졌습니다. 아래 그림의 화폐는 유로화로 대체되기 직전의 독일 10마르크 지폐로서 현재 환율로 환산하면 6천원 정도의 가치를 갖습니다.
10마르크 지폐 속의 인물은 수학자 가우스입니다. 과학자에 대한 특별한 경외심을 갖는 독일의 문화에 비추면 10마르크의 인물이 가우스인 것은 그렇게 놀라운 일이 아닙니다. 하지만 이 지폐의 한 가운데를 확대해서 보면 놀라지 않을 수 없습니다. 복잡한 모양의 함수식과 그래프가 구체적으로 표현되어 있습니다. 대졸자 비율이 우리보다 훨씬 낮은 독일인이지만 복잡한 수학적 기호와 그것의 이해에는 우리보다 훨씬 능숙합니다.
이 지폐는 가우스가 현대 과학 문명과 불가분의 관계를 갖는 정규분포곡선의 유래를 찾아낸 것을 기념하기 위한 것입니다. 가우스의 발견은 '중심극한정리'라고 불리며 현대 통계학, 수학 물리학은 물론 전체 자연과학과 공학의 발전에 핵심적인 역할을 맡아왔습니다.
중심극한정리를 엄밀하지 않게 표현하면 "작고 관련이 없는 많은 확률효과들이 합쳐서 만들어진 자료는 근사적으로 정규분포를 따른다."는 것입니다. 정규분포는 이런 경우에 나타나고 또 이런 경우 말고는 절대 나타날 수 없습니다. 혹시나 매니아님들 중에서 어떤 집단이나 자료를 묘사하는 데 정규분포를 사용하고 싶다면, 그 이전에 꼭 하나를 확인하셔야 합니다. 이 자료는 서로 관계없는 많은 것들이 모여서 이루어진 것인가? 맞다고 생각하면 정규분포를 사용하셔도 좋습니다. 그게 아니면 절대 사용해서는 안됩니다.
이 세상의 수많은 자연과학적 현상과 적지 않은 사회과학적 현상들이 정규분포를 따릅니다. 예를 들면 작년 수험생들의 수능점수, 학생들의 키와 체중, 사고로 사망하는 사람의 수, 가구의 전력수요 등등 이들 모두는 작고 관련이 없는 여러 가지 다른 효과들의 결과이므로 이들이 합쳐서 만들어진 모집단은 근사적으로 정규분포를 따른다고 가정하는 것이 타당합니다. 실제로 통계 응용에서는 다수의 모집단들이 정규분포를 따르는 것을 가정하는데, 그 가정이 현실적이라는 것을 중심극한정리는 말해줍니다.
t-분포를 이용하여 작은 표본으로 모집단 평균을 추정하는 것, 카이제곱분포와 f-분포를 이용한 모집단 분산 추정 등은 기본적으로 모집단이 정규분포를 따른다는 가정이 반드시 필요한데, 중심극한정리에 의하면 작고 관련이 없는 여러 가지 효과들의 모인 모집단은 정규분포를 따른다고 가정해도 괜찮으므로 t-분포, f-분포 및 카이제곱분포의 사용은 정당성이 확보됩니다.
통계물리에서는 정규분포를 엔트로피가 무한대인 상태로 정의합니다. 서로 독립적인 것들이 무한히 모여서 어떠한 질서도 찾아볼 수 없는 상태가 정규분포 상태입니다. 열역학의 법칙에서 자연은 차이를 싫어합니다. 열은 온도가 높은 쪽에서 낮은 쪽으로 이동합니다. 하지만 사람이 이룬 사회현상에도 그런 법칙이 존재할까요? 사람이 관계된 돈의 흐름도 열의 흐름과 같을까요? 실제로는 정 반대입니다. 무방비의 방치 상태에서는 돈이 없는 자로부터 있는 자로 흐르는 역전 현상이 일어납니다. 이른바 부익부 빈익빈 현상입니다. 이 때문에 각종 규제 등 정부의 역할일 필요한 것입니다. 사람의 키와 몸무게는 거의 정규분포를 따릅니다. 키가 3미터인 사람이 없고, 몸무게가 300킬로그램이 넘는 사람이 극소수인 이유는 평균과 표준편차를 이용한 정규분포로 잘 설명됩니다. 반대로 사람의 소득은 그렇지 않습니다. 소득이 몇 천배, 몇 만배 차이 나는 경우들까지 적지 않게 관찰됩니다.
현대 정통금융이론의 가장 큰 문제점은 돈의 흐름에서 곳곳마다 정규분포이론이 깊게 사용되는 것입니다. 앞서 말했듯이 독일 10마르크에 정규분포 함수와 곡선이 등장하지만, 역설적으로 독일 통화의 역사를 살펴보면 정규분포로 환율 변화를 설명하면 안 되는 이유가 금새 드러납니다. 라이히스마르크의 환율을 살펴보면 1926년에 1 달러당 4마르크 수준이던 환율이 불과 몇 년 사이에 1 달러당 4조 마르크가 넘게 폭등했습니다. 이것만 봐도 환율에 일반적으로 정규분포가 적용되지 않는 게 보이는데, 현대금융의 환율이론에는 정규분포가 깊게 개입됩니다.
현대 금융이론에서 정규분포가 사용된 역사의 시초는 프랑스의 루이 바슐리에(Louis Bachelier)일 것입니다. 바슐리에는 1900년에 작성된 그의 역사적인 박사학위논문 ‘투기이론’에서 주식시장의 가격변동을 브라운 운동으로 모형화 했습니다.
브라운 운동은 1827년에 스코틀랜드의 식물학자 로버트 브라운이 물에 띄운 꽃가루 입자가 물 위를 끊임없이 그리고 불규칙적인 지그재그 형태로 돌아다니는 것을 발견하고 이러한 현상이 물의 분자들이 입자와 충돌하기 때문에 일어나는 것이라고 분석함으로 처음 소개되었습니다. 브라운 운동은 입자가 움직인 평균 거리가 시간의 제곱근에 비례하는 정규분포를 따릅니다.
박사학위 논문에서 바슐리에는 주식의 가격이 시장의 모든 합리적 정보와 예측을 반영한다면, 미래의 가격 변화는 브라운 운동 따른다고 주장했습니다. 하지만 당시로선 혁신적이던 바슐리에의 학위논문은 학계에서 주목받지 못했고, 그는 소르본 대학의 조교수로 재직 중 1차 대전이 일어나자 사병으로 지원해서 참전했고, 종전 후 그의 이전 조교수 자리가 없어짐으로 인해 미국으로 건너가 주목받지 못한 평범한 학자로 1946년에 일생을 마칩니다.
그렇지만 바슐리에의 학위논문 ‘투기이론’은 1950년대 중반 미국의 유명 경제학자 폴 새뮤얼슨에 의해서 재발견되고, 재평가됩니다. 새뮤얼슨은 바슐리에의 아이디어를 대부분 받아들였으나, 주식 가격의 변화가 통상적인 브라운 운동으로 표현된다면 주가는 0 밑으로 움직일 수도 있다는 모순을 극복하기 위해서 새뮤얼슨은 바슐리에의 주가 모형을 수정합니다. 이 부분에서 이해가 안 되는 사실은 우리의 키나 몸무게도 음수가 될 수 없지만 정규분포로 잘 설명됩니다. 주가가 음수로 되는 것이 두려웠으면 정규분포를 사용하는 것도 두려웠어야 맞지 않을까요?
여하튼 새뮤얼슨은 주식 가격이 무작위적인 양만큼 상승하거나 하락하는 것이 아니라, 무작위적인 비율만큼 상승하거나 하락하는 것으로 바슐리에의 모형을 약간 수정해서 주가모형을 만듭니다. 다시 말하면 새뮤얼슨의 주가모형 역시 여러 사람이 주식을 거래하는 방식은 서로 관계가 없다는 가정이 바탕이 된 것입니다. 새뮤얼슨의 모형은 주가의 기대 수익을 제외하면 주가에 로그함수를 취한 값이 브라운운동으로 표시된다는 말과 같습니다. 이는 '기하 브라운 운동 (Geometric Brownian motion)'으로 불리며 그 많은 모순에도 불구하고 학계와 업계에서 아직도 가장 많이 사용됩니다. 새뮤얼슨의 기하 브라운 운동 모형은 학계에서 그가 차지하는 권위에 힘입어 현대 주가모형으로 수십년 동안 소위 랜덤워크 마피아로 불리면서 주류 경제학계와 수리금융계, 더 나아가서는 실무 금융계의 큰 부분을 지배합니다.
새뮤얼슨이 바슐리에의 논문을 재발견 할 즈음 브라운 운동에 대한 연구는 일본의 수학자 ‘이토 키요시’에 의해서 수학의 새로운 장르로 탄생합니다. 이 장르는 확률 미적분학으로 불립니다. 이토는 브라운 운동의 미세한 증분의 제곱은 확률성이 사라져서 시간의 미세한 증분과 같음을 발견합니다. 즉 브라운 운동의 미세한 증분은 제곱하면 확률적이지 않게 됩니다. 이를 바탕으로 그 유명한 ‘이토의 보조정리(Ito's Lemma)’를 사용하여 확률미분방정식(SDE)의 이론을 정립하고 이를 발전시킵니다. 이토의 보조정리는 1970년대 초반 피셔 블랙, 마이런 숄즈 그리고 로버트 머튼이 주식에 대한 옵션의 가격을 구하는 데 결정적으로 사용되며, 결국 숄즈와 머튼은 후에 지난 번 글에서도 언급한 헤지펀드 LTCM을 이끌며 노벨 경제학상을 받으나 정규분포에 지나치게 의존한 그들의 가격이론모형이 약점 때문에 1998년에 헤지펀드 LTCM은 파산합니다.
역사상 가장 뛰어난 금융이론가로 칭송받던 로버트 머튼이 정규분포에 기초한 주가와 환율모형의 약점을 몰랐을 리가 없지만 그는 2008년 금융위기를 맞는 순간까지도 정규분포에 기초한 정교한 모형에 빠져있었습니다.
주가모형에 정규분포가 맞지 않는다는 것은 이미 알려졌습니다. 블랙 먼데이의 상징인 1987년 10월 19일 월요일에 미국 증시의 대표 주가지수인 다우존스 종합지수가 그날 하루 동안 2247에서 1739로 무려 22.6%가 폭락했습니다. 미국 기업 가치의 약 1/4을 흔적 없이 날려버린 87년 블랙 먼데이의 악몽 같은 대폭락은 그 이후로 시장 참여자의 뇌리에서 결코 지워지지 않았고, 그때까지의 금융이론에도 커다란 충격과 변화를 가져왔습니다. 87년까지 주식의 가격이나 주가지수의 움직임이 비교적 새뮤얼슨의 모형과 어긋나지 않았습니다. 새뮤얼슨의 생각대로 사람들은 서로 영향을 주고받지 않은 채 주식을 거래했기 때문입니다.
하지만 주가지수가 새뮤얼슨 모형을 따른다고 가정했을 때 다우존스 종합지수가 하루에 22.6% 하락하는 도저히 일어나기 힘든 일입니다. 주가나 주가지수가 기하 브라운 운동을 따른다는 것은 주식시장이 정상적인 상황이거나 매 순간 감정이 없는 기계들에 의해서 움직일 때는 타당합니다. 하지만 시장이 약간이라도 비정상적인 상황에 들어서면 사람들의 행동은 급격한 동조화 현상을 보입니다. 실제로 87년 블랙 먼데이의 폭락은 시장의 악재 때문이 아니라 급격한 공포감에 빠져든 대다수 투자자들의 동조 투매 때문에 발생한 것이었습니다.
기하 브라운 운동에 따라 주가지수의 수익률이 정규분포를 이룬다면 2008년 리먼 브라더스 파산 직후처럼 하루에 다우존스 종합지수가 7% 하락하는 경우는 수 천만 년에 한번 나오기도 어렵습니다. 하지만 120년 남짓 된 다우존스 종합지수 역사에 7% 하락은 16번이나 더 있었습니다. 어림잡아 9~10년에 한번 씩은 이론적으로 수 천만 년에 한번 발생하기도 힘든 증권시장의 대 폭락이 발생했던 것입니다. 다우존스 지수가 6% 하락하는 것도 이론적으로는 백만년에 한번 나올까말까 한데, 실제는 약 5~6년마다 한번씩 발생하고 있습니다.
87년 블랙 먼데이 대폭락을 계기로 증권 용어 사전에는 두꺼운 꼬리 (그리고 변동성 미소)라는 말이 추가되었습니다. 증권의 가격, 주가지수, 이자율 등의 수익률 분포를 보면 이론적으로 정규분포 모양의 곡선을 얻습니다. 그런데 정규분포 곡선의 그래프는 꼬리가 x 축에 아주 바싹 붙어있지만, 증권의 가격이나 주가지수와 같은 두꺼운 꼬리(팻-테일) 분포에서는 그렇게 바싹 붙어있지 않습니다. 물론 팻-테일 은 기계적이고 확률적인 우연에 의해서 생기는 것이 아니라 사람들의 심리적 동조화에 의해서 발생하는 것입니다.
증권투자에서는 위험을 피하기 위해서 (다변량 정규분포 이론대로) 포트폴리오를 이루는 증권들의 수익률의 상관계수에 따라 분산투자 하라고 말합니다. 하지만 수익률의 상관계수는 과거의 자료로부터 유추되는데 87년 블랙 먼데이와 같은 대폭락 시장에서는 과거의 상관계수와 무관하게 모두 같은 패턴으로 수직강하 합니다. 포트폴리오 분산과 같은 투자 방식으로는 블랙먼데이의 폭락을 견뎌낼 수 없습니다. 90년대 중반에 LTCM은 잘 분산된 포트폴리오를 사용했습니다. 하지만 LTCM 포트폴리오 역시 과거의 상관계수로부터 수량화된 위험을 토대로 짜였습니다. 즉 다시 말해서 ‘시장이 과거와 같이 움직인다면’ 이라는 단서가 LTCM의 위험을 수량화할 때 붙었어야 합니다. 세계적인 금융위기와 러시아의 모라토리엄 선언 이후의 시장은 과거와 같은 움직임이 아니었습니다.
LTCM의 차익거래는 고평가되고 안전하거나 유동성이 풍부한 자산을 매도하고 저평가된 자산을 매수했습니다. LTCM은 보험료를 받고 보험을 판매한 경우와 많이 흡사합니다. 암보험의 판매자는 고객들이 모두 암에 걸려서 보험금을 청구하는 케이스는 거의 고려하지 않아도 되지만, 블랙 먼데이나, 금융위기의 상황에서는 거의 모든 투자자들이 미국 국채와 같은 안전상품으로 몰리는 동일패턴을 형성하기 때문에 고객들이 모두 보험금을 청구하는 현상이 발생할 수밖에 없습니다. LTCM처럼 상대가치 투자를 하는 경우 상대적으로 고평가되는 미국 국채는 항상 매도 대상입니다. 금융위기가 발생하는 경우 미국 국채의 가격이 오르기 때문에 상대가치 투자자들은 손해를 입을 수밖에 없습니다. LTCM은 당시 1:28의 차입비율로 채권 및 스왑 거래를 했기 때문에 투자금액의 4%의 손실을 입는 경우 파산상태가 됩니다. 87년 블랙 먼데이를 LTCM의 트레이더들이 기억 못할 리 없고, 팻-테일 분포에 대해서 모를 리 없었지만 지나친 자신감과 탐욕이 함께 어우러진 결과 천재들의 이성은 발휘되지 못했고 LTCM의 트레이더들은 자신들의 전체 포트폴리오가 갖고 있는 위험을 잘못 추정했던 것입니다.
그들의 이론에 따르면 LTCM이 포트폴리오를 이루는 거의 모든 포지션에서 손실을 입을 확률은 무시해도 좋을 만큼 극단적으로 낮았으나, 아시아 금융위기에 이어 러시아의 국채가 채무불이행됨으로써 전 세계 모든 금융 증권들의 안전 상품으로 탈출화가 도미노처럼 이어졌고, LTCM의 포트폴리오는 이론가격과 실제가격의 격차가 더 벌어짐으로 인해서 모든 포지션에서 엄청난 손실을 입었고, 그 손실의 규모는 47억 달러의 자본금을 전액 잠식했습니다.
이러한 교훈에도 정규분포에 기초한 금융상품가격이론은 10년 후인 2008년에 더 큰 재앙을 가져오게 됩니다. 이에 대한 이야기는 다음 글에서 이어나가겠습니다. 정신 없이 글을 쓰다 보니까 너무 길어지고, 뒷마무리도 마음에 들지 않네요.
[확률과 통계] 48. 중심극한정리, Central Limit Theorem
이번 포스팅에서 다룰 내용은 '중심극한정리(central limit theorem)'입니다. 확률과 통계 24번 포스팅 '기댓값'에서 어떤 확률을 가진 사건을 무한히 시행하면 그 사건의 결과는 평균에 수렴한다는 것을 알 수 있습니다. 이것을 '큰수의 법칙(the law of large numbers)'이라고 합니다. 그럼 표본의 수가 무한이 크다면, 이 "표본들의 평균"이 보여주는 확률분포는 어떻게 될까요? 이걸 다루는 것이 바로 '중심극한정리'입니다. 중심극한정리를 알아보기에 앞서 준비과정이 필요합니다.
어떤 모집단이 정규분포를 따르고, 이 정규분포에서 n개의 표본을 추출했을 때 표본평균은 어떤 분포를 따르는지 한 번 알아봅시다.
적률생성함수에 관해서는 확률과 통계 45번 포스팅을 보시면 알 수 있습니다. 정규분포에 대한 적률생성함수는 직접 구해보시기 바랍니다.
[확률과 통계] 45. 적률과 적률생성함수, Moment & Moment-Generating Function
이번 포스팅에서는 '적률생성함수'를 알아보려고 합니다. 적률생성함수를 이야기하기 전에 먼저 '적률(모멘...
blog.naver.com
그럼 표본평균을 표준화하면 표준정규분포를 따른다는 것을 알 수 있습니다.
이제 본격적으로 '중심극한정리'에 대해 알아보려고 합니다. 중심극한정리는 동일한 확률분포를 가진 확률변수 n개의 평균의 분포는 n이 충분히 크다면 '정규분포'에 가까워진다는 것 입니다. 여기서 모집단은 임의의 모집단입니다. 즉 알 수 없는 모집단에서 표본이 충분히 크다면, 이 표본평균의 분포는 정규분포에 근사한다는 것이죠. 아래 그림은 균일분포(uniform distribution)로 설명한 중심극한정리 입니다. 각 표본은 균일분포이지만, 이 표본이 증가할수록 표본평균은 정규분포를 따르는 것을 볼 수 있습니다.
출처 : http://www.statisticalengineering.com/central_limit_theorem.htm
아래 그림은 각 확률분포의 표본이 많아질수록, 표본평균은 정규분포에 근사하는 모습을 보여줍니다.
중심극한정리의 증명은 적률생성함수를 이용합니다. 증명의 핵심은 표본평균의 적률생성함수가 n이 무한대일 때, 어떤 적률생성함수로 수렴하는지 알아보는 것이죠.
증명을 보면 알겠지만 n개의 표본이 어떤 특정한 확률분포를 따르는게 아닙니다. 임의의 모집단에서 n개의 표본을 취하고, 표본평균으로부터 중심극한정리의 증명이 시작됩니다.
문제 하나 풀어봅시다.
이 문제에서 건전지의 수명이 어떤 확률분포를 따르는지 모른다는 것이죠. 하지만 표본 100개는 충분히 크다고 볼 수 있으므로 건전지 수명의 확률분포는 정규분포에 근사한다고 할 수 있습니다.
다시 한 번 정리하자면 중심극한정리는 분산이 유한한 모집단에서 선택한 랜덤 표본의 평균 분포는 모집단 분포의 모양에 관계없이 표본 크기가 커짐에 따라(즉, 시행횟수 n이 무한대일수록) 정규 분포를 따르는 것을 말합니다. 이제 마지막으로 한 가지만 더 짚고 마무리 하겠습니다.
이 정리는 중심극한정리의 또 다른 모습이라 할 수 있습니다. 이전에 다뤘던 이항분포, 포아송분포, 그리고 감마분포에서 표본이 많아지면, 이 표본들의 합은 어떤 분포에 가까워지는가를 보여줍니다. 위 정리에 의하면 표본들의 합(즉 확률변수의 합)은 n이 커짐에 따라 정규분포에 수렴합니다.
중심극한정리의 맹점도 존재합니다. 바로 중심극한정리를 과도하게 집착하여 실생활에 너무나 많은 부분에서 정규분포로 가정하는 것이죠. 데이터(혹은 표본)가 충분하지 않은 상황에서 정규분포로 가정하는 것은 맞지 않습니다. 즉 극단적인 사례가 발생할 상황은 과소평가되기 쉽습니다. 대부분의 상황을 정규분포로 가정해서 큰 피해를 본 대표적인 경우가 바로 2008년 금융위기 입니다.