단어 사용빈도에도 수학적 법칙이…
자주 쓰는 단어 순으로 빈도 1, 1/2, 1/3, 1/4…‘지프의
법칙’
대량의 영어 문헌 빅데이터 분석에서도 수학규칙 경향
나타나

왜 그렇지? 그
이유를 설명하긴 힘들지만 신기하게도 여러 현상에서 구현되는 지극히 경험적인 그런 법칙이 있다. 그중 하나로 ‘지프의 법칙(Zipf’s
law)’이란 게 있다고 한다. 요소 개체의 규모가 요소 개체의 규모 순위에 반비례한다는 법칙이다. 미국 언어학자이자 문헌학자인 조지 킹즐리
지프(George Kingsley Zipf: 1902~1950)가 제시한 법칙으로서, 예컨대 가장 자주 쓰이는 낱말과 비교해 두 번째로 자주
쓰이는 낱말의 사용 빈도는 2분의 1이며, 세 번째로 자주 쓰이는 낱말의 사용빈도는 3분의 1, 네 번째는 4분의 1…, 이런 식의 규칙이
나타난다는 것이다.
지프의 법칙은 언어학자의 이름을 따서 붙여졌으나, 언어뿐 아니라 성씨 분포, 도시인구 분포 등 여러 다른 경우에서도 보고돼 물리와 사회
현상의 독특한 분포를 보여주는 경험적 법칙으로 받아들여져 왔다. 여러 연구자들은 지프의 법칙을 입증하거나 보완하거나 반증하는 논문을
내어왔다.
최근 지프의 법칙이 들어맞는지를 살피고자 방대한 영어 문헌을 대상으로 검증한 결과가 다시 발표됐다. 스페인 바르셀로나주립대학
수학연구소(CRM) 소속 연구진은 과학저널 <플로스
원(PLoS ONE)>에 낸 논문에서, 지식 공유를 내건 가상도서관 ‘구텐베르크 프로젝트(Gutenberg Project)’에 공개된 옛 영어
문헌 3만 1075권의 단어 빅데이터를 분석해보니 지프 법칙이 통계적 유의미성을 보여주어 타당성을 검증할 수 있었다는 결론을 제시했다. 지프의
법칙을 십수 권의 문헌 자료에서 검증한 바는 있지만, 이번처럼 대량의 빅데이터를 대상으로 분석한 것은 처음이라고 한다.
보도자료와
논문
초록을 보면, 연구진은 방대한 문헌의 빅데이터에서 한 번 또는 두 번만 쓰인 희소빈도 단어들을 제외하고 분석하니, 전체 문헌 가운데
50%가량이 지프의 법칙을 따르는 것으로 나타났으며, 세 번, 네 번, 다섯 번 사용된 희소빈도 단어들을 제외할수록 그 수치는 더 높아지는
것으로 나타났다고 보고했다. 희소 단어까지 다 포함할 때에도 전체 문헌의 40%가량에서 지프의 법칙이 나타남을 확인할 수 있었다고 덧붙였다.
이런 수치는 법칙의 타당성을 검증할 만한 통계적 유의미성을 보여주는 것으로 풀이되었다.
지프의 법칙은 종종 연구논문에서 볼 수 있는데, 근래의 다른 논문에서도 다뤄진 바 있다. 네이처출판그룹이 발행하는 공개접근형 과학저널 <사이언티픽 리포츠(Scientific
Reports)>에 발표된 2015년 논문은 몇 낱말이 묶인 ‘구절’ 단위로 살펴볼 때에, 낱말 단위로 분석할 때보다 지프의
법칙이 좀 더 근사하게 나타났다는 결과를 발표한 바 있다.
구텐베르크 프로젝트의 빅데이터를 분석한 이번 논문의 책임저자는 여러 문헌들에서 수학적인 지프 법칙이 구현됨을 확인할 수 있었다는 점에
근거를 두어 다음과 같이 말했다.
”문학이 창조적인 자유를 보여주는 가장 위대한 표현물 중 하나로 여겨집니다만, 셰익스피어나 디킨스와 같은 거장 작가들조차도 지프의 법칙을
벗어나지 않았습니다.” (보도자료)
낱말들의 자유로운 구성물에서 ‘왜 ’이런 수학적 규칙이 나타나는지 알 수는 없지만, 경험적으로 확인되는 이런 규칙은 신기함을 자아낼
만하다.◑