이 자료는 2000년 3월 박석문 교수님께서 올리신 자료입니다.
============================================================================
1. 말뭉치
"말뭉치"는 영어의 "corpus"를 우리말로 옮긴 것이다. "옥스퍼드 영어 사전 제2판"(Oxford English Dictionary 2nd Edition)(OED2, 1989)에 의하면 "사람이나 짐승의 몸, 시체"를 뜻하던 라틴어 어원의 이 낱말이 현재는 "저작물 전체, 또는 한 주제에 관한 문헌 전체"라는 의미를 가지고 있는 한편, "언어학적인 분석을 기반으로 삼고 있는 글 또는 말 자료의 뭉치(The body of written or spoken material upon which a linguistic analysis is based)"라는 뜻으로 쓰이는 것을 알 수 있다. "Corpus"라는 낱말이 이런 뜻으로 쓰인 최초의 용례는 1956년에 발표된 한 언어학 논문에 들어 있는 것으로 밝혀져 있다. 즉, "corpus"가 언어학 용어로 쓰인 것은 40년이 채 못되는 것이다.
그러나 촘스키(N. Chomsky)로 대표되는 변형 생성 언어학도 비슷한 시기에 발생하여 수많은 용어들을 학계에 퍼뜨린 것에 비하면 "말뭉치"와 관련된 언어학적 관심은 그리 널리 퍼지지 않았음을 알 수 있다. 이 사실을 볼 때 이 용어는 아직도 비교적 새로운 용어라고 할 수 있다.
한편, 보수적인 편인 OED2와는 달리 외국인을 위한 학습 사전인 "롱맨 현대 영어 사전"(Longman Dictionary of Contemporary English, 1978)은 이미 "연구를 위한 자료나 정보의 모음(a collection of material or information for study)"이라는 정의를 싣고 있고 "The dictionary is based on a corpus of 10,000,000 words taken from English books and newspapers."라는 예문을 주고 있다. 더욱이 1960년대 이후의 영어에서만 수집한 자료를 이용하여 편찬하였다는 "코빌드 영어 사전"(COBUILD English Language Dictionary, 1987)에도 버젓이 이 말이 올라 있음을 보면 이 말은 이미 현대영어의 일반 어휘에 포함되어 있다고 할 수 있다. 최근에 나온 "옥스퍼드 영어 편람"(The Oxford Companion to the English Language, 1992)에도 "corpus"는 "언어학과 사전 편찬에서 한 언어를 대표하는 것으로 생각되는 원문, 발화, 또는 기타 표본들의 뭉치로서, 대개 전자 자료틀로 저장되어 있는 것"이라고 설명되어 있다.
2. 뭉치 언어학
"뭉치 언어학"(corpus linguistics)은 "말뭉치"를 기반으로 한 언어학의 한 분야이다. 그러나 "뭉치 언어학"은 다른 언어학 분야들과 쉽게 비교하기가 어렵다. 그것은 "뭉치 언어학"이라는 분야는 연구의 영역에 의해 구분된 것이 아니라 연구 방법론에 의해 구분된 것이기 때문이다. 그러므로 원칙적으로 "뭉치 언어학"은 음운론, 통어론, 사회 언어학 등의 다른 언어학 분야와 "말뭉치"를 매개로 하여 비교적 쉽게 결합될 수 있다. 다시 말해서 "뭉치 언어학"의 연구 기법과 음운론, 통어론, 사회 언어학 등의 연구 내용을 결합하는 것이다. 연구 내용이 아닌 연구 방법론에 의해 구분되는 또 다른 언어학 분야로는 "전산 언어학"(computational linguistics)이 있다. 이 두 분야는 최근 여러 부분에서 통합되어 가고 있다. 오늘날의 "뭉치언어학"에서 말하는 "말뭉치"는 전산기가 읽을 수 읽는 형태라는 것을 전제로 하고 있고 그 분석 또한 당연히 전산기에 의해 이루어지는 것을 볼 때 이 두 분야의 통합은 당연한 귀결이라고 하겠다.
영미 학계에서 "corpus linguistics"라는 용어가 언제부터 사용되었는지는 확실하지 않다. 다만 1950년대에 미국의 실증주의-행동주의적 구조언어학자들이 실제 언어 자료를 언어학의 제일차적 설명 대상으로 삼은 것을 그 방향으로의 연구의 효시로 볼 수 있을 것이다. 그들은 언어학자의 직관을 제2차적 자료로만, 심지어 무가치한 것으로 간주하였다. 1950년대의 언어학자들에게 있어서 다른 낱말들과의 공기에 근거해서 낱말의 분류를 하는 것은 당연한 것이었다. 당시 영국의 언어학을 주도한 퍼스(Firth)가 "함께 어울리는 낱말을 보면 그 낱말을 알 수 있다.(You shall know a word by the company it keeps, Firth 1957)"라고 한 말은 그러한 접근 방법을 한 마디로 요약한 것이다. 그 당시의 경험론적이며 통계적인 연구 방법론은 언어학만의 것은 아니었다. 스키너(Skinner)로 대표되는 행동주의 심리학과 정보의 흐름을 통계적인 문제로 파악한 섀논(Shannon)의 정보 이론은 그 당시의 학풍을 잘 보여 준다. 그러나 그러한 연구 경향은 잘 알려지다시피 촘스키(N. Chomsky)의 등장과 더불어 여지없이 분쇄되었다.
한편, 촘스키와는 사뭇 다른 배경을 가지고 있던 일단의 영국 언어학자들은 1959년에 더럼(Durham) 대학에서, 1960년 이후에는 런던 대학에서, "영어 용법 조사 말뭉치(Survey of English Usage Corpus)"라는 이름의 기획으로 영어의 실제 쓰임을 광범위하게 장기적으로 조사하기 시작하였는데, 이로써 실질적인 "말뭉치에 관한 언어학"이 재출발했다고 보겠다. 그러나 말뭉치의 연구가 본격화된 것은 1963-4년에 미국 브라운(Brown) 대학의 프랜시스(Nelson Francis)와 쿠체라(Henry Kucera)가 20 종류에 걸친 총 500편의 글에서 2000 마디씩 뽑아 총 100만 마디의 말뭉치를 구축하고 전산기를 이용하여 이를 분석하여 어휘에 관한 여러 가지 통계를 제시한 이후이다. 이것이 이른바 "브라운 말뭉치"(Brown Corpus)라는 것으로서 현대적 의미의 뭉치 언어학의 시초가 된다고 할 수 있다.
그러나 "Corpus Linguistics"라는 이름의 저술들이 나와 세인의 이목을 끈 것은 1980년대임이 분명하다. 1984년에 네덜란드 학자들인 아르츠(J. Aarts)와 메이스(W. Meijs)가 바로 Corpus Linguistics라는 이름의 논문집을 냈다. 영어의 말뭉치를 전산기를 이용하여 분석해 보이는 논문들의 모음이다. 그 이후 같은, 또는 비슷한 이름의 논문집이 계속 나오고 있다.
오늘날 뭉치 언어학이 크게 주목을 끄는 것은 특히 사전 편찬에서 그 유용성이 증명되었기 때문이다. 다양한 실제 어휘의 쓰임을 조직적으로 제시해야 하는 사전의 편찬에 말뭉치의 이용이 필수적이라는 것은 쉽게 상상할 수 있다. 1987년 출간된 "코빌드 영어 사전(COBUILD English Dictionary)"은 말뭉치를 이용하여 편찬되어 사전 편찬의 역사에 중요한 획을 그었다.
앞서도 언급한 바와 같이 오늘날 말뭉치의 연구에는 반드시 전산기의 이용이 포함된다. "브라운 말뭉치"는 대량의 실제 영어 자료를 전산적으로 처리하여 보여준 최초의 중요한 예이다. 그러한 연구 방법이 실질적인 성과를 나타낸 것은 과거에 비하여 턱없이 값싸면서도 성능 좋은 전산기가 널리 보급되어 "전산 언어학"이 새로운 전기를 맞은 80년대에 들어와서이다.
전산 언어학 및 자연 언어 처리는 전반적으로 규칙 기반의 연구 방법론을 지향하고 있었다. 그러나 규칙 기반의 연구 방법론은 실제 업무에 이용할 수 있는 시스템의 개발에는 많은 한계를 보였다. 전산 언어학이 통계적 연구 방법론에 관심을 가지게 된 것은 음성 인식 분야에서 증명된 통계 자료의 유용성에 기인한다. 오늘날에는 언어 처리 모형 설계, 문장 분석, 형태소 분석, 기계 번역 등의 분야에 통계적 연구 방법론이 널리 적용되고 있으며 규칙 기반의 연구에 있어서도 시스템의 성능 평가와 향상에 말뭉치를 적극적으로 활용하고 있다.
언어의 정보화가 시급한 과제가 되어 있는 오늘날 뭉치 언어학은 변형 생성 언어학이나 마찬가지로 연구 방법과 철학이 뚜렷하고 성과가 다대하여 앞으로 더 큰 실질적 성과가 기대되는 언어학의 한 분야로서 공인되고 있다.
3. 뭉치 언어학의 특징
언어학의 다른 접근 방법들, 특히 변형 생성 이론과 비교되는 뭉치 언어학의 주요 특징은 다음과 같다.
1) 언어 능력보다는 언어 수행에 중점을 둔다.
잘 알려진 촘스키의 이분법에 따르자면 말뭉치 언어학은 언어 능력보다는 언어 수행에 중점을 둔다고 할 수 있다. 언어학의 1차 연구 대상을 언어 사용의 물리적 실현이 아닌 토박이 말할이의 심리적 능력으로 삼는 촘스키식
의 언어학과는 이 점에서 완전히 대별된다.
뭉치 언어학에서는 언어 수행은 매우 폭넓게 관찰될 수 있으며 언어 교육, 번역, 자연 언어 처리 등의 응용 분야에 훨씬 유용함을 지적한다. 언어 능력과 언어 수행의 구분 또한 지나치게 과장되어 있다는 사실도 아울러 지적
한다. 토박이 말할이의 언어 수행으로 실현되는 문법은 심리적 구성체로서의 문법의 산물이므로 이 둘의 간격은 훨씬 좁다는 것이 뭉치 언어학의 입장이다.
여기서 한 가지 짚고 넘어가야 할 것은 언어 수행은 단일한 현상이 아니라는 것이다. 언어 수행 또한 "과정"이라는 측면과 "산물"이라는 측면의 두 가지 속성을 함께 지니고 있다. 언어 수행을 과정이라는 측면에서 연구한다면 텍스트의 생성과 해석에 관련된 심리학적 과정을 설명해야 한다. 이것은 과정이라는 측면에서 보는 언어 수행은 부분적으로 심리적이기도 하고 물리적이기도 하다는 의미이다. 그러나 뭉치 언어학에서는 언어 수행을 산물로서 연구한다. 즉, 말뭉치는 "원칙적으로" 말할이와 들을이의 언어의 심리적 실현과는 독립적이라는 입장에 서는 것이다. 여기서 "원칙적"이라고 함은 말뭉치를 완벽히 객관적으로 구성하는 것은 불가능하기 때문이다. 말뭉치를 기계에서 분석할 수 있도록 만드는 데에는 매체의 변환이 필요하며 텍스트를 "고르는" 과정을 거칠 수밖에 없다. 따라서 말뭉치 언어학은 물리적 산물로서의 텍스트를 말할이와 들을이의 해석과는 최대한 독립적으로 다루려고 하는 분야라고 할 수 있다.
2) 언어 보편성의 추구보다는 언어 기술에 중점을 둔다.
전산기를 사용하기 이전의 뭉치 언어학은 흔히 "기술 언어학"이라고 불리웠다. 사실 언어학의 목표는 탐구 대상의 말뭉치를 단순히 "기술"하는 것이라고 여겨졌던 적도 있다. 그러나 자료 중심의 연구 방법이 배격되면서 언어 "기술"은 극히 표면적이고 단순한 것으로 간주되었다. 기술 언어학자는 "순수 이론 언어학자"와는 구분되는 "비이론적"인 언어학자로 간주되었다.
이것은 마치 나비 수집가와 곤충학자를 구별하는 것과도 같은 것이었다. 그러나 뭉치 언어학도 촘스키식의 언어학만큼 "이론적"이다. 차이점은 이론이 적용되는 영역의 크기에 있는 것이다. 개별 언어에 관한 기술은 그 언어의 모든 발화를 연구 영역으로 한다. 이는 "저차 이론(low-order theory)", 즉 한 언어에 관한 이론(혹은 모형)인 것이다. 언어 보편 이론은 인간의 능력으로서의 일반적인 언어에 적용되는 "고차 이론(high-order theory)"이다. 이 두 가지 유형의 언어학은 모두 의미가 있으며 상호 보완적이다.
기술 언어학 역시 "이론 언어학" 못지 않게 언어에 대해 많은 해답을 줄 수 있다. 사실 기술 언어학은 자료가 추상적이며 직접 관찰이 가능하기 때문에 여러 가지 과학적 탐구 기재를 통한 이론 구성과 실험에 훨씬 강하다.
언어학의 적용 분야가 거의 모두 언어 사용과 개별 언어의 처리에 관련되어 있다는 사실에 주목할 때에 말뭉치 언어학에 "기술적"이라는 수식어를 붙이는 것은 아무런 문제될 것이 없다. "저차 이론"이 그 중요도에 있어서까지 차원이 낮은 것은 결코 아니다.
3) 언어 모형의 설계에 정량적 정보와 정성적 정보를 함께 반영한다.
일반적으로 "정량적"의 상대되는 개념으로는 "정성적", "규칙 기반", 또는 "결정론적"이라는 개념을 든다. 그러나 이는 잘못이다. 정량적 모형도 다른 모형과 마찬가지로 규칙과 정성적 구분을 이용한다. "정량적"의 상대 개념은 "비정량적"이라고 보는 것이 옳다. 정량적 정보는 일정 단계에서 어느 모형에나 원래의 특성을 파괴하지 않고 적용이 가능하다.
다른 학문 분야와 외국어 교육 등에서는 유용히 사용되는 정량적 정보가 어떠한 이유로 거의 무시가 되었는지는 납득하기 어렵다. 물론 정량적 정보가 언어 현상의 설명에 이용되기 위해서는 말뭉치의 규모가 충분히 커야 하고 이의 분석에도 엄청난 양의 노력이 요구된다.
4) 과학적 탐구에 있어서 경험론적인 태도를 견지한다.
언어학에 있어서 "경험론"이라는 말은 부정적인 표현으로 받아들여져 왔다. 행동주의자들과 4, 50년대의 불룸필드(Bloomfield)의 후계자들인 기계론자들에 의해 추구되던 경험론적인 연구 방법은 촘스키의 등장 이후 배격되고 합리주의가 그 자리를 차지하였다. 그러나 많은 경우에 이론이 관찰에 기여하는 것보다 관찰이 이론에 기여하는 것이 크다는 것이 증명되었다. 음성 인식에 이용되는 트라이그램이나 숨겨진 마코프 모형등은 모두 말뭉치의 어휘 빈도에서 얻어진 것들이다. 그러나 뭉치 언어학자가 극단적인 경험론자일 필요는 없다. 다만 합리적인 과정과는 독립적으로 얻어진 자료에 대한 경험적 강조의 자세를 잃지 않아야 하는 것이다.
4. 말뭉치 언어학의 연구 방법론
말뭉치 언어학의 일반적인 연구 방법론은 다음과 같다.
1. 관찰 증거는 말뭉치의 형태로 제시된다. 말뭉치는 언어 사용의 표본으로 간주된다.
2. 제시된 자료는 빠짐 없이 모두 사용한다. 세우려는 이론에 맞추어서 자료를 미리 선별하지 않는다.
3. 말뭉치 자료 설명을 위한 언어학적 이론과 모형은 구축한다. 언어학적 범주, 모형의 매개 변항은 연구자의 직관과 경험, 그리고 반복된 시도와 오류 등에 의해 설정된다. 그러나 모형에 적용되는 수치들은 말뭉치에 내재되어 있는 정보의 분석으로부터 얻어진다.
4. 필요한 경우 이 모형을 다른 말뭉치에 적용해 본다.
5. 이 모형을 다른 모형들과의 비교와 반복적인 실험을 통해 발전시킨다.
위의 일반적 연구 방법론은 다시 아래와 같이 크게 두 가지로 나눌 수 있다.
1) 비형식적 연구 방법: 단순 용례 기반
뭉치 언어학에서 대표적으로 사용되는 도구는 용례 색인 도구이다. 이 도구는 특정한 언어학적 속성을 찾아내거나 서로 관련이 있는 속성들의 집합을 가려내는 데에 주로 사용된다. 용례 색인 도구는 연구자가 관심을 가지고 있는 언어 단위가 말뭉치에 어떻게 분포하는가를 목록의 형태로 제시해 준다.
이 방법론이 적용되는 대표적 분야는 사전 편찬과 귀납적 문법 연구이다. 사전 편찬에서는 기술 대상 언어 단위(주로 낱말)의 문맥에서의 의미 판별 및 그밖에 언어 사용과 관련이 있는 통어론적, 문체적, 화용론적 속성들을 밝히는데 이 방법을 적용한다. 귀납적 문법 연구에서는 용례 색인을 이용하여 통어론적, 의미론적, 화용론적인 속성을 확인하며 문체적인 매개 변항을 밝힌다.
이 방법은 말뭉치의 정보 이용에 있어서 세련된 방법이라고 할 수는 없지만 특정 문법 단위나 구성체의 속성을 밝히는 연구에 있어서 매우 생산적이다. 전산기가 이용되기 전에는 연구자가 일일이 손으로 말뭉치를 뒤져서 원하는 정보를 얻어야만 했다. 이 방법을 채용한 연구에서는 전산기는 단순히 손작업을 줄이는 도구로만 사용되는 경우가 많다. 그러나 연구자가 전산기를 적절히 이용한다면 빈도 계산 등의 과정을 자동화할 수 있으며 언어 기술의 일반화에 많은 도움을 받을 수 있다.
2) 형식적 연구 방법: 숨겨진 마코프 모형
이 방법은 정보 이론의 영향을 받아 이용되기 시작하였으며 음성 인식 등의 분야에서 기대 이상의 효과를 거두었다. 이 방법의 특징은 한 언어 전체의 언어 수행 모형을 설계하고 실험하는 것이 가능하다는 것이다.
이 방법에서는 특정 언어학적 분절 단위의 연속체를 가장 근접하게 예측하는 통계 모형(숨겨진 마코프 모형, 확률 문법, 혹은 혼합 모형)을 찾는 데에 중점을 둔다. 다시 말해서 말뭉치의 내용에 대한 가장 단순하고 강력한, 예측을 하는 모형을 찾는 것을 목표로 하는 것이다. 이 방법은 경험론적 연구 방법을 적극적으로 채용하여 여러 모형들간의 적합성을 비교한다. 통계 모형의 적합성은 복잡도(실험 말뭉치의 관찰 결과에 대한 엔트로피)에 의해 측정할 수 있다.
통계 모형의 일반적인 구축 과정은 다음과 같다.
직관으로 유용하다고 판단되는 모형을 설계한다.
매개 변항의 초기값을 설정한다.
이 모형을 말뭉치에서 훈련시킨다.
훈련에 사용되지 않은 다른 자료들도 동일한 속성을 지닌 것으로 가정하고 예측을 시도한다.
실험용 말뭉치에서 예측을 실험한다. 그 결과를 이용하여 엔트로피를 측정하여 통계 모형의 적합성을 판단한다. 같은 조건의 실험에서 엔트로피가 가장 낮은 모형을 선택한다.
위의 과정을 요약하면 말뭉치에 나타난 관찰 자료에 대한 예측을 가장 정확히 하는 모형을 선택하는 것이다. 원칙적으로 확률 정보원의 수준은 제한이 없다. 따라서 단순한 표면적 정보뿐만 아니라 의미론적, 때로는 화용론적 정보도 이용할 수 있다.
※참고 문헌
이상섭(1996). "말뭉치: 그 개념과 구현". <사전편찬학 연구>. 5, 6집. p.7-28. 서울: 탑출판사.
이상섭(1996). "뭉치 언어학의 기본 전제". <사전편찬학 연구>. 5, 6집. p.29-60. 서울: 탑출판사.
Church, K. W. & R. L. Mercer(1994). "Introduction to the Special Issue on Computational Linguistics Using Large Corpora". Using Large Corpora. Cambridge: MIT Press.
Francis, W. N.(1992). "Language Corpora B.C.". Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991. Berlin: New York: Mouton de Gruyter.
Leech, G.(1992). "Corpora and Theories of Linguistic Performance". Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991. Berlin: New York: Mouton de Gruyter