|
출처: 한국어강사들의 모임 원문보기 글쓴이: 知己
말뭉치언어학(corpus linguistics)은 '실제 언어' 혹은 실제 언어의 샘플을 이용하여 언어를 공부하는 응용언어학의 한 분야이다. 초기에는 수작업으로 이루어졌으나 컴퓨터의 발달로 지금은 많이 자동화되었다.
촘스키가 실제 언어는 언어수행상의 오류로 가득하기 때문에 언어학을 제대로 연구하기 위해서는 잘 제어된 환경에서 이루어진 언어를 다룰 필요가 있다고 본 관점에 정면으로 반하고 있는 방법론이다. 촘스키의 의견도 일리가 없는 것은 아니지만 그렇게 정제된 환경에서는 언어에서 화자에 대한 정보를 아무것도 찾아낼 수가 없다. 말뭉치 언어학은 촘스키의 언어능력(competence)과 언어수행(performance)이라는 이분법을 거부한다. 대신 말뭉치에 다가갈 수 있는 최소한의 인터페이스만 있으면 실제 언어를 통해 언어 현상의 본질에 다가갈 수 있다고 본다.
목차[숨기기] |
현대 말뭉치 언어학의 기점이라 할만한 것은 브라운 말뭉치를 구축하고 연구한 현대 '미국 영어의 전산 분석'(1967)[1]의 출간이다. 브라운 말뭉치는 다양한 소스에서 100만 어절을 선택한 현대 미국영어의 한 표본이다. 그 연구에서 저자들은 언어학, 교육학, 통계학, 사회학적인 방법론을 동원해 다양한 사례를 제시했다. 그보다 좀 더 앞선 연구를 찾아본다면 '영어 사용역의 기술에 대하여'(1960)[2]를 들 수 있겠다.
얼마 지나지 않아 '아메리칸 헤리티지 영어사전'(The American Heritage Dictionary of the English Language, AHD)의 출간에 말뭉치 언어학적 방법론이 일부 적용되어 AHD의 규범사전적인 특성에도 불구하고 기술사전다운 정보가 상당수 추가되었다. 이 작업에 브라운 말뭉치를 만든 헨리 쿠체라가 참여하였다. 영국에서는 하퍼 콜린스 출판사가 '영어 뱅크'의 보강작업에 참여, 활용하면서 만든 '콜린스 코빌드 영어사전'이 대표적이다. 롱맨은 자신들의 대표적인 문법서를 만들면서 말뭉치를 활용했다. [3]
브라운 말뭉치는 이후 수많은 말뭉치들의 모범이 되었다.
한국어 말뭉치도 다수 구축되었다.
처음으로 구어가 전사된 말뭉치는 100만 어절 규모의 몬트리올 프랑스어 프로젝트(The Montreal French Project, 1971)였으며 이런 살아있는 언어에 대한 말뭉치 뿐 아니라 히브리어 바이블에 관한 말뭉치(The Andersen-Forbes database)도 있다. 또 주석의 수준에 따라 다양한 말뭉치가 존재한다.
문서를 대량으로 모은다고 해서 모두 말뭉치가 되는 것은 아니며 말뭉치는 몇가지 요건을 갖추어야 한다. [6]
말뭉치가 지녀야 하는 두가지 특성은 대표성과 균형성이다. 표본이 모집단을 통계적으로 대표할 수 있는가가 보장되지 못하면 그 표본으로 하는 연구는 하나마나한 것이 된다. 말뭉치의 대표성은 이 통계적 대표성을 의미한다. 그렇다고 해서 대표성을 너무 단순하게 크기의 문제로 환원해도 곤란하다. 영어의 경우 고빈도어 3000어 정도면 일상회화의 95%가 해결될 정도로 언어는 심하게 편중되어 있다. 하지만 적게 사용된다고 해서 그것이 덜 중요한 단어라고 할 수는 없다. 말뭉치의 균형성은 언어의 미묘한 면을 담고있는 5%에 대한 배려를 말한다. 즉 다수가 가지는 대표성 못지않게 또 소수를 배려해야 하는 균형성이 필요한 것이다. 이를 위해서는 범주와 유형에 따른 세심한 구분이 필요하다. 픽션/논픽션, 구어/문어, 방송, 논문, 운문/산문, 공식/비공식, 작가의 연령/성별/국적/계급 등 매우 다양한 기준을 적용할 수 있다.
말뭉치에는 그 특성에 따라 여러 종류가 있다.
참고로 21세기 세종계획의 결과로 구축된 말뭉치 중에는 현대국어 구어 전사 말뭉치, 한영/한일 병렬 말뭉치, 북한 및 해외 한국어 말뭉치, 역사 자료 말뭉치, 전문 용어 말뭉치 등의 다양한 특수 말뭉치가 포함되어 있다. [8]
말뭉치를 구축할 때 처음 발생하는 문제는 어떤 문서에서 어느정도의 양을 고를 것인가이다. 예를들어 연세한국어사전을 만들 때는 일반인의 독서실태를 조사하여 신문 33%, 잡지 20%, 문학 18%, 취미/교양 10%, 수기/전기/실화 9%, 교과서 5%로 비중을 정했다. 이는 독서량이 어휘사용/해독량과 비례할 것이라는 가정에 따른 것이다. 다른 가정을 세운다면 또 다른 결과가 나올 것이다. [9]
말뭉치를 구축할 때는 1차 설계, 구축, 분석, 2차 설계, 구축, 분석 ... 이렇게 순환적으로 검토하면서 진행한다. 실험적으로 구축한 부분 말뭉치가 적당한지 검증을 해서 다시 2차 말뭉치를 구축하는 것이다. 이를 기존에 알려진 사실들과 대조하여 검증이 가능하다. 한국어의 품사는 대략 어떤 비율을 가진다, 고빈도어는 대략 어떤 빈도를 가진다 등이 알려져있기 때문이다. 좀 더 상세한 검증도 필요하다. 예를들어 감탄사나 선어말 어미, 대명사의 사용 빈도는 장르에 따라 변화가 있다. 이런 특성에 기대어 말뭉치가 균형성을 가지게 되었는지, 아니면 구축자의 의도에 맞게 만들어졌는지를 판단해볼 수 있다.
말뭉치는 클수록 좋겠지만, 크면 그만큼 다루기 힘들어지고 또 수집하기도 어렵다. 따라서 신뢰도를 어디까지 가져갈 것인가에 맞춰 크기를 결정하면 된다. 예전에는 어떻게 대표성을 유지하면서 말뭉치의 사이즈를 줄일 것인가를 고민했다. 컴퓨터의 성능이 그리 좋지 못했기 때문이다. 이 문제는 여전히 유효하고 그래서 글의 앞쪽 일부만을 취한다거나 하는 방법들도 있었지만 지금은 그렇게까지 조절하진 않아도 기술의 발달로 다량의 문서를 다룰 수 있다.
말뭉치 언어학의 연구방법으로 주석달기, 추상화, 분석의 세가지를 얘기한다.[10] 주석달기(annotation)는 텍스트에 구조를 부여하는 것이다. 주석은 품사 주석, 구문 주석 등 목적에 따라 다양하게 달 수 있다. 추상화(abstraction)는 분석의 틀을 마련하는 것이다. 언어학 이론과 말뭉치를 함께 고찰하여 분석하고자 하는 목적에 맞는 틀을 고안한다. 분석(analysis)은 통계적으로 자료를 재조합하여 해석하는 것이다.
말뭉치를 분석하여 얻을 수 있는 가장 유용한 정보는 빈도이다. 특정 어휘, 특정 환경이 말뭉치 내에서 얼마나 많이 나왔느냐를 관찰하면 이후 연구의 방향을 잡을 수 있기 때문이다. 또 언어학적 가설을 검증할 때 말뭉치 내에서의 빈도는 강력한 증거가 된다. 이 빈도는 단순하게 수치만을 볼 수도 있으나 적절하게 비교하기 위해서는 정규화 할 필요가 있다. 그 과정에서 통계적 방법론이 필요해지며 주로 활용되는 방법은 카이제곱 검증(chi-squared test)이다.
말뭉치를 연구하면서 연어(collocation)도 좀 더 정량적으로 연구할 수 있게 되었다. 단순한 공기관계인 것인지 아니면 정말 연어관계에 있는 것인지를 확인하기 위해서는 상호정보량(mutual information)이나 Z점수(Z-score)등의 계산이 유용하다. 상호정보량은 A와 B가 인접하는 결합사건일 때의 확률과 그렇지 않은 독립사건일 때의 확률을 비교한 값이다. 이런 기준을 통해 선택된 연어는 상당수 사전에 실리고 있다.
말뭉치에서 고빈도로 발견된다고 해서 연어로 볼 수는 없다. 연어의 판별 기준은 A+B일 때 A'+B이거나 A+B'의 의미가 되어야 한다는 것이다. 따라서 말뭉치에서 제시된 후보를 언어학자가 눈으로 살펴서 후보의 의미가 얼마나 투명한가를 판별해야 한다. 반대로 언어학자에 의해 선택된 연어가 충분한 공기성을 가지는가를 파악하기 위해서 말뭉치를 활용할 수 있다. 연어핵에서 2-3어절 정도의 거리에 놓인 연어변까지 자동으로 조사하는 것은 말뭉치의 도움이 없이는 현실적으로 거의 불가능한 작업이다. 또 연어는 활용에 제약이 있거나 아예 특수한 형태로만 사용되기 때문에 이를 기술할 때도 말뭉치를 참조하지 않으면 안된다.
말뭉치는 목적에 따라 다르게 구축할 수 있다. 예를들어 구어 말뭉치를 따로 구축하면 문어와 대비되는 구어의 사용 양상을 찾아볼 수 있다. 마찬가지로 공적인 문서와 사적인 문서를 구분해두면 특정 어휘나 스타일이 다른 영역에서 어떻게 사용되는가를 계량적으로 파악할 수 있다. 성, 인종, 국가, 계급 등 적절한 분류만 있다면 얼마든지 분야별 말뭉치를 만들 수 있다. 이러한 접근은 사회언어학, 심리언어학 등에서 특히 유용하다.
대개의 말뭉치는 현대어 위주로 구축되어 있지만 역사 말뭉치를 구축하면 공시적 연구가 가능해진다. 특정 어휘가 어떤 식으로 변해왔는가를 추적할 수도 있고, 그 시대 어휘만을 다룬 역사 사전도 만들 수 있다. 물론 역사 말뭉치는 구축이 어렵다. 그리고 한국어의 경우 한자와 한글이 뒤섞여 쓰인데다가 곡용이나 활용태가 현대어와 많이 다르다. 그리고 표기의 일관성이 보장되지 않아 수많은 이표기를 함께 처리해야하는 불편함이 있다. 사실 역사 말뭉치는 문서 수가 한정적이므로 균형을 갖춰 구축하는 것 자체가 어려운 면이 있다. 그럼에도 불구하고 역사 말뭉치는 역사 언어 연구의 필수 불가결한 도구이자 대상이 되어가는 중이다.
2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치(parallel corpus)라 부른다. 병렬말뭉치는 문장대 문장 혹은 문단대 문단으로 구축되어있다. 최초로 구축된 병렬 말뭉치 중 하나인 영어-노르웨이어 병렬말뭉치는 (1) 동일 장르간 영어권과 노르웨이어권의 비교 (2) 영어가 노르웨이어로 번역되면서 어떤 변화가 생기는가 혹은 그 반대의 고찰 (3) 노르웨이어로 쓰인 문학과 노르웨이어로 번역된 문학의 비교, 이렇게 세가지 목적을 가지고 만들어졌다. 병렬 말뭉치를 구축할 때의 가장 큰 주의점은 되도록 직역한 것 위주로 모으는 것이 좋으며 원문과 번역문의 표시를 명확하게 해야 한다는 것이다.
병렬말뭉치가 구축되어 있으면 이국어 사전을 만드는데 도움이 된다. 영영사전을 번역하여 영한사전을 만드는 것과 병렬말뭉치를 활용해 영한사전을 만드는 것은 근본적인 차이가 있기 때문이다. 후자 쪽이 더욱 기술적인 사전이 될 수 밖에 없고 실제 언어 생활에 가까운 형태로 나오게 된다.
말뭉치에서 수많은 용례가 쏟아지는 것만으로도 사실 충분한 언어 교육의 효과가 있다. 이런 관점으로 만들어진 방법론이 CALL(computer assisted language learning)이고 교사는 이러한 시스템을 통해 학습자를 지도할 수 있다. 찾고자하는 용례를 검색하는 방법을 가르쳐주고 학습자가 그것을 찾아내도록 도와주는 과정속에서 학습자는 배우고자 한 어휘/문장과 함께 그 주변의 어휘/문장까지 함께 접하게 된다. 여러 용례 안에는 다양한 변이와 주변환경이 함께 제시되기 때문에 읽어나가는 과정에서 복합적인 이해를 할 수 있게 되는 것이다. 여기서는 어떤 예문이 좋은 예문인가 혹은 학습자의 수준에 맞춰 예문을 제시하려면 어떤 기준이 필요한가 등이 함께 고민되어야 한다.
사전 편찬은 언어학 정보를 집대성하는 과정이라고 해도 과언이 아니다. 따라서 말뭉치를 토대로 한 언어 연구의 결과물은 사전 편찬과정에 반영되기 마련이고 대규모의 말뭉치는 사전 편찬과 함께 발달되었다. 그리고 점차 실제 쓰이는 언어를 반영하는 기술적 측면이 강조되고 있으므로 말뭉치의 활용도는 절대적이다. 연어 연구에서와 마찬가지로 표제어를 선정할 때 뿐 아니라 예문을 고르고 의미 구분의 기준을 잡을 때에도 매번 말뭉치를 참고하지 않으면 안된다.
사전 편찬의 모든 영역에 있어서 말뭉치의 활용이 필요하지만 몇가지 나열해보면 연관 복합어 찾기, 용언의 활용태 찾기, 특수한 영역내 사용 양상 파악, 격틀에 맞는 용례 검색 등 여러가지가 있다.