Hi, everyone! Are you having fun with English?
코퍼스(Corpus)는 실제 사용되고 있는 언어들을 방대한 양으로 모아놓은 일종의 컴퓨터 데이터베이스입니다. 1960년대 초에 처음 등장한 이후 발전을 거듭하여 현재는 언어학에서 획기적인 연구를 가능케 하는 태풍의 눈으로 부상했고 사전 편찬의 필수적인 자료가 되었습니다.
그런데 코퍼스가 언어학자들만이 아니라 일반 언어학습자들과 영어교육자들에게도 매우 유용하게 사용될 수 있다는 것은 많이 인식되어 있지 않습니다. 코퍼스라는 이름 자체가 아직 생소하죠. 본 칼럼에서는 코퍼스에서 용례를 뽑아 아주 요긴하게 써먹고 있습니다. 그런데 저만 혼자 이런 재미를 봐서는 안되겠죠. 좋은 것은 나눠야 합니다. 그래서 이번 주부터 코퍼스를 소개해드리고 특히 그것을 통해 영작시의 여러 가지 문제들을 해결하는 방법에 대해 이야기 보따리를 풀어보겠습니다.
우선 코퍼스에 대한 기본적인 이해가 필요합니다. 코퍼스의 목적은 한 언어를 대표하여 언어의 사용되는 모습을 보여주는 것입니다. 여론조사를 예를 들어 설명해 볼께요. 선거때 전체 국민이 누구를 지지하는 지는 투표함을 열어보기 전에는 확인할 수 없지만 표본을 잘 설정해서 여론조사를 하면 민심의 움직임을 상당히 정확히 알 수 있게 됩니다. 이와 마찬가지로 한 언어가 수많은 사람들에 의해 오늘도 내일도 어떻게 사용되고 있는지, 그 전체적인 상황을 직접 보는 것은 불가능하지만 그 언어의 샘플을 잘 뽑아 놓으면 그것을 통해 그 언어의 사용되는 모습을 어느정도 정확히 볼 수 있게 되는 것입니다.
그래서 코퍼스에서 이런 표현은 이렇게 쓰인다 하는 것이 확인되면 그 표현이 그 언어 전체에서 일반적으로 그렇게 쓰인다고 봐도 좋다는 것입니다.
그래서 코퍼스의 생명은 대표성입니다. 이것은 샘플을 뽑을 때 언어사용의 영역을 얼마나 골고루 포함시켰느냐하는 것과 샘플의 크기가 충분히 크냐하는 것에 의해 결정됩니다. 그래서 코퍼스를 만들 때 문어, 구어, 문학, 시사, 논술 등의 영역들을 골고루 안배하고 크기도 최대한 크게 하려고 노력합니다.
코퍼스 중 가장 크고 대표적인 것이 영국에서 만들어진 Bank of English (BE), British National Corpus (BNC), 그리고 Longman-Lancaster Corpus입니다. BE는 제가 가끔 칼럼을 통해 언급했고 또 국내에서도 콜린스 사전의 겉표지에 씌여있는 것을 보신 분들이 계실겁니다. 균형성도 뛰어나서 BNC는 영국영어만을 담고 있고 Longman은 문어만을 포함하는데 비해 BE는 영국, 미국, 호주영어까지, 그리고 구어, 문어를 다 포함하고 있습니다.
크기가 커야한다고 했는데 얼마나 클까요? BE는 4억5천만단어 (2002년 1월 기준), BNC는 1억단어, LLC는 3천만단어입니다. 특히 BE는 대표성을 위해 크기를 매우 강조하기 때문에 지금도 열씨~미 그 몸집을 불려나가고 있답니다. 그 크기가 감이 잡히세요? 보통 책 한 권이 10만단어쯤 되는데 그럼 책이 몇 권인 거여? 다만, BE는 그 많은 단어를 다 돌리려면 여러 가지 불편이 있기 때문에 일반 사용자들에게는 5천6백만단어로 축소해서 제공하고 있습니다.
현재 영국의 사전들은 모두 코퍼스를 가지고 만듭니다. Collins 사전이 BE를 사용해 만들어졌지요. Oxford 사전은 BNC에 미국영어 코퍼스를 따로 보충해서, 그리고 Longman은 Longman-Lancaster Corpus에 구어 코퍼스를 합해서 만들고 있습니다.
반면 Webster같이 미국에서 만드는 사전들은 아직도 코퍼스를 사용하지 않고 있습니다. 그것은 미국의 촘스키를 필두로 하는 언어학 전통이 아직 코퍼스를 완전히 받아들이지 않고 있기 때문입니다. Webster사전이 예문에 아주 인색한 것은 그런 이유에서입니다. 학습자들에게는 별로 권하고 싶지 않은 사전이죠.
그런데 반가운 사실은 BE와 BNC는 free demo를 통해 무료 사용이 가능하다는 것입니다. 물론 무료 검색은 유료보다 내용이 여러가지로 제한되어 있지만 그래도 상당히 유용하게 써먹을 수 있답니다.
샘, 저 공짜 넘 좋아해여!
하하, 저도 마찬가집니다. 그럼 무료 사이트에 한 번 들어가 볼까요? 에헴~!
Bank of English http://www.collins.co.uk/Corpus/CorpusSearch.aspx
BNC http://sara.natcorp.ox.ac.uk/lookup.html
(BE는 가끔 장애를 일으켜 접속이 안되는 경우가 생깁니다. 그러나 이런 경우 대개 며칠 안에 정상화가 됩니다.)
BE (Wordbank라고도 불리고 있습니다)를 먼저 볼게요. “Corpus Concordance Sampler”라는 구역에 “Type in your query”라고 씌여진 슬롯이 있죠? 거기에 검색어를 입력하고 그 밑에 “Show Concs”라는 버튼을 클릭하면 검색어를 포함하는 문장들이 나옵니다. 그 슬롯 밑에 “Which sub-corpora should be searched? ”라는 질문이 있죠? Corpora는 corpus의 복수형이고 sub-corpora는 BE의 일부분(영국영어, 미국영어, 구어 등)을 말합니다. 일부만을 봐야할 특별한 이유가 없는 한 그냥 다 선택하면 되겠죠.
자, 아무 단어나 입력을 해 보세요. 생각이 안나면 저번 칼럼에서 다루었던 fun을 한번 넣어 볼까요? 검색어가 중간에 일렬 종대로 나와있죠? 이렇게 예문을 검색어 중심으로 배치하는 것을 concordance라고 합니다. 나온 예문의 수는 40개입니다. 그런데 fun은 빈도수가 매우 높은 단어이므로 총 검색결과는 이보다 훨씬 많습니다. 유료검색을 하면 fun이 들어간 문장이 총 5345개가 있다고 합니다. 그런데 무료검색에서는 그 중 40개만 임의로 뽑아서 보여주는 것입니다.
다음은 BNC를 보겠습니다. BE보다 좀 인심 좋게 예문을 50개를 보여주는군요. 예문이 검색어 중심으로 배치되어 있지 않아서 보기에는 좀 불편합니다. 그런데 BE 는 예문이 다 안나오고 좌우로 잘리는데 비해 BNC는 검색어마다 완전한 한 문장씩을 보여주고 있습니다. BE에서 완전한 문장을 보려면 유료검색을 해야 합니다.
그런데 코퍼스를 적재적소에 잘 써먹을 수 있으려면 query syntax를 알아야 합니다. 이것은 단어 하나 검색하는 차원을 넘어서 자기가 필요한 종류의 예문만을 쏙쏙 골라 뽑아낼 수 있는 명령어죠. 우선 사이트에 있는 설명을 참고해서 코퍼스를 사용해 보시고, 다음 주에는 이 search syntax의 쉬운 설명과 함께 우리가 영작의 도우미로 어떻게 코퍼스를 사용할 수 있는 지를 구체적인 예를 들어가며 이야기하겠습니다.
첫댓글 This is just a copy from my Englishcare column, not a new corpus series yet. ^^
Finally coming up. I'm thrilled!
코퍼스의 우리말은 말뭉치입니다. 앞으로는 말뭉치라는 단어도 사용해보시면 어떨까 합니다... ^^
좋은 게시물이네요. 스크랩 해갈게요~^^
감사합니다.덕분에 새로운 사실을 알게되었습니다.
유진승 선생님 저도 퍼갈께요. 금전으로는 환산할 수도 없는 선생님의 노고에 진심으로 감사드립니다. 진샘 만쉐 /__)/
좋은 게시물이네요. 스크랩 해갈게요~^^
좋은 글 감사합니다. 영어 공부에 큰 힘을 얻고 있습니다. God bless you. ^^
원본 게시글에 꼬리말 인사를 남깁니다.
저.. query syntax에 무엇을 입력할 수 있는 칸이 없는데 ; 원래 그런건가요? query syntax는 이용을 못하겠네요 ^^;;;;;