코퍼스(Corpus)는 실제 사용되고 있는 언어들을 방대한 양으로 모아놓은 일종의 컴퓨터 데이터베이스입니다. 1960년대 초에 처음 등장한 이후 발전을 거듭하여 현재는 언어학에서 획기적인 연구를 가능케 하는 태풍의 눈으로 부상했고 사전 편찬의 필수적인 자료가 되었습니다.
그런데 코퍼스가 언어학자들만이 아니라 일반 언어학습자들과 영어교육자들에게도 매우 유용하게 사용될 수 있다는 것은 많이 인식되어 있지 않습니다. 코퍼스라는 이름 자체가 아직 생소하죠. 본 칼럼에서는 코퍼스에서 용례를 뽑아 아주 요긴하게 써먹고 있습니다. 그런데 저만 혼자 이런 재미를 봐서는 안되겠죠. 좋은 것은 나눠야 합니다. 그래서 이번 주부터 코퍼스를 소개해드리고 특히 그것을 통해 영작시의 여러 가지 문제들을 해결하는 방법에 대해 이야기 보따리를 풀어보겠습니다.
우선 코퍼스에 대한 기본적인 이해가 필요합니다. 코퍼스의 목적은 한 언어를 대표하여 언어의 사용되는 모습을 보여주는 것입니다. 여론조사를 예를 들어 설명해 볼께요. 선거때 전체 국민이 누구를 지지하는 지는 투표함을 열어보기 전에는 확인할 수 없지만 표본을 잘 설정해서 여론조사를 하면 민심의 움직임을 상당히 정확히 알 수 있게 됩니다. 이와 마찬가지로 한 언어가 수많은 사람들에 의해 오늘도 내일도 어떻게 사용되고 있는지, 그 전체적인 상황을 직접 보는 것은 불가능하지만 그 언어의 샘플을 잘 뽑아 놓으면 그것을 통해 그 언어의 사용되는 모습을 어느정도 정확히 볼 수 있게 되는 것입니다.
그래서 코퍼스에서 이런 표현은 이렇게 쓰인다 하는 것이 확인되면 그 표현이 그 언어 전체에서 일반적으로 그렇게 쓰인다고 봐도 좋다는 것입니다.
그래서 코퍼스의 생명은 대표성입니다. 이것은 샘플을 뽑을 때 언어사용의 영역을 얼마나 골고루 포함시켰느냐하는 것과 샘플의 크기가 충분히 크냐하는 것에 의해 결정됩니다. 그래서 코퍼스를 만들 때 문어, 구어, 문학, 시사, 논술 등의 영역들을 골고루 안배하고 크기도 최대한 크게 하려고 노력합니다.
코퍼스 중 가장 크고 대표적인 것이 영국에서 만들어진 Bank of English (BE), British National Corpus (BNC), 그리고 Longman-Lancaster Corpus입니다. BE는 제가 가끔 칼럼을 통해 언급했고 또 국내에서도 콜린스 사전의 겉표지에 씌여있는 것을 보신 분들이 계실겁니다. 균형성도 뛰어나서 BNC는 영국영어만을 담고 있고 Longman은 문어만을 포함하는데 비해 BE는 영국, 미국, 호주영어까지, 그리고 구어, 문어를 다 포함하고 있습니다.
크기가 커야한다고 했는데 얼마나 클까요? BE는 4억5천만단어 (2002년 1월 기준), BNC는 1억단어, LLC는 3천만단어입니다. 특히 BE는 대표성을 위해 크기를 매우 강조하기 때문에 지금도 열씨~미 그 몸집을 불려나가고 있답니다. 그 크기가 감이 잡히세요? 보통 책 한 권이 10만단어쯤 되는데 그럼 책이 몇 권인 거여? 다만, BE는 그 많은 단어를 다 돌리려면 여러 가지 불편이 있기 때문에 일반 사용자들에게는 5천6백만단어로 축소해서 제공하고 있습니다.
현재 영국의 사전들은 모두 코퍼스를 가지고 만듭니다. Collins 사전이 BE를 사용해 만들어졌지요. Oxford 사전은 BNC에 미국영어 코퍼스를 따로 보충해서, 그리고 Longman은 Longman-Lancaster Corpus에 구어 코퍼스를 합해서 만들고 있습니다.
반면 Webster같이 미국에서 만드는 사전들은 아직도 코퍼스를 사용하지 않고 있습니다. 그것은 미국의 촘스키를 필두로 하는 언어학 전통이 아직 코퍼스를 완전히 받아들이지 않고 있기 때문입니다. Webster사전이 예문에 아주 인색한 것은 그런 이유에서입니다. 학습자들에게는 별로 권하고 싶지 않은 사전이죠.
그런데 반가운 사실은 BE와 BNC는 free demo를 통해 무료 사용이 가능하다는 것입니다. 물론 무료 검색은 유료보다 내용이 여러가지로 제한되어 있지만 그래도 상당히 유용하게 써먹을 수 있답니다.
(BE는 가끔 장애를 일으켜 접속이 안되는 경우가 생깁니다. 그러나 이런 경우 대개 며칠 안에 정상화가 됩니다.)
BE (Wordbank라고도 불리고 있습니다)를 먼저 볼게요. “Corpus Concordance Sampler”라는 구역에 “Type in your query”라고 씌여진 슬롯이 있죠? 거기에 검색어를 입력하고 그 밑에 “Show Concs”라는 버튼을 클릭하면 검색어를 포함하는 문장들이 나옵니다. 그 슬롯 밑에 “Which sub-corpora should be searched? ”라는 질문이 있죠? Corpora는 corpus의 복수형이고 sub-corpora는 BE의 일부분(영국영어, 미국영어, 구어 등)을 말합니다. 일부만을 봐야할 특별한 이유가 없는 한 그냥 다 선택하면 되겠죠.
자, 아무 단어나 입력을 해 보세요. 생각이 안나면 저번 칼럼에서 다루었던 fun을 한번 넣어 볼까요? 검색어가 중간에 일렬 종대로 나와있죠? 이렇게 예문을 검색어 중심으로 배치하는 것을 concordance라고 합니다. 나온 예문의 수는 40개입니다. 그런데 fun은 빈도수가 매우 높은 단어이므로 총 검색결과는 이보다 훨씬 많습니다. 유료검색을 하면 fun이 들어간 문장이 총 5345개가 있다고 합니다. 그런데 무료검색에서는 그 중 40개만 임의로 뽑아서 보여주는 것입니다.
다음은 BNC를 보겠습니다. BE보다 좀 인심 좋게 예문을 50개를 보여주는군요. 예문이 검색어 중심으로 배치되어 있지 않아서 보기에는 좀 불편합니다. 그런데 BE 는 예문이 다 안나오고 좌우로 잘리는데 비해 BNC는 검색어마다 완전한 한 문장씩을 보여주고 있습니다. BE에서 완전한 문장을 보려면 유료검색을 해야 합니다.
그런데 코퍼스를 적재적소에 잘 써먹을 수 있으려면 query syntax를 알아야 합니다. 이것은 단어 하나 검색하는 차원을 넘어서 자기가 필요한 종류의 예문만을 쏙쏙 골라 뽑아낼 수 있는 명령어죠. 우선 사이트에 있는 설명을 참고해서 코퍼스를 사용해 보시고, 다음 주에는 이 search syntax의 쉬운 설명과 함께 우리가 영작의 도우미로 어떻게 코퍼스를 사용할 수 있는 지를 구체적인 예를 들어가며 이야기하겠습니다.
Hello everyone! Getting pretty hot, isn’t it?
코퍼스는 네이티브 영어의 방대한 보고이기 때문에 내가 어떤 영어 표현을 구사하고 싶을 때 웬만하면 그 표현이 코퍼스 어딘가에 들어있습니다. 그래서 그것을 잘 찾아낼 수 있다면 그 표현의 용례들과 함께 정확한 형태, 사용법, 의미를 볼 수 있게 되는 것입니다.
그런데 표현의 형태를 정확하게 알고 있다면 그냥 입력하면 되니까 바로 찾아지지만, 문제는 우리가 그 표현을 정확히 알고 있지 못하는 경우가 많다는 것입니다. 관사가 들어가는지 안 들어가는지, 전치사는 어떤 게 맞는지, 도무지 아리송~ 할 때가 아주 많다는 말씀이죠.
그럼 이럴 땐 어떻게 찾지? 걱정마. Query syntax가 있짜나!
QS (query syntax)는 Bank of English 코퍼스에서 쓰이는 용어로, 검색을 위해 입력하는 명령어입니다. (BNC 코퍼스에서는 CQL, 즉 Corpus Query Language라고 합니다) 그런데 이 QS란 놈이 좋은 것은, 표현을 부분적으로만 알고 있을 때 알고 있는 부분을 통해 모르는 부분까지 찾아 정확한 표현으로 만들어준다는 것입니다.
따라서 이 QS를 잘 구사하게 되면 마치 친절한 네이티브 개인교사를 옆에 두고 영작을 하는 것 같은 효과를 낼 수 있답니다. 그것도 한두 명도 아니고 코퍼스 예문의 수만큼 많은 네이티브들을 순 공짜로 말이죠! 그래서 우선 제가 그 동안 사용해왔던 비법을 알려드릴 것이고, 이것을 바탕으로 여러분도 저를 능가하는 고수가 되시기 바랍니다.^^*
우리는 BE를 주로, 그리고 BNC를 보충적으로 사용하도록 하겠습니다. QS의 기본적인 기능은 알려드린 BE 사이트에 설명되어 있지만 처음 접하는 분들은 이해가 어려울 수도 있으므로 중요한 것만 자세하게 설명을 드리겠습니다. 그럼 일단 새 창을 띄워서 사이트를 열어주세요. (http://www.collins.co.uk/Corpus/CorpusSearch.aspx)
우선 가장 기본적인 기능은 단어들을 이어주는 더하기 사인 + 입니다:
have+money: have 다음에 money가 바로 따라 나오는 모든 문장들을 찾아줍니다. (I have money, Do you have money? 등) 물론 단어는 두 개 이상 얼마든지 이어서 검색할 수 있습니다. 자, 사이트에 직접 입력해보세요.
그런데 두 단어 사이에 뭔지는 확실히 모르지만 단어 몇 개가 끼어있는 것 같은 표현을 찾아 확인하고 싶다고 할 때 단어 사이를 띄우고 간격은 원하는 단어 수만큼 조절할 수 있습니다:
have+0,3money: have와 money 사이에 0~3개의 단어가 끼어있는 모든 문장을 찾아줍니다. (I have money, I have the money, I have no more money, I have always kept the money rolling… 등등)
have+1,3money: have와 money 사이에 1~3개의 단어가 끼어있는 문장들을 다 찾아줍니다. 위의 예 중에서 I have money만 빼고 다 나오겠죠.
have+2,2money: 이번에는 have와 money 사이에 꼭 두 단어만 끼어 들어있는 문장들을 찾아줍니다. (I have too much money, people have handed the money to... 등등)
자, 그런데 have의 다른 동사형태, 즉 had money, has money 등이 들어간 용례도 같이 보고 싶을 때는 방법이 있을까요? 있습니다, 있고요! 골뱅이 @를 써주면 됩니다:
have@+money: have의 모든 가능한 동사형에 money가 바로 이어 나오는 문장들을 찾아줍니다. (the other has money, Everybody had money, I have money now... 등)
그럼 이 기능들을 막 짬뽕을 시켜서 쓸 수도 있을까요? 가능합니다. 예를 들어서:
have@+1,2money: have의 모든 동사형에 단어 1~2개를 사이에 두고 money가 따라 나오는 모든 문장들을 찾아줍니다. (we won’t have any money, Vincent had been offered money to... 등)
그러면 시험가동을 한번 해 볼까요? Have fun이라는 말을 하고 싶은데 이게 have a fun인 것 같기도 해서 마음이 흔들린다면, 코퍼스에 어떻게 물어봐야 할까요? have@+0,1fun으로 하면 됩니다. 그 뜻은 “have의 모든 동사형에 단어 0~1개 간격을 두고 fun이 오는 표현을 다 찾아 대령하렷다”입니다. 그러니까 have fun이든 have a fun이든 쓰이는 예가 있으면 다 가져오라는 것이죠.
무엇이 보이나요? Have의 몇 가지 동사형에 간격 없이 fun이 바로 나오는 용례가 대부분입니다. 두 단어 사이에 뭐가 끼어 들은 경우도 몇 개 있긴 하지만 “had such fun”, “having much fun” 등이고 have a fun이란 표현은 아무리 눈을 씻고 봐도 없어요. 그렇습니다. 네이티브들은 have a fun이라고는 잘 안 한다는 것을 코퍼스는 말해주고 있는 것입니다!
또 한가지 중요한 것은 막대기 기호 | 인데 “혹은”이라는 뜻입니다. 몇 가지 단어 중 어떤 것을 써야 맞는지 고민될 때 매우 유용합니다. 키보드를 잘 찾아보세요. 번호 일 번이나 알파벳이 아닙니다.
예를 들어 권력 분산을 통한 “제한된 정부”라는 말을 하고 싶다고 합시다. 사전을 보면 “제한하다”는 limit, 혹은 restrict인데 그럼 limited government라고 해야 할지 restrictedgovernment라고 해야 할지 망설여집니다. 이럴 때는 영영사전을 봐도 도움이 안 되고 코퍼스에 물어봐야 합니다. 이럴 때 요 막대기를 쓰는 것이죠.
limited|restricted+government: limited government 혹은 restricted government가 들어간 모든 문장들을 찾아줍니다.
이렇게 검색을 하면 limited government만 나옵니다. restricted government라는 말은 잘 쓰이지 않는 다는 것을 보여주는 것이죠. 그런데 여기서 검색만 할 것이 아니라 주위 문맥을 살펴서 이것이 정말 원하는 표현이라는 것을 확인해주는 것도 필요합니다. 예를 들어 검색된 문장 중에 이런 표현이 나오죠: free-market economics and of strong but limited government... 즉, "강하지만 제한된 정부", 이정도면 이것이 우리가 원하는 표현이라는 것이 맞다는 확신이 설만 합니다.
아~ 이런 말을 할 때는 limited를 쓰는 구낭~. 그렇습니다. 이렇게 같은 뜻의 단어라도 어울리는 단어가 다른 것은 언어의 매우 두드러진 현상인데 이것을 콜로케이션 (collocation)이라고 부른답니다. 자연스런 영어를 구사하고 싶다면 반드시 거쳐야 하는 관문이죠. 그런데 QS에는 오늘 다 알려드리지 못한 다른 기능들이 많이 있는데 필요한 것은 칼럼을 통해 차차 소개해드리겠습니다.
다른 예들은 [Guide to Better Writing/ Using corpora...]를 참고하세요.
Tony was a good friend of mine at Birmingham University. He got his phd by exploring how English learners can use the corpus in their learning tasks. Now he is a lecturer at a university in Thailand. His materials are offered in:http://www.geocities.com/tonypgnews/
The following is a sample from his lessons:
Unit 23: 'conduct' and 'perform'
When you conduct or perform something, you basically 'do' it.However, the type of task or activity
to be 'conducted' and to be 'performed' may be different.
First, look at the following concordance lines. Underline the activity conducted in each line.
(The first line has been done for you).What do all the activities have in common?
decided to turn the tables and conducted a survey to find out whether
made it easier for many people to conduct experiments on animals,
skills and techniques necessary to conduct research in the social sciences
to register the students. To conduct the examination of the students
for council. Tests have been conducted which indicate there is potential
He says the investigation was conducted because the expanding market for
According to a nation-wide poll conducted by a Los Angeles firm, 77 per
Rates.According to the study, conducted by the Building Owners and
Now, look at the following concordance lines. Underline the activity performed in each line.
(The first line has been done for you).What do all the activities have in common?
was reached he told us: INK performed a very professional job. They
Jos Hubers who organised the event performed a fantastic role as interpreter,
defined as the inability to perform all duties of the insured's own
a chimpanzee to perform open heart surgery. After lots of
the model, by requiring the Cray to perform some operation that overtaxes
They contacted me and I agreed to perform a professional evaluation of
the world. In 1974, the group performed a farewell concert, but seven
in the war with music and drama performed in the evenings. But in
Exercise: Choose the most appropriate word in each line.
1.any translation which intends to (/) a transmitting function cannot
2.security departments showed Wei had (/) activities in an attempt to
3.of leading government figures to (/) negotiations with Vilnius on the
4.a film clip before being asked to (/) certain tasks. To induce a good of
5.including Mr Harvey - had (/) the training, but former BBC
6.stood laughing at the dance being (/) by the haircut casualty, who'd
7.enquiries as a result of interviews (/) by the Office Of Fair Trading-not
질문: "재학증명서"를 영어로 뭐라고 하나요? (뉴질랜드에서) certificate of studentship 이라고 하니까 못알아듣던데...
Certificate of registration 이라고 하면 됩니다.
다음은 영국과 캐나다 사이트에서 발췌한 구글 예문입니다:
On completion of faculty registration, new students are issued with their student card or given a certificate of registration which enables them to collect their student card from the Arts and Social Sciences Library. (British document)
The following documents must be submitted in support of the application for certificate of registration as a registered pharmacy student or intern. (Canadian document)
Certificate of (school) attendance라는 말도 있는데 주로 학교에 다녔다는 증명입니다.
These payments were a useful source of control. For instance, foster mothers were only paid if they had a certificate of school attendance. (구글, US document)
전통 사회에 대한 역사 이야기입니다. 대리모(foster mother)로 일하는 여성 중에서 학교를 다닌 사람만 돈을 지급해서 결국 여성들이 학교를 다닐 수 있도록 유도(social control) 했다는 말입니다.
한영사전에 보면 certificate of studentship이라고 되어있는데 네이티브들은 잘 쓰지 않는 표현입니다. 구글검색해보면 이 표현을 쓰는 사이트는 한국, 일본, 중국 등 비영어권 사이트 뿐입니다.
이렇게 구글검색을 할 경우 그 자료가 네이티브 영어가 아닌 것이 많이 올라오기 때문에 반드시 출처를 확인해야 정확한 영어를 가려낼 수 있습니다.
"작년 겨울"은 last winter라고 하면 됩니다. 그런데 "재작년 겨울"은 어떻게 표현할까요?
Two winters ago라는 표현이 있습니다. 그러나 이것은 부사구로 "재작년 겨울에"라는 뜻입니다. 따라서 "재작년 겨울"이 명사구로 쓰일 때, 예를 들어 "재작년 겨울은 특히 기억에 남는다" 같은 표현을 하려면 Two winters ago를 쓸 수 없습니다.
"그저께"는 theday before yesterday라고 하는 것에 힌트가 있습니다. 재작년 겨울은 the winter before last 라고 하면 됩니다.
이것이 맞는지 코퍼스로 확인해 볼까요? 어떤 QS(query syntax)를 써야 할까요? before+last를 입력해 봅시다. winter까지 집어 넣을 수도 있지만 너무 검색어가 구체화되면 검색에 나오지 않을 수도 있습니다. 검색결과를 훑어보면 the Saturday before last, The Christmas before last, the summer before last 등의 표현이 나옵니다.
여기서 before last 라는 표현이 Saturday, Christmas, summer, 등과 함께 쓰인다는 것을 확인할 수 있고 문맥을 읽어보면 저저번, 재작년, 등의 의미인 것을 유추할 수 있습니다. 그래서 winter before last는 없지만 before last에 winter를 대입해서 "재작년 겨울"의 의미로 사용할 수 있다는 것을 알 수 있게 되는 것입니다.
정리하면:
어제:yesterday 그저께: the day before yesterday 작년 크리스마스: the last Christmas 재작년 크리스마스: the Christmas before last
전 주 토요일: the last Saturday 전전주 토요일: the Saturday before last
작년 겨울: the last winter 재작년 겨울: the winter before last
그래서 문제의 문장을 영작 하면:
재작년 겨울은 특히 기억에 남는다. --> The winter before last is especially memorable.
"The same photo album of her growth process (성장 과정)was delivered to her."
Correction: growth process --> growing up
Why not "growth"?
Growth is used for things like plants, social phenomena, (sales growth, population growth, etc.), etc., but the process whereby one matures into an adult (성장과정) is specifically called growing up. True, you can say things like personal growth, but this means growth in maturity and character (인격 성장) rather than becoming an adult.
Why omit "process"?
If growth is wrong, should we then say "growing up process" to mean 성장과정? No. The word process is unnecessary. Here is why.
Let's check Google.com for "photos of her growing up" and "photos of her growing up process". We get 27 hits with the former (mostly in good domains like com, org, edu, and uk), but NO hits with the latter. Some examples:
@ We sang with my mother and looked at all her old things, including photos of her growing up and photos of me as a child.
@ Here are some photos of her growing up. The first photo was when Ellen was 2 years old and the last photo was taken just 2 months shy of her 6th birthday.
This shows us that in expressing this content (성장과정의 사진), English normally does not attach process, although Korean does. In fact, this kind of disparity between Korean and English is quite common. Consider:
@ The final decision is in the hands of the International board (BE) (최후의 결정권은 ...: decision power X)
@ Use your imagination(BE) (상상력을 동원하세요: imagination ability X)
This tells us that decision can mean 결정권 as well as 결정, and also imagination can mean both 상상력 as well as 상상. Many of English nouns behave like this. Avoiding unnecessary words is a key to mastering natural English.