GSC-u ColloGram
The analyses ofcollocations in the existing collocation programs have often been based on the repetitionof ‘N-gram’ patterns rather than a specific collocation list. In comparison, ColloGramnamed from the compound, Collocation and N-gram or Program, bases its analysison a collocation list from the Corpus of Contemporary American English (COCA)which so far (1990-2015) consists of a 5 hundred-million-word corpus. For thedevelopment of ColloGram, the corpus (4.5 hundred-million words) compiledduring the period of 1990-2009, which becameavailable in 2014 to the public, was utilized for the program. The collocationlist contains 10,406 collocation families (32,366collocation types) where the new notion of CollocationFamily is adopted. A collocation family includes its inflectedforms (inflected verbs, singular/plural forms of nouns) and derived forms(different word order, forms with more or less constituents). However, it was found thatthe COCA collocation family list has a limitation for representing the generalcollocation use of English because of COCA’s unbalanced data construction (e.g.heavy dependence on newspapers, news scripts, and magazines). Thus, theresearchers have extracted 7,630 collocation families (25,269 collocationtypes) from the COCA collocation family list by updating frequency and rangedata based on 8 corpora: Freiburg-Brown Corpus, Freiburg-LOB Corpus, AustralianCorpus of English, British National Corpus Written Sampler, Wellington WrittenCorpus, Corpus of Contemporary American English Spoken Sampler, BritishNational Corpus Spoken Sampler, Wellington Spoken Corpus (each corpus consistingof 1 million words). The collocation family list topped on the ColloGramprogram is called the General Service Collocations (GSC). The functionsof ColloGram are similar to those of RANGE, the vocabulary analysis program, byHeatley and Nation (2002). The program identifies collocations where all thewords are immediately adjacent to each other (that is, continuous collocations,Max. 10 words). Finally, a subtractive method (Martinez & Schmitt, 2012)was adopted to produce a more accurate frequency figure of the collocations indeveloping ColloGram. For example, asopposed to can be subsumed under opposedto, a head collocation. However, in order to obtain the exact frequencyfor opposed to, there wasneed to subtract the number of occurrences of the string as opposed to (1,615)from the number of times the bigram opposed toappears in the corpus (2,674). That is, the true frequency of opposedto is 1,059.
GSC-u is for the international version where the two criteria of frequency and range wereapplied to grade collocation lists. On the other hand, the Korean version ofGSC is called GSC-k where the two criteria of familiarity and usefulness additionallyapplied from the perspective of Korean learners.
GSC-k ColloGram
기존 연어 분석 프로그램은 특정 연어 목록을 기준으로 분석하기 보다는 키워드(node)를 입력하고 좌우에 나타나는 연어소(collocate)를 검색하거나 반복되는’N-gram’의 패턴을 주로 분석하는 프로그램이었다. 하지만 ColloGram은 특정 연어 목록을 탑재하여 분석 대상 자료에 포함된 연어 사용을 분석하는 프로그램이다. ColloGram은 ‘Collocation’과 ‘N-gram’ 또는 ‘Program’의 합성어로 연어 분석 프로그램을 의미하며 프로그램에서 지원하는 기능은 어휘 분석 프로그램인 Heatley와 Nation(2002)의 RANGE program에서 지원하는 기능과 유사하게 개발되었다. 프로그램에 탑재된 연어 목록은1990년부터 2015년까지 미국의 언어 데이터로 구축된 5억 단어의 Corpus of Contemporary American English(COCA) 중 일반 연구자에게 COCA가 판매 되던 시점인 2014년도를 기준으로 1990년에서 2009년까지의 4억 5천만 단어의 데이터에 기반하여 추출되었고 추출 기준으로는 4억 5천만 단어 데이터에서 최소 20회 이상의 빈도를 가지고 있으며 하나의 독립된 의미 단위를 구성한다는 조건을 적용하였다. 또한 학계에서는 처음으로 연어군(collocation family)이라는 개념을 도입하였다. 연어군(collocation family)은 단어군(word family)과 유사한 개념으로 대표형을 기준으로 하여 굴절과 파생 변화형을 모두 포함하는 광의적인 개념이다. 연어 목록을 제작하다 보면 예를 들어 “this moment”와 “at this moment”를 별개의 연어로 취급해야 하는 지에 대한 고민에 빠질 때가 있다. 이 두 연어를 개별 검색한다고 가정해 보면 "this moment"가 30회, “at this moment”가 20회가 나올 수 있다. 하지만 "this moment"의 검색에는 “at this moment”의 한 부분인 "this moment"를 총 빈도에 포함하기 때문에 순수한 "this moment"의 빈도를 산출하기 위해서는 “this moment”의 빈도에서 "at this moment"의 빈도를 제외할 필요가 있다. 이와 같이 본 연구에서의 연어군의 개념은 빈도 산출의 중복을 없애면서 대표형에 어휘가 추가되거나 삭제되는 표현을 연어의 파생형으로 간주하고 동사의 경우 동사의 굴절 변화형(예, go home, goes home, going home, went home, gone home)과 명사의 경우 단복수(예, year old, years old)를 포함하여 이를 연어의 굴절형으로 정의하였다. 결과적으로 COCA 연어군 목록은 10,406개의 연어군과 32,366개의 하위 변화형을 포함한다. 하지만 COCA를 구성하는 상당 부분의 데이터가 신문이나 뉴스 자료인 관계로 개발된 연어 목록에는 시사적인 연어가 지나치게 많이 포함되고 빈도수 또한 높아 일반적인 연어 사용을 대표하는데 한계가 있다는 것을 확인하였다. 이러한 이유로 본 연구진은 COCA에서 추출한 10,406개의 연어군을 다시 각 백만 단어로 구성된 대표적인 8개의 코퍼스(Freiburg-Brown Corpus, Freiburg-LOB Corpus, Australian Corpus of English, British National Corpus Written Sampler, Wellington Written Corpus, Corpus of Contemporary American English Spoken Sampler, British National Corpus Spoken Sampler, Wellington Spoken Corpus)를 바탕으로 새로운 빈도수(frequency)와 사용범위(range)를 산출하여 이중 사용범위가 2 이상인 연어(두 개의 코퍼스 이상에서 사용되는 연어) 7,630개(25,269개의 하위 변화형)를 재선정하였고 최종적으로 한국인 학습자 버전의 경우 한국인 학습자의 친숙도(familiarity)와 유용성(usefulness) 수치를 추가 반영하여 총 16개의 등급으로 구분한 후 이를 ColloGram에 탑재하였다. 본 프로그램에서는 이 연어군 목록을 General Service Collocation(GSC)라고 명명하였다. 끝으로 ColloGram은 연속된 총 10개의 단어로 구성된 연어를 분석할 수 있으며 백만 단어의 코퍼스 분석에 최적화 되어 있으며 1회 1억 단어까지 분석이 가능하나 이때는 분석 시간이 길게는 5분까지 소요될 수 있다.
Shin,D., Chon, Y. V., Lee, S., & Park, M. (2016). ColloGram [Computer Software].Seoul: e-Future.
GSC-u ColloGram.zip
GSC-k ColloGram.zip
Shin Chon Lee Park(2017).pdf
GSC Collocation Size Test.pdf
*To download the files, click "첨부된 파일 4개" at the bottom of this page
