(Revised Korean Manual)
https://t1.daumcdn.net/cfile/cafe/99EBA0495A80F11030?download (download)
The analyses of MWUs in the existing MWU programs have often been based on the repetition of ‘N-gram’ patterns rather than a specific MWU list. In comparison, ColloGram named from the compound, Collocation and N-gram or Program, bases its analysis on a Multiword Unit (MWU) list from the Corpus of Contemporary American English (COCA) which so far (1990-2015) consists of a 5 hundred-million-word corpus. For the development of ColloGram, the corpus (4.5 hundred-million words) compiled during the period of 1990-2009, which became available in 2014 to the public, was utilized for the program. The MWU list contains 10,000 MWU families (31,680 MWU types) where the new notion of MWU Family is adopted. A MWU family includes its inflected forms (inflected verbs, singular/plural forms of nouns) and derived forms (different word order, forms with more or less constituents). The criteria to extract the COCA_MWU families were Min. Range 4 from the COCA 5 domains and Min. Frequency 20. The MWU family list topped on the ColloGram program is called COCA_MWU20 where 20 indicates the number of graded 500-item bands. The functions of ColloGram are similar to those of RANGE, the vocabulary analysis program, by Heatley and Nation (2002). The program identifies MWUs where all the words are immediately adjacent to each other (that is, continuous MWUs, Max. 10 words). Finally, a subtractive method (Martinez & Schmitt, 2012) was adopted to produce a more accurate frequency figure of the MWUs in developing ColloGram. For example, as opposed to can be subsumed under opposed to, a head MWU. However, in order to obtain the exact frequency for opposed to, there was need to subtract the number of occurrences of the string as opposed to (1,615) from the number of times the bigram opposed to appears in the corpus (2,674). That is, the true frequency of opposed to is 1,059.
기존 연어 분석 프로그램은 특정 연어 목록을 기준으로 분석하기 보다는 키워드(node)를 입력하고 좌우에 나타나는 연어소(collocate)를 검색하거나 반복되는 ‘N-gram’의 패턴을 주로 분석하는 프로그램이었다. 하지만 ColloGram은 특정 연어 목록을 탑재하여 분석 대상 자료에 포함된 연어 사용을 분석하는 프로그램이다. ColloGram은 ‘Collocation’과 ‘N-gram’ 또는 ‘Program’의 합성어로 연어 분석 프로그램을 의미하며 프로그램에서 지원하는 기능은 어휘 분석 프로그램인 Heatley와 Nation(2002)의 RANGE program에서 지원하는 기능과 유사하게 개발되었다. 프로그램에 탑재된 연어 목록은 1990년부터 2015년까지 미국의 언어 데이터로 구축된 5억 단어의 Corpus of Contemporary American English(COCA) 중 일반 연구자에게 COCA가 판매 되던 시점인 2014년도를 기준으로 1990년에서 2009년까지의 4억 5천만 단어의 데이터에 기반하여 추출되었고 추출 기준으로는 약 4억 5천만 단어 데이터에서 최소 20회 이상의 빈도를 가지고 있으며 하나의 독립된 의미 단위를 구성한다는 조건을 적용하였다. 또한 아래 <표 1>에 제시된 COCA의 5개 대영역 가운데 최소 4개 영역에서 출현하는 조건, 즉 사용범위(range) 4 이상을 적용하였다.
<표 1> COCA의 대영역 분류 및 규모
또한 학계에서는 처음으로 다어휘군(Multi-Word Unit family)이라는 개념을 도입하였다. 다어휘군(MWU family)은 어휘군(word family)과 유사한 개념으로 대표형을 기준으로 하여 굴절과 파생 변화형을 모두 포함하는 광의적인 개념이다. 다어휘 표현의 목록을 제작하다 보면 예를 들어 “this moment”와 “at this moment”를 별개의 다어휘 유형으로 취급해야 하는 지에 대한 고민에 빠질 때가 있다. 이 두 개의 다어휘 유형을 개별 검색한다고 가정해 보면 "this moment"가 30회, “at this moment”가 20회가 나올 수 있다. 하지만 "this moment"의 검색에는 “at this moment”의 한 부분인 "this moment"를 총 빈도에 포함하기 때문에 순수한 "this moment"의 빈도를 산출하기 위해서는 “this moment”의 빈도에서 "at this moment"의 빈도를 제외할 필요가 있다. 이와 같이 본 연구에서의 다어휘군의 개념은 빈도 산출의 중복을 없애면서 대표형에 어휘가 추가되거나 삭제되는 표현을 다어휘군의 파생형으로 간주하고 동사의 경우 동사의 굴절 변화형(예, go home, goes home, going home, went home, gone home)과 명사의 경우 단복수(예, year old, years old)를 포함하여 이를 다어휘군의 굴절형으로 정의하였다. 결과적으로 빈도수와 사용범위의 기준을 충복하는 COCA 다어휘군 목록은 굴절형과 파생형을 포함하는 대표형 기준으로 10,214개가 선정되었고 이중 상위 10,000개(굴절형과 파생형을 구분한 다어휘 유형은 총 31,680개)를 최종 선별하여 사용범위를 1순위, 빈도수를 2순위로 순위를 확정하고 500개를 한 개의 등급으로 구분하였다. 이를 바탕으로 ColloGram에는 총 20개 등급화된 다어휘군 목록이 탑재되었다. 그리고 이 프로그램과 다어휘군 목록을 통칭하여 COCA_MWU20이라 한다.
끝으로 ColloGram은 연속된 총 2-10개의 단어로 구성된 다어휘군 유형을 분석할 수 있으며 백만 단어의 코퍼스 분석에 최적화 되어 있으며(분석 시간 10초 이내) 1회 최대 1억 단어까지 분석이 가능하나 이때는 분석 시간이 길게는 20여분까지 소요될 수 있다.