생일 축하
너도 참 꿀꿀하게 보냈겠더라..
생일 파티 멤버를 이야기 듣고 보니 말이지..
음
물이 않좋아
물이~~~!!!
참
레포트 팀 짰니?
: 예지도 가입했구나....가입추카...
: 내가 잠시 외도를 했더니만 모르는 사람들이 마니
: 가입했네...예지 추카혀...
:
: 근데...코퍼스는 무슨 일로 쓰는 겨?
: 어렵네...
:
: 하여튼...방가!
:
: :
: :
: : 코퍼스란 무엇인가?
: : 코퍼스(corpus)란 언어연구에 이용할 수 있는 구두언어와 문장언어 텍스트의 집합체이다.(OED. The body of written or spoken materials upon which a linguistic analysis is based). 코퍼스를 바탕으로 해당 언어를 연구하는 분야를 코퍼스언어학(corpus linguistics) 이라 한다.
: : 코퍼스(corpus)란 한국어로는 말뭉치 또는 말모둠으로 번역하는데 그 정의는 사람에 따라 다르나 대략 다음과 같은 의미로 쓰이고 있다.
: : ·대규모 언어 데이터베이스
: : ·인간의 음성언어(문어,구어)를 대용량 컴퓨터에 저장하고 이를 필요에 따라 가공하여 언어 연구에 사용하는 것
: : ·컴퓨터가 판독할 수 있는 형태(Mashine-readable form)로 저장된 자연어의 용례들과 이들 용례에 대한 부속 정보(additional information)
: :
: : 코퍼스의 이용분야는 다음과 같다
: : 1. 문법분야 :통사론, 형태론, 어구해부
: : 2. 어휘분야 : 사전편찬, 단어형성, 기본어휘 선정 등
: : 3. 의미론
: : 4. 담화분석 및 대화분석
: : 5. 화법
: : 6. 자연언어 처리
: : 7. 기계번역
: : 8. 언어 이론 연구
: : 9. 문체론
: : 10. 한일어의 대조연구
: : 11. 언어의 史的 연구
: :
: :
: :
: :
: :
: :
: : 國立國語硏究所 연구 자료(http://www.kokken.go.jp)
: : 分類語彙表 : 잡지 90종의 어휘조사 등에 나타난 고빈도어 약 3만2천600 단어를 의미 분류 한 자료. 곧 8만7천 단어로 확대된 자료가 나올 예정임.
: : 문의는 국립국어연구소 加藤安彦 kateaux@kokken.go.jp에게로
: : 中學校·高校敎科書の語彙調査 : 中學校와(1974년 발간)·高等學校(1980년 발간) 敎科書의 語彙를 調査한 것.보고서는 고등학교 교과서에 관한 것이 1983년에, 중학교 교과서는 1986년에 발간됨 문의는 加藤安彦 kateaux@kokken.go.jp로
: : 現代雜誌90種九十種の用語用字: 1962년에 보고서집이 발간되고, 1996년에 플로피디스크판이 三省堂에서 발간됨
: : (4000엔). 자료 구입은 東京都千代田區三崎町2-22-14 三省堂.
: : 國定讀本總攬 CD-ROM版 : 1904년부터 昭和49年까지 사용된 일본 문부성편 소학교용 교과서 6종을 모두 수록한
: : 자료. 데이터는 用例KWIC와 語彙表, 國定讀本本文 등으로 구성되어 있음. CD-ROM으로 출판되었으며 가
: : 격은 90,000円.
: : 구입문의 101 東京都千代田區三崎町2-22-14 三省堂 Tel:(03)3230-9412
: : 대규모 日本語辭典(「大語誌」)을 편찬하기 위한 입력 작업 : ‘일본어 사전편찬실’에서 사전편찬의 기본 작업의
: : 일환으로 명치시대의 주요 자료를 입력 중이며 대표적인 것은 잡지 「太陽」의 입력을 들 수 있음.
: : -------------------------------------------------------------------------------------------
: : 다른 硏究機關 公開 資料
: :
: : IPAL辭典 (動詞,形容詞,名詞) : 일본어 기본어(동사861, 형용사136,명사1081) 에 대하여 문법정보와 어휘정보
: : 를 상세히 기술한 전자사전. web에서 무상 다운로드가 가능하며, CD-ROM 版(有償)도 있다.
: : 다운로드 http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html
: : CD-ROM 구입처: 東京都文京區本駒潊二丁目28-8 03(5978)7507 FAX 03(5978)7517
: : 사용에 대한 문의: ipal-info@ipa.go.jp
: : IPA코퍼스 : 情報處理振興事業協會가 공개한 연구용 코퍼스.
: : 대상 텍스트는 (1)이미 공개된 IPAL사전에 수록된 15000개의 예문과 (2)『日本 語表現文型中級』
: : (筑波大學日本語敎育硏究會,凡人社,1983)에 수록된 문형 문법란의 예문 약 1600문. (3)岩波新書 13권과
: : 岩波쥬니어新書 7권에 수록된 약 41,000文. web에서 무상 다운로드가 가능하다. 문의는 ipal-info@ipa.go.jp
: : 다운로드 http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html
: : RWC텍스트 데이터베이스 제2판(CD-ROM) : 新情報處理開發機構(RWCP)가 공개한 形態素 解析 일본어 데이터.
: : 通商白書와 日本電子工業振興協會報告書의 形態素 분석 데이터가 수록됨. 또 每日新聞 (91年∼95年) 기사 전
: : 체를 기계적으로 形態素解析한 데이터와 岩波國語辭典의 tag 부착/形態素解析 데이터도 들어 있음.
: : 입수 방법: 다음 장소로 수속비 2,000을 입금하고 수속을 하면 입수 가능함.
: : (株)メディアドライブ e-mail : txrwcdb-req@mediadrive.co.jp
: : 홈페이지 http://www.rwcp.or.jp/wswg/rwcdb/text/
: : ATR對話데이터 베이스 : 국제회의와 여행에 필요한 전화 대화와 보통 회화문 데이터베이스. 日英 대역문으로 구성
: : 되어 있으며 형태소 해석 완료 데이터 약80만 단어분이며 모두 4set. 각 set당 가격은 50,000엔.
: : 구입: (株)國際電氣通信基礎技術硏究所 企劃部 開發室 Tel:(0774)95-1192 Email: deliv@ctr.atr.co.jp
: : EDR辭典,EDR코퍼스 : 日英 각20만 단어의 단어사전.共起사전.개념사전.모두 품사표시와 구문 해석이 되어
: : 있다.
: : 문의: 101 東京都千代田區神田佐久間河岸78-1 (株)日本電子化辭書硏究所 第2阿倍ビ ル2階
: : Tel: (03)3851-5521(代表), Fax: (03)3851-5840 Email: thoth@edr.co.jp
: : 홈페이지: http://www.iijnet.or.jp/edr/J_index.html
: : 講談社和英辭典: 電總硏에서 전자화 한 일영사전.대역 예문이 약38,000문 수록됨. 연구목적으로 사용할 경우는
: : 입수 가능하다.
: : 문의: 茨城縣つくば市梅園1-1-4 電子技術總合硏究所 情報科學部 橋田 浩一
: : Tel: (0298)61-5414 Fax: (0298)61-5084 Email: hasida@etl.go.jp
: : 國文學硏究資料館 岩波古典文學大系 텍스트데이터: 岩波古典文學大系 100권에 수록된 약 500여편의 일본고전
: : 자료 텍스트 파일. 연구용으로 무료 사용 가능.
: : 다운로드: http://www.nijl.ac.jp/databases/databases.htm(회원 가입 필요)
: :
: :
: : 情報處理語學文學硏究會(JALLC): http://www.mt.toita.ac.jp/~jallc/
: : 일본어학 문학 연구에 컴퓨터를 이용하는 사람들의 정보교환과 각자 작성한 학술 전자자료를 공유할 것을
: : 목적으로 설립된 단체로, 회원은 현재 1백 수십명에 달한다. 텍스트 어카이브(text archives)를 운영하면서
: : 데이터의 교환을 돕는다. 事務局 : 共立女子大学文芸学部日本文学研究室(内田保廣) e-mail :内田保廣
: : 현재 입수 가능한 자료 일람: http://yoshi01.kokugo.edu.yamaguchi-u.ac.jp/kokugo/jal_ftp.html
: : 日本語語彙大系 :NTT커뮤니케이션연구소에서 감수하고 池原悟외 8인이 공동 편집. 출판은 岩波書店에서.
: : 가격 80,000엔. CD-ROM판도 있음(60,000엔). 일본어 어휘 30만 단어를 3,000종의 의미 속성으로 분류한 일본
: : 최대의 시솔러스이다. 6,000단어에는 일영 문형 패턴(계 4,000건)이 기술되어 있다. 그밖에 등록 어휘의 통계정
: : 보도 수록되어 있으며 색인도 충실하여 일어학은 물론 언어학, 자연언어 처리(특히 기계번역)와 유의어 사전, 일
: : 본어 구문사전, 일영 표현사전으로도 사용할 수 있다.
: : 소개 http://www.kecl.ntt.co.jp/icl/mtg/resources/GoiTaikei/index.html
: : http://www.ntt.co.jp/news/news99/9909/990924.html
: : -------------------------------------------------------------------------------------------
: :
: :
: : 코퍼스의 구축 단계
: : 코퍼스의 구축 목적은 용도에 따라 다르므로 구축 방법이 정해진 것은 없다. 그러나 일반 적으로는 다음과 같은 과정을 거치게 된다.
: : ① 코퍼스의 영역 설정
: : ② 텍스트의 카테고리 설정
: : ③ 텍스트의 선정과 샘플링
: : ④ 텍스트 입력
: : ⑤ 입력 오류 고치기
: : ⑥ 텍스트 정보 부가
: : ⑦ 언어정보의 부여
: :