국립국어원이 인공지능(AI) 기반 연구에 뛰어들었다. 국립국어원은 2021년 ‘한국어-외국어 병렬 말뭉치’를 웹사이트 ‘모두의 말뭉치’에 공개한 바 있다. 국립국어원은 이에 대한 성과와 활용 사례를 공유하는 국제 심포지엄을 12월 8일 대한상공회의소에서 개최했다. 심포지엄 주제는 ‘국립국어원 한국어-외국어 병렬 말뭉치의 활용과 응용’이다.
국립국어원에 따르면, 최근 5년간 한국에 체류한 외국인 수가 연평균 약 220만 명에 달한다. 이들 중 가장 많은 국적은 중국, 베트남, 태국, 미국, 우즈베키스탄, 필리핀, 일본 순으로 나타났다. 한국의 국경과 국적의 경계가 점차 허물어지면서 언어 다양성의 필요성이 증가하고 있는 것이다.
특히 영어, 중국어, 일본어는 자료가 상대적으로 국내에 풍부하다. 하지만 베트남어, 태국어, 우즈베크어 등은 자료를 구하기 어려운 상황이다. 이러한 문제를 해결하기 위해 국립국어원은 2021년부터 베트남어, 인도네시아어, 태국어, 인도 힌디어, 캄보디아 크메르어, 필리핀 타갈로그어, 러시아어, 우즈베크어 등 8개 언어를 대상으로 한국어-외국어 병렬 말뭉치 사업을 추진하고 있다. 이 사업의 목표는 약 3000만 어절의 병렬 말뭉치를 구축하는 것이다.
AI 학습시 말뭉치는 매우 중요한 역할을 한다. 말뭉치란 자연 언어 처리를 위해 수집된 텍스트나 구어 자료의 집합을 의미한다. AI 모델은 말뭉치를 통해 언어의 구조, 문법, 어휘 등을 학습하고 이를 통해 모델은 문장을 이해하고 적절한 문장을 생성한다.
이번 심포지엄에는 말뭉치와 관련된 다양한 산학 전문가들이 참여했다. 박진호 서울대 교수, 이도길 고려대 교수, 이정수 ㈜플리토 대표, 김윤기 ㈜업스테이지 엔지니어 등이 발표했다. 또한, 한국어-외국어 병렬 말뭉치의 활용과 응용 방안에 대한 패널 토의가 진행되었다. 국립국어원은 이 심포지엄을 바탕으로 저자원 언어의 병렬 말뭉치 구축을 확대하고 국제적인 언어 연구 협력을 증진시킬 계획이다.
이 심포지엄에서는 다양한 언어권의 연구자들이 한국어-외국어 병렬 말뭉치를 활용한 연구 사례를 공유했다. 카첸 딴시리(Kachen Tansiri) 태국 쭐랄롱꼰대 시린톤태국어연구소 이사와 박경은 한국외대 교수는 한국어-태국어 번역에서의 일반적인 오류와 이를 개선하기 위한 접근 방식을 논의했다. 꾸마르 스리잔(Kumar Srijan) 부산외대 교수와 뒤웨디 아난드 쁘라까쉬 샤르마(Dwivedi Anand Prakash Sharma) 델리대 교수는 한국어-힌디어 병렬 말뭉치에서 고유명사의 음역에 대한 중요성을 탐구했다.
또한 갈라노바 딜노자(Kalanova Dilnoza) 호남대 교수는 한국어-우즈베크어 번역의 특징을 고유명사를 중심으로 분석했다. 또한, 모졸 따지아나(Mozol Tatiana) 모스크바국립외대 교수와 마블레에바 다리아(Mavleeva Darya) 모스크바국립외대 교수는 한국어와 러시아어의 화용론적 마커를 논의하며, 알드린 리(Aldrin P. Lee) 필리핀국립대 교수는 한국어-타갈로그어 병렬 말뭉치에서의 번역 오류 유형을 분석했다. 이번 사업은 한국의 언어 다양성과 국제적인 언어 교류를 촉진하는 중요한 단계가 될 것으로 보인다.