|
인공지능, 한문 고전을 자동으로 번역한다.
한국고전번역원 고전정보센터 백한기 센터장
한국고전번역원은 한국천문연구원과 함께 ‘한문 고전 자동번역 서비스’를 개발하고, 지난 1월부터 시범 운영하고 있다. 한문 고전 자동번역 서비스가 주목받는 것은 고전 번역에 인공지능(AI) 기술을 최초로 도입했기 때문이다. 2017년 개발을 시작한 한문 고전 자동번역 기술은 그간 발전을 거듭해 우리 역사의 최대 기록물인 『승정원일기』와 함께 천문 고전 원문까지 번역하는 수준에 이르렀다. 한문 고전 자동번역 기술은 고전번역 사업의 미래를 어떻게 바꿀까. 고전번역에 인공지능 기술을 도입한 배경과 그 의의를 한국고전번역원 고전정보센터 백한기 센터장에게 들어 본다.
국내 최초의 고전 자동번역 서비스
<<쉼표, 마침표.>>
한국고전번역원에서 국내 최초로 고전 자동번역 서비스를 개발했습니다. 첫 번째 고전으로 『승정원일기』를 선택한 이유는 무엇입니까?
백한기
한국고전번역원에서 올해 예정한 고전 번역 목표량이 119책입니다. 그중 절반인 61책이 『승정원일기』죠. 『승정원일기』는 조선 시대 왕명 출납을 관장했던 승정원에서 국정 관련 내용을 매일 일기 형태로 기록한 책입니다. 안타깝게도 임진왜란과 이괄의 난 등을 겪으며 화재로 소실되어 현재는 1623년(인조 1년)부터 1910년(순종 4년)까지 총 277년의 기록만이 남아 있죠. 그런데도 그 분량이 책으로는 3,245권, 글자로는 2억 4,300만 자에 이를 만큼 단일 서종으로는 세계에서 가장 많은 양을 자랑합니다.
1999년 유네스코(UNESCO) 세계기록유산으로 지정된 후, 『승정원일기』 번역에 대한 국민적 관심도 커졌는데요. 국회에서 조기 번역 방안이 없는지를 물었을 정도입니다. 『승정원일기』가 이렇게 주목받는 궁극적인 이유는 문헌으로서의 가치 때문입니다. 왕명의 출납은 물론 각종 행정 사무와 의례(儀禮), 심지어 날씨에 이르는 모든 사실이 자세하게 기록되어 있다 보니, 한국 역사를 가장 방대하게 담은 사고(史庫)의 역할을 하죠.
『승정원일기』 번역은 이미 1994년도부터 진행되어 왔습니다. 물론 지금까지는 사람이 일일이 한문 문장을 번역했죠. 전체 번역서 예상 책 수 2,395책 가운데 현재 713책이 번역되었는데요. 27년 동안 약 30%가 진행된 것입니다. 사람이 번역하는 속도로는 앞으로도 약 30여 년이 지나야 전체를 번역할 수 있는 셈입니다.
이런 이유로 『승정원일기』에 가장 먼저 자동번역 기술을 적용하게 됐습니다. 그 밖에도 인공지능 학습 데이터로 삼을 수 있는 번역 성과물이 가장 많다는 점, 내용이 반복적이고 문장이 정형화되어 있어 자동번역에 적합하다는 점 등도 선정 이유입니다.
▲ 『승정원일기』 (유네스코 한국위원회 소장)
<<쉼표, 마침표.>>
고전을 자동으로 번역하는 것은 외국어를 번역하는 것과 어떻게 다릅니까.
백한기
자동번역 모델을 만들기 위해서는 기본적으로 학습 데이터가 필요합니다. 원문과 번역문을 일대일로 일치시켜 병렬 구조의 문장을 만드는데요. 말뭉치(코퍼스)라고도 부릅니다.
포털의 외국어 자동번역 서비스는 우리가 현재 사용하는 언어를 대상으로 합니다. 이와 달리 한문 고전의 언어는 이미 사어(死語)가 되어 버렸죠. 그 때문에 고전 문헌을 자동으로 번역하려면 먼저 시기마다 사용했던 어휘나 문장 형식들을 모두 인공지능에 학습시켜야 합니다. 이 과정에서 실로 어마어마한 양의 말뭉치가 필요합니다.
더욱이 한문은 표의문자입니다. 하나하나의 글자가 낱낱의 뜻을 가지고 있고, 한 글자가 다양한 뜻을 갖기도 하죠. 글자 하나에 서른 개가 넘는 뜻이 있는 것도 있습니다. 이런 글자는 어떤 글자와 조합 되느냐에 따라 전혀 다른 뜻으로 해석되죠. 그렇기 때문에 외국어 번역을 할 때보다 많은 양의 말뭉치가 필요합니다.
고전번역원에서 제공하는 자동번역 서비스도 아직은 『승정원일기』를 시범 번역하는 정도이고, 정확도에서도 개선해야 할 부분이 많습니다. 『승정원일기』 대신 한시나 출처 없는 비문의 글을 넣으면 번역이 잘 안 돼요. 인공지능이 『승정원일기』의 데이터로만 학습했기 때문이죠.
사실 한문 번역과 관련해 일반 대중이 더 궁금해할 만한 것은 할아버지 때부터 보관했던 문집이나 족자, 좋은 글귀나 문서의 내용 등일 겁니다. 이런 것까지 번역하는 수준에 이르려면 더 다양한 자료의 원문과 번역문을 모두 수집해 학습 데이터를 확보해야 합니다. 또한 한시, 산문, 일기 등 갈래별로 말뭉치를 모아 각각의 자동번역 모델을 만들어야 하죠. 그래야 더 정확한 번역 결과를 얻을 수 있습니다.
122만 개 말뭉치로 자동번역 모델 완성하다
<<쉼표, 마침표.>>
『승정원일기』 번역에 쓰이는 인공지능 기술을 소개해 주세요.
백한기
『승정원일기』 자동번역 서비스에는 국사편찬위원회에서 구축한 『승정원일기』 원문과 한국고전번역원이 번역한 영조·인조·고종 시대의 번역문 약 122만 개가 병렬 말뭉치로 사용됐죠. 여기에 주요 포털사이트에서 채택하고 있는 ‘인공신경망 기반 번역(Neural machine translation, NMT)’ 기술을 적용해 번역 모델을 개발했습니다. 인공신경망 기반 번역 기술은 단어와 구문을 쪼개어 번역했던 기존의 ‘통계 기반 번역’(SMT)과 달리, 문장을 통째로 파악해 번역하는 최신 기술입니다. 인공지능이 어순과 문맥의 의미·차이까지 반영하기 때문에 더 정확한 번역 결과를 얻을 수 있죠.
첫해에는 원문 300자 미만의 병렬 말뭉치를 만들어 인공지능에 학습시켜 보았습니다. 그랬더니 짧은 문장은 잘 번역하는데, 긴 문장은 번역하지 못하더라고요. 그래서 2차연도에는 원문 300자 이상의 병렬 말뭉치를 최대한 많이 만들고, 당시 소개된 기계학습 기술을 다 동원했습니다. 또한 한문 번역자와 자연어 처리 전문가들이 번역 결과를 반복해 평가하면서 한문 특성에 맞도록 조금씩 알고리즘을 변경해 가면서 번역 모델링 작업을 했죠. 그 결과 마지막 3차연도에는 『승정원일기』 자동번역 기술에 3만 개의 천문 고전 말뭉치를 더해 ‘천문 고전 자동번역 모델’까지 개발할 수 있었습니다.
<<쉼표, 마침표.>>
한문 고전 자동번역 기술을 개발하기까지 여러 시행착오도 있었을 것 같습니다.
백한기
사실 전문 번역자들도 한문 고전 번역에는 어려움을 느끼고 있고, 번역 결과에 대한 이견도 많습니다. 이런 이유로 한문 고전 자동번역은 불가능한 일이라고 생각한 적도 있었죠. 어쩌면 시도 자체가 무모했는지도 모르겠습니다. 모두가 반신반의하는 가운데 사업에 착수했고, 사업 첫해에 35만 개의 말뭉치를 구축했습니다. 하지만 이것만으로는 양이 절대적으로 부족했기 때문에 당시 개발 업체가 보유하고 있던 45만 개의 중한(中韓) 말뭉치를 활용했습니다. 중국어와 한자의 근간이 같으니 학습 데이터로 유용하지 않을까 하고 생각했던 거죠. 하지만 성능 향상에는 크게 도움이 되지 않았습니다. 당시 추가한 중한 말뭉치는 중한 번역기에 사용되던 것이라, 뉴스 기사 등 현대 문장 위주였죠. 그래서 45만 개라는 상당히 많은 데이터를 활용했음에도 고전에는 맞지 않았던 것입니다.
결국, 중한 말뭉치를 모두 걷어 내고 『승정원일기』의 말뭉치를 최대치로 활용했습니다. 그래도 부족한 학습 데이터를 확보하기 위하여 승정원일기와 한국 고전 종합 디비(DB)에 수록된 어휘들을 추출하여 학습 데이터로 활용하고, 한문이 옛날 중국 고전에서 비롯되었으니 『사서삼경(四書三經)』이 기계학습에 도움이 될 것 같아 말뭉치로 만들어 학습을 시켰습니다. 이렇게 했더니 미세하지만, 성능이 향상되었습니다. 2~3차 사업에서도 상당한 예산을 들여 누적 122만 건의 말뭉치를 확보했고, 총 101회의 모델링 작업을 거쳐 최종 ‘승정원일기 자동번역 모델’을 만들었습니다. 현재 대국민 서비스로 공개한 바로 그 모델이죠.
이뿐만이 아닙니다. 『승정원일기』가 약 300년의 역사를 다루고 있다 보니 시대마다 표현과 문장 구조가 다 다릅니다. 각 시대에만 쓰인 문장 구조가 있는 것이죠. 그래서 『승정원일기』가 어느 시대에든 번역될 수 있게 하려면 시대별 데이터가 필요했습니다. 이렇게 각 시대의 문장을 모두 학습 데이터로 사용하면서 시대 간 간극을 해소하기도 했습니다.
▲ 한국고전번역원 전경
<<쉼표, 마침표.>>
인공지능 기술로 한문 고전을 번역하는 것이 학계에 어떤 의미가 있을까요?
백한기
한문 고전 번역자를 양성하려면 보통 6~7년이 걸립니다. 한문 고전의 문자적 특수성 때문이죠. 대학에서 한국학 관련 분야를 전공하고도 고전번역교육원에서 연구 과정 3년, 연구 과정 2년, 졸업 후 시역 과정 1~2년을 거쳐야 비로소 한문 고전 번역자로 활동할 수 있습니다. 사정이 이렇다 보니 전문 번역자가 많지 않습니다. 이번 『승정원일기』 번역에 참여한 전문 번역자가 70~80명 정도, 『조선왕조실록』을 비롯한 문집, 특수 고전을 번역하는 사람까지 통틀어도 150~200명 정도입니다. 이들이 연간 150~180권의 책을 번역하는 것입니다.
이처럼 한문 고전 번역 자체가 특수한 분야이다 보니, 인공지능 기술로 자동번역을 한다는 사실을 쉽게 받아들이거나 번역의 결과를 온전히 받아들이지 못하는 사람들도 많습니다. 아직은 『승정원일기』의 자동번역 결과도 완벽한 수준이 아니니 앞으로의 가능성을 믿기가 더 어려울 수도 있죠.
그런데도 고전 번역 자동기술 개발을 위해 노력하는 것은 이것이 향후 한국학 분야의 학문 연구나 관련 콘텐츠 개발에 큰 도움이 될 것이기 때문입니다. 전문 번역자의 도움 없이는 접근하기 어려웠던 우리 역사 기록물을 대중이 더 쉽게 살펴볼 수 있고, 5천 년 우리 역사의 기록과 주옥같은 고전 작품 속에서 새로운 사실과 지식, 문화 정보를 얻을 수 있을 것입니다. 우리 후손은 물론 외국에까지 우리 문화의 우수성을 널리 알리고 손쉽게 입증할 수 있는 때가 올 것이라 기대합니다.
▲ 한국고전번역원에서 번역 작업을 하는 모습
자동번역, 한문 고전 연구와 대중화에 기여할 것
<<쉼표, 마침표.>>
말씀하신 것처럼 『승정원일기』는 ‘세계 최대 규모의 역사 기록물’로 유네스코 세계기록유산에도 등재되었습니다. 하지만 그 내용이 대중에게는 생소할 것 같은데요. 『승정원일기』 속 재미있는 이야기 한 가지만 소개해 주세요.
백한기
『승정원일기』에는 조선 시대 정치, 경제, 사회, 문화와 관련한 내용이 풍부하게 실려 있어 조선 시대 연구나 역사 문화 콘텐츠 개발에 활용될 가능성이 매우 높습니다. 그중 잘 알려지지 않은 사건 한 가지를 소개하면 영조 52년(1776년) 2월 4일 기록에 당시 왕세손이었던 정조가 할아버지인 영조에게 생부 사도세자의 죽음에 대한 기록을 『승정원일기』에서 지워 달라고 요청한 일입니다. 당시 왕세손 자격으로 국정을 맡고 있던 정조는 아버지 사도세자의 일로 백관들 대하기가 불편할 뿐 아니라 많은 사람이 『승정원일기』를 읽고 내용을 전할 수 있으니 자신의 마음이 애통하고 곤궁하다며 기록을 삭제해 달라고 상소를 올렸죠. 조심스럽지만 강한 어조의 상소를 읽은 영조는 정조의 요청을 받아들여 기록을 지우도록 지시합니다. 이렇게 해서 사도세자의 죽음과 관련한 내용이 『승정원일기』에서 사라졌습니다.
▲ 정조의 상소문을 발췌해 자동번역기로 번역한 내용
<<쉼표, 마침표.>>
자동번역 서비스를 개발하는 과정에서 기억에 남는 일화가 있으신지요.
백한기
자동번역 서비스를 개발하는 과정에서는 일화라고 할 것이 별로 없습니다. (웃음) 오히려 사업을 시작하게 된 동기가 일화에 가까울 것 같네요. 2016년 이세돌과 알파고의 바둑 대결로 전 세계가 시끌시끌했을 당시, 고전번역원에서도 소위 ‘알파고 특강’을 받은 적이 있습니다. 강의를 해 주셨던 분이 서울과학종합대학원의 빅데이터 전문가인 김진호 교수님이었는데요. 강의 끝에 한문 고전도 인공지능 기술을 활용해 번역할 수 있을 것 같다는 말씀을 남기셨죠. 사실 그때까지만 해도 우리 모두 그게 가능할 거라고 생각하지 않았습니다.
이후 동아일보와의 인터뷰에서 김진호 교수님이 이 이야기를 다시 꺼내셨습니다. ‘한문 번역을 꼭 사람이 해야 한다는 것도 고정관념이다. 이미 번역된 내용과 그 원문을 컴퓨터에 학습시키면 고전도 자동으로 번역할 수 있다’는 거였죠. 당시 과학기술정보통신부의 사무관이 그 기사를 읽고 과제 공모에 참여해 볼 것을 고전번역원에 제안했고, 그것을 계기로 ‘인공지능 기반 고전 문헌 자동번역 시스템 구축 사업’이 시작 됐습니다. 빅데이터 전문가가 우연히 던진 화두가 오늘날의 성과로까지 이어진 것이죠.
많은 사람이 삼국지를 비롯한 중국 고전과 서양 고전에는 익숙한데 정작 우리 고전은 잘 읽지 않습니다. 번역서가 상대적으로 적다 보니 접근이 어렵고, 번역서가 있더라도 문장이 난해하여 이해하기가 어려운 것이 대부분입니다. 그렇기 때문에 고전번역원에서도 한문 고전을 대중의 눈높이에 맞게 현대화해서 번역하려는 노력을 지속하고 있습니다.
자동번역 서비스를 개발하는 것 또한 이와 같은 노력의 일환입니다. 자동번역 서비스가 보편화하면 사람이 일일이 번역하기까지 걸리는 시간을 절약하고, 누구나 쉽게 궁금한 내용을 찾아볼 수 있죠. 고전번역원의 표어가 ‘우리 가슴에 우리 고전을’입니다. 국민의 가슴에 우리 고전을 심어 주는 것이 우리가 하고자 하는 사업의 궁극적인 방향이고, 이런 노력을 통해 그 목표를 완수해 나갈 수 있을 거라고 생각합니다.
그러니 어렵겠지만 우리 고전에 더 관심을 두고 많이 읽어 보시기를 바랍니다. 그러면 우리 조상들이 남긴 기록 문화가 얼마나 위대한지를 확인하고 자부심도 느낄 수 있을 겁니다.
글: 김은주
사진: 김영길
|