|
|
[단독]2억4000만자 '승정원일기' AI로 번역한다
=================================================================
동아사이언스
‘인공지능이 전문 번역가를 이길 수 있느냐’보다 중요한 질문
한세희 기자
2017.02.22 21:00
아마도 이세돌 9단은 바둑에서 인공지능을 이겨 본 마지막 인간으로 남을 가능성이 크다.
지난해 이세돌 9단과의 대결에서 인공지능 알파고는 바둑계의 상식으로는 이해할 수 없는 ‘떡수’들을 던졌다. 프로 기사와 해설가들은 인공지능의 실수라며 열을 올렸다.
3월 서울 코엑스에서 열린 구글 딥마인드의 바둑 인공지능(AI) ‘알파고’와 이세돌 9단의 대국 현장. - 구글 제공
그러나 그 수들은 인공지능이 수백만, 수천만 건의 기보 데이터와 자체 대결 결과를 바탕으로 이끌어 낸 ‘묘수’였다. 인류가 수천년 동안 바둑을 두어오며 발견한 정석의 틀을 불과 2년 간 바둑을 배운 알파고가 일순간에 깨버린 것이다. 바둑은 돌을 놓을 경우의 수가 우주 전체의 원자 수보다 많아 컴퓨터가 인간을 도저히 이기기 어려우리라는 사람들의 자부심은 무참히 깨졌다.
체스와 퀴즈 대결에서 인간을 이긴 인공지능은 바둑에서도 인간을 꺾었고, 의사보다 정확하게 암 진단을 내리기 시작했으며, 최근에는 지능적으로 ‘뻥카’를 날리는 프로 포커 선수들을 물리쳤다. 인간만의 지극히 인간다운 영역에서는 컴퓨터의 도전을 물리칠 수 있으리라는 것은 사람들의 희망에 불과한 것일까.
☞(관련 기사) 세계 최고의 포커 선수들, 인공지능 (AI) ‘타짜’에 20억원 털렸다!
● 번역은 아직 인간의 영역? 게임의 룰 불공정?
최근 인간이 컴퓨터에 맞서 인간의 영역을 지켜낸 쾌거(?)가 있었다. 21일 한국통역번역협회와 세종대학교 주최로 세종대에서 열린 인간과 인공지능의 번역 대결에서 인간이 압승을 거둔 것이다.
전문 번역사들은 문학과 비문학을 넘나드는 한영 문장 번역 대결에서 구글과 네이버, 시스트란의 인공지능 번역기를 압도하는 성과를 내놓았다. 인공지능의 번역 상당수는 제대로 된 문장도 이루지 못 했다. 최근 딥 러닝과 인공신경망을 도입해 인공지능 번역 품질이 수직 상승했지만, 복잡하고 미묘한 언어의 번역은 컴퓨터가 범접할 수 없는 인간의 자리임을 재확인했다.
물론 승리라기엔 멋쩍은 부분도 있다. 네이버의 경우에는 인공신경망 기반 새 번역 서비스 ‘파파고’가 아닌 기존 통계 기반 번역을 거쳐 나온 문장이 답안지로 채택되었다. 문장 전체를 통째로 인식하는 인공신경망 기반 번역은 문구나 단어 단위로 번역하는 통계 기반 방식에 비해 정확도를 획기적으로 끌어올렸다. 하지만 네이버의 인공신경망 번역은 아직 200자 미만 문장에만 쓸 수 있는 베타 단계다. 통계 기반 방식을 쓴 네이버의 번역 결과는 당연히 훨씬 더 어색한 결과를 냈다.
※ 통계 기반 번역이란? 방대한 번역 데이터를 수집, 언어의 쓰임을 통계적으로 분석해 번역하는 방법. 확률적으로 가장 널리 쓰이는 표현을 골라 번역하므로 상대적으로 단어를 단순 번역해 조합하는 문구 기반 번역보다 품질이 높다.
무엇보다 아직 인공지능이 번역 분야에서 사람 수준에 못 미침은 주지의 사실이다. 한국어와 영어처럼 차이가 큰 언어에서는 더욱 그렇다. 어떤 기업도 인공지능 번역이 인간을 대체할 수 있다고 공언하지 않는다. 여행지에서 필수적인 표현을 번역하며 사람을 보조하는 등의 역할에 일단 초점을 맞추고 있다. 굳이 대결 이벤트를 열어 인간의 우위를 과시할 필요가 있었을까 하는 생각도 든다.
21일 국제통역번역협회 주최로 열린 인공지능과 인간 번역가의 번역 대결에서 번역가와 인공지능 번역기가 내놓은 번역 문장들
행사를 참관한 전문가들은 번역 분야에서 “인간과 인공지능은 서로 보완하는 관계”라고 입을 모았다. 인간과 인공지능의 협업으로 인간의 번역 작업은 더 나아지고 더 편해질 수 있다. 사람은 번역에 인공지능을 활용해 더 큰 성과를 만들어내고, 이를 바탕으로 잠재력을 더 잘 발휘할 수 있게 될 것이다.
● 하루가 다르게 학습 속도 빨라지는 인공지능 번역
인간 번역가와 인공지능 번역기의 행복한 동거. 모두가 만족하는 결말이다. 앞으로 인공지능은 계속 발달해 더 자연스러운 번역 결과를 선보일 것이다. 인공신경망은 방대한 데이터를 모아 스스로 학습해가며 완벽한 번역에 더 가까이 다가간다.
그럼 인간은 나날이 똑똑해지는 인공지능 번역기를 그냥 편하게 부리기만 하면 되는 걸까? 지금은 우리가 인간의 영역을 확인했다며 안심하지만, (언제가 될 지 모르지만) 인공지능의 언어와 번역 능력이 완벽에 가까와질 때 우리는 도리어 인간의 고유한 영역에 대한 확신을 잃게 될 지도 모른다.
인공지능이 언어를 배우는 과정은 우리가 보통 생각하는 언어의 학습 과정과는 다르다. 인공신경망은 문장의 모든 요소를 잘게 나누어 알고리즘에 따라 분석한다. 여기에선 오직 수학과 확률만 따질 뿐이다. 인공지능이 - 고양이가 무엇인지 인지하지 못하면서도 - 딥 러닝으로 고양이의 사진을 한없이 작은 부분들로 나누어 그 관계를 학습하며 고양이를 구분하는 법을 배우는 것과 비슷하다.
구글의 인공지능이 인공신경망 방식으로 중국어를 영어로 번역하는 과정. 문장 전체를 통째로 인식한다. - 구글 제공
구글은 비교 데이터가 충분하지 않은 두 언어를 인공지능이 스스로 학습해 번역하게 하는 기술도 갖고 있다. 영어와 한국어, 영어와 터키어 사이의 비교 데이터가 충분하다면 이를 기반으로 데이터가 부족한 한국어와 터키어도 번역할 수 있다는 얘기다. 인공지능이 여러 언어들을 연결하는 일종의 메타 언어를 스스로 만들어 내 언어를 학습하고 있다는 얘기도 나온다.
● 인간 외에 언어를 이해하는 존재가 나타난다면?
이 과정에서 인공신경망 안에서 무슨 일이 벌어지는지 우리는 확신할 수 없다. 일종의 블랙박스인 셈이다. 그럼에도 인공지능은 인간과 비슷한 수준의 번역 결과물을 내놓게 될 것이다. 인간이 알 수 없는 방식으로 인간 고유의 능력인 ‘언어’에 접근해 간다.
인공지능이 인간 못지 않게 언어를 이해하고 번역하는 능력을 갖게 되었을 때, 우리는 수천년 전통의 바둑의 정석이 발견하지 못한 묘수를 시전한 알파고에 놀랐듯 ‘파파고 2050’ 버전에 충격을 받을 지 모른다.
언어는 인간을 인간으로 만드는 가장 중요한 요소 중 하나다. 그렇다면 언어를 이해하는, 그러나 인간이 아닌 존재를 우리는 어떻게 받아들여야 할까? 반대로 언어가 인간만의 능력이 아니라면, 우리가 알고 있던 인간은 도대체 무엇인가라는 질문을 던질 수도 있다.
이번 인공지능과의 번역 대결은 인간이 아직 고유의 영역을 갖고 있음을 확인하는 계기가 되었다. 그러나 조만간 우리가 인간성의 핵심이라 생각했던 것이 깨져 나갈 때가 올 수도 있다. 그때 우리는 무엇을 할 것인가. 인간이 인공지능에 ‘승리’한 날 생각해 보고 싶은 질문이다.
Copyright Ⓒ 동아사이언스. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
=================================================================
고전번역원 '인공지능 번역' 첫 도전
[동아일보]
올해부터 세계 최초로 인공지능(AI)으로 한문 고전이 번역된다.
첫 대상은 고전 번역의 최대 숙원 사업 중 하나인 ‘승정원일기’로, 앞으로 45년이 걸릴 것으로 예상되는 번역 기간을 AI 번역을 통해 27년가량 단축해 18년 뒤에는 마칠 수 있을 것으로 기대된다.
한국정보화진흥원 관계자는 “미래창조과학부가 본원을 통해 진행하는 ‘2017년 정보통신기술(ICT) 기반 공공 서비스 촉진 사업’의 과제 중 하나로 한국고전번역원의 ‘인공지능 기반 고전 문헌 자동 번역 시스템 구축 사업’을 확정했다”라고 최근 밝혔다. 예산(20억 원)도 확정돼 올 12월에는 인공지능이 한문 고전을 번역한 첫 결과물이 나올 것으로 전망된다.
승정원일기는 조선의 최고 기밀 기록으로 사료로서의 가치뿐 아니라 스토리텔링 활용 가능성도 무궁무진하지만 1994년 번역을 시작했는데도 번역률이 20%가 안 된다. 3243책, 2억4000만여 자에 이르는 방대함 탓이다. 고전번역원은 향후 일성록(日省錄)이나 재번역 중인 조선왕조실록, 일반 문집에까지 인공지능 번역을 확대한다는 계획을 갖고 있다.
구글 번역기를 비롯해 우리 시대에 쓰이는 언어를 서로 번역하는 인공지능은 이미 여럿 나와 있지만 과거 문헌을 번역해 현대와 시대적 소통을 모색하는 인공지능은 이번이 세계 최초다. 중국에 옛 한문을 현대 중국어로 옮기는 서비스가 있다고 알려졌지만 기본적으로 같은 언어여서 비교 대상이 안 된다는 게 전문가들의 의견이다.
고전번역원의 AI 번역에는 인공신경망번역(NMT·Neural Machine Translation) 기술이 적용된다. 스스로 학습하며 번역 수준을 향상시켜 나가는 딥러닝 방식으로 이세돌 9단과의 대국에서 승리한 인공지능 ‘알파고’와 크게 보면 같은 범주다. 물론 바둑 대국을 하는 알파고와는 다른 알고리즘이다.
번역 작업은 우선 기존에 전문 번역자들이 번역해 놓은 승정원일기의 영조 때 기록 20만∼30여만 문장의 ‘코퍼스(말뭉치)’를 인공지능에 입력한다. 한문 원문과 우리말 번역문을 함께 입력하기 때문에 이를 ‘병렬 코퍼스’라고 부른다. 이 같은 빅데이터가 구축되면 인공지능이 기계학습을 통해 번역 모델을 생성한다. 여기에 아직 번역되지 않은 다른 원문을 새로 입력하면 자동으로 번역 결과물을 내놓게 되는 방식이다. 조선시대라고 해도 500년에 걸쳐 사용된 용어 등이 시기별로 다르기 때문에 인공지능의 학습 자료가 되는 코퍼스도 시기별로 따로 입력해야 한다. 고전번역원 관계자는 다양한 자동 번역 방식 중 NMT를 선택한 데 대해 “정형화된 번역이 쉽지 않은 한문 문장의 맥락에 따라 인간의 번역처럼 유려하게 옮기는 데 적합할 것으로 보고 있다”라고 설명했다.
인공지능 번역이 혹시 고전번역교육원 수료생 등의 미래 일자리를 빼앗는 건 아닐까. 백한기 고전번역원 고전정보센터장은 “당장은 인공지능이 초벌 번역 수준의 결과물을 낼 것으로 보이고 주석, 원문 대조, 교감, 학술 연구 등은 지금의 인공지능이 할 수 있는 작업이 아니다”라며 “인공지능은 역자를 대체하는 게 아니라 역자의 업무를 지원하게 될 것”이라고 말했다.
인공지능의 고전 번역이 필요한 이유는 무엇보다 고전 자료의 방대함이다. 조선왕조실록 등 주요 고전 외에도 서울대 규장각, 한국학중앙연구원 장서각, 성균관대 존경각 등에 엄청난 양의 고전이 원문으로 남아 있다. 그러나 국내 전문 고전 번역자는 약 200명 수준이다.
이명학 고전번역원장은 “주요 고전의 번역에만 약 100년이 걸릴 것으로 예상되고 있어 신기술을 통해 번역 속도를 높일 필요성이 절실하다”라며 “인공지능이 우리 고전의 번역을 대폭 앞당길 것으로 기대한다”라고 밝혔다.
조종엽 기자 jjj@donga.com
=================================================================
| - 인공지능 학습시키니…45년 걸릴 고전번역까지 '척척' / SBS https://www.youtube.com/watch?v=Oly1B_W6wfM |
=================================================================
| 인공지능이 ‘승정원일기’ 번역할까 |
| https://www.dongascience.com/ko/news/16915 |
인공지능이 ‘승정원일기’ 번역할까
우아영 기자
2017.03.06 11:00
[과학동아 2017년 3월호]
수백 년 전 한문 고전을 빠르게 번역할 수 있는 인공지능이 개발된다. 미래창조과학부는 최근 ‘2017년 ICT(정보통신기술) 기반 공공 서비스 촉진 사업’의 일환으로 한국고전번역원의 ‘인공지능 기반 고전 문헌 자동 번역 시스템 구축 사업’을 선정했다.
이번에 개발하는 인공지능은 ‘신경망 기계번역(NMT)’으로 최근 구글과 네이버가 도입한 기술이다. 단어나 구문이 아닌 문장을 통째로 번역해 자연스러운 번역이 가능하다. 인공지능을 완성하면 아직까지 번역되지 않는 한문 고전을 초벌 번역하는 용도로 활용할 예정이다. 첫 번역물은 ‘승정원일기’가 될 전망이다. 1623년(인조 1년)부터 1910년(융희 4년)까지 작성한 3243권, 2억4250만 자짜리 책이다. 분량이 워낙 방대해 1994년 번역을 시작했는데도 미번역 분량이 80%에 달한다.
번역 작업은 이미 번역한 영조 때 기록 약 30만 개 문장을 한문 원문과 입력해서 인공지능을 학습시킨 뒤, 미번역 원문을 새로 입력해 번역하는 방식으로 이뤄진다. 한국고전번역원은 45년으로 예상한 번역 기간을 18년으로 단축할 수 있을 것으로 보고 있다.
Copyright Ⓒ 동아사이언스. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
=================================================================
‘승정원일기’ 등 고전 속 천문 관측, AI로 번역한다
윤신영 기자
2019.05.16 11:23
=================================================================
고천문 기록 꼼꼼히 정리한 안영숙 책임연구원 올해의 KASI인상
안영숙 한국천문연구원(KASI) 우주과학본부 책임연구원이 올해의 KASI인상을 받게 됐다. 한국천문연구원 제공
여성 천문학자이자 천문역법 현대화에 기여한 안영숙 한국천문연구원(KASI) 우주과학본부 책임연구원(사진)이 올해의 KASI인으로 선정됐다.
한국천문연구원은 이달 10일 올해 KASI인상 수상자로 안 책임연구원을 선정했다고 밝혔다. 올해의 KASI인상은 공모를 통해 추천받은 이들 중 선정위원회와 심사위원회를 거쳐 공헌도가 높은 이가 있을 경우에만 선별해 수상한다. 이번 KASI인 상은 2015년 이후 5년 만의 시상이다.
안영숙 책임연구원은 1977년 천문연에 최초 여성 천문학자로 입사했다. 이후 43년간 천문연 고유임무로 달력을 만드는 데 필요한 천문 역법 연구 현대화 작업과 대국민 서비스를 이끌어 온 공로를 인정받았다.
안 책임연구원은 삼국시대에서 조선시대까지 사서에 나타난 천문 관측 기록에 대한 자료를 데이터베이스화하며 과거 날짜를 현재 사용하는 그레고리력으로 바꾸는 '연력표'와 과거 일식 기록을 정리한 '일식도' 등 10권의 책을 펴냈다. 2014년 ‘삼국시대 천문현상 기록집’을 책으로 낸 데 이어 올해는 ‘고려 시대 천문현상 기록집’을 발간하며 한국 천문 기록 가치를 높이고 현대 천문학 연구 대중화에 기여했다.
안 책임연구원은 수상의 영광을 동료들에게 돌렸다. 안 책임연구원은 “모든 일이 그렇지만 43년간 해온 일을 훑어보니 동료들이 굉장히 많이 도와줬다”며 “동료들에게 고마운 마음이 가장 먼저 앞선다”고 말했다.
고문헌에 적힌 천문 관측 자료는 현대 연도 표기와 맞지 않아 이를 정리하는 작업이 필요하다. 고려시대 기록을 담은 고려사의 흑점 관측 기록을 보면 시기를 고려 숙종 10년 정월로 표기하는데 이를 1105년으로 바꾸는 식이다. 이를 천문현상과 비교해 그 시기에 일어난 일이 맞는지를 검증하는 것 또한 필요하다. 안 책임연구원은 “그 시기 별이 어디에 나타날 수 있다거나 하는 걸 분석해 검증하는 것은 전문 천문학자만 할 수 있는 일”이라고 말했다.
안 책임연구원은 삼국시대와 고려시대에 이어 향후 3~4년간 조선 시대 자료도 분석해 기록집을 발간하는 데 열중할 계획이다. 안 책임연구원은 “조선 시대는 조선왕조실록 외에도 승정원일기에 기록이 많은데 번역이 덜 돼 어려움이 많다”며 “여기에 쓰인 자료를 현대에 맞게 바꿔 사람들이 자유롭게 쓸 수 있도록 하는 게 목표”라고 말했다.
시상식은 이달 10일 대전 유성구 천문연 은하수홀에서 열린 창립기념일 행사에서 진행됐다.
Copyright Ⓒ 동아사이언스. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
=================================================================
