@ news.vanderbilt.edu 인간의 뇌에서 영감을 얻은 컴퓨터 알고리즘인 신경망(neural network; 참고 1) 덕분에, 언어자동번역은 장족의 발전을 했다. 그러나 그러한 신경망을 훈련하려면 엄청난 양의 데이터가 필요하다. 즉, 한 사람이 언어를 번역하는 과정을 배우려면 수백만 개의 문장대문장번역(sentence-by-sentence translation) 사례가 필요할 것이다. 이제 "신경망은 병렬문장들(parallel texts) 없이도 번역을 학습할 수 있다"고 밝힌 논문이 두 편 발표되었다. 이는 각양각색의 언어로 작성된 문서들에 대한 접근성을 향상시킬 수 있는 놀라운 진보라고 할 수 있다. "한 사람에게 중국어책과 아랍어책 각각 여러 권씩 주고, 중국어를 아랍어로 번역하는 방법을 스스로 배울 것을 요구한다고 상상해 보자. 단, 그중에서 내용이 겹치는 책은 하나도 없다고 하자. 그건 당연히 불가능해 보인다"라고 두 논문 중 하나의 제1저자인 스페인 바스크 대학교(UPV)의 미켈 아르테체 박사(컴퓨터과학)는 말했다. "그러나 우리는 컴퓨터가 그 일을 해낼 수 있음을 증명했다."
대부분의 머신러닝, 즉 신경망 등의 컴퓨터 알고리즘이 경험으로 배우는 과정은 일종의 '감독' 내지 '지도'를 받는다. 즉, 컴퓨터는 하나의 추측을 한 후에 정답을 제시받고, 틀리고 맞음에 따라 자신의 번역방법을 바로잡거나 강화하게 된다. 하나의 컴퓨터가 예컨대 영어와 불어를 양방향으로 번역할 경우, 이런 방법은 잘 작동한다. 왜냐하면 양쪽 언어로 작성된 문서들이 많이 존재하기 때문이다. 그러나 희귀한 언어의 경우에는 그렇지 않으며, 설사 많이 사용되는 언어일지라도 병렬문장이 존재하지 않는다면 사정은 마찬가지다.
이번에 발표된 두 편의 논문들은 내년에 열리는 표현학습에 관한 국제 컨퍼런스(International Conference on Learning Representation)에 제출된 것으로 아직 동료심사를 받지 않았는데, 공통점이 하나 있다. 그것은 자율학습, 즉 무감독 머신러닝(unsupervised machine learning; 참고 2)이라는 방법을 사용한다는 것이다.
무감독 러닝머신의 자율학습 방법은 다음과 같다: (1) 먼저, (추측이 맞았다고 이야기해 주는) 인간 교사의 도움 없이 이중언어사전(bilingual dictionary)을 구축한다. 이것이 가능한 이유는, '단어들끼리 무리 짓는 방법'이 모든 언어에서 매우 비슷하기 때문이다. 예컨대 '책상'과 '의자'를 의미하는 단어들은 모든 언어에서 - 바늘 가는 데 실 가듯 - 세트로 사용되는 경우가 많다. 그러므로 컴퓨터가 이런 동시발생(co-occurrence)에 관한 지도를 작성한다면(참고 3), 상이한 언어에 대한 지도들은 서로 비슷할 것이다. 즉 이 지도를 거대한 도로지도라고 하고, 각 단어들을 도시의 이름이라고 하면, 도시의 이름들만 다를 뿐 두 지도는 동일하다고 볼 수 있다. (2) 다음으로, 일단 두 장의 지도가 완성되었다면, 컴퓨터는 한 장의 지도를 다른 지도 위에 덮어씌우는 최선의 방법을 이해할 수 있다. 어라, 이중언어사전이 완성되었네? 이게 이중언어사전이 아니면 뭐란 말인가?
이번에 발표된 두 편의 논문에서, 연구진은 매우 비슷한 방법을 이용하여 '문장 수준의 번역'이 가능함을 보여줬다. 두 연구진 모두 두 가지 훈련전략을 사용했는데, 하나는 역번역(back translation)이고 다른 하나는 노이즈 제거(denoising)다. (1) 먼저 역번역의 경우, A 언어의 한 문장을 B 언어로 대충 번역한 다음, 이렇게 만들어진 B 언어의 문장을 A 언어로 다시 번역한다. 만약 역번역한 결과가 오리지널과 다르다면, 신경망은 - 다음 번에는 원문에 좀 더 가깝게 번역할 수 있도록 - 번역방법을 바꿀 것이다. (2) 노이즈 제거의 경우 역번역과 비슷하지만(A → B → A), 번역한 문장에 노이즈(단어의 재배열 또는 제거)를 추가한 다음 원어로 재번역한다는 점이 다르다. 이처럼 역번역과 노이즈 제거라는 두 가지 전략을 병행하면, 신경망으로 하여금 언어의 심오한 구조를 터득하게 할 수 있다.
두 연구팀이 사용한 기법에는 약간 다른 점도 있다. UPV 시스템은 훈련 도중에 역번역을 좀 더 빈번하게 사용하는 데 반해(참고 4), 피츠버그의 페이스북에 근무하는 기욤 램플 박사(컴퓨터과학)가 개발한 시스템은 특별한 단계를 하나 더 추가했다(참고 5). 즉, '한 언어의 문장을 추상성이 높은 표현으로 인코딩한 다음, 다른 언어로 디코딩한다'는 점에서 두 시스템은 같다고 볼 수 있지만, 페이스북 시스템의 경우에는 중간언어(intermediate language)의 '진정한 추상성'을 검증하는 절차를 추가했다는 점이 다르다. 아르테체 박사와 램플 박사는 모두, 상대방의 논문에서 사용한 기법을 응용함으로써 자신의 결과를 향상시킬 수 있다는 데 동의했다.
약 3천만 개의 문장으로 이루어진 동일한 모집단에서 수집한 영어와 불어 문장을 양방향으로 번역한 결과를 보면, 두 시스템의 결과를 간접적으로 비교할 수 있다. 두 시스템은 모두 BLEU(Bilingual Evaluation Understudy) 평가에서 양방향으로 약 15점씩을 받았는데, 이는 지도를 받는 구글번역(약 40점)이나 인간(50점 이상)에 비할 바는 아니지만 직역(word-for-word translation)보다는 우수하다. 저자들에 따르면 반지도(semisupervised) 개념을 도입할 경우, 예컨대 훈련 단계에서 몇 천 개의 병렬문장들을 투입한다면 성능이 쉽게 향상될 거라고 한다.
"우리가 개발한 시스템을 이용하면 그다지 많은 병렬문장 없이도 언어간 번역이 가능하다. 특히, 신문보도와 같이 정형화된 문장의 경우, '영어 ↔ 불어'와 같은 흔한 양방향 번역에 큰 도움이 된다. 그러나 당신은 거리의 슬랭이나 의학용어와 같은 새로운 영역에 도전하고 싶어할 것이다"라고 아르테체와 램플은 말했다. 그러나 아르테체의 공저자인 에네코 아기레는“무감독 러닝머신은 아직 걸음마 단계에 있다. 이제 새로운 길에 첫걸음을 내디뎠을 뿐이므로, 우리가 어느 방향으로 갈지 우리도 잘 모른다"라며 속단하지 말 것을 경고했다.
"컴퓨터가 인간의 지도를 받지 않고서도 번역을 배울 수 있다는 것은 충격이다"라고 마이크로소프트 베이징 지사의 디 헤 박사(컴퓨터과학)는 말했다. 그는 두 논문 모두에 영향을 미친 논문을 발표한 인물이다(참고 6). "두 팀의 논문에 거의 동시에 arXiv에 업로드되었고, 방법이 매우 비슷하다니 놀랍다. 그러나 어떻게 보면 그건 좋은 일이다. 그도 그럴 것이, 우리의 접근방법이 옳은 방향을 향하고 있음을 방증하기 때문이다"라고 아르테체는 말했다.
※ 참고문헌 1. http://www.sciencemag.org/news/2017/07/how-ai-detectives-are-cracking-open-black-box-deep-learning 2. http://www.sciencemag.org/news/2017/09/what-artificial-brains-can-teach-us-about-how-our-real-brains-learn 3. http://www.sciencemag.org/news/2017/04/even-artificial-intelligence-can-acquire-biases-against-race-and-gender 4. https://arxiv.org/abs/1710.11041 5. https://arxiv.org/abs/1711.00043 6. http://papers.nips.cc/paper/6469-dual-learning-for-machine-translation
※ 출처: Science http://www.sciencemag.org/news/2017/11/artificial-intelligence-goes-bilingual-without-dictionary |