TM (번역메모리)의 의미
TM의 기본 개념?
그 핵심은 - 원문과 번역문이 '문장별' (1대1)로 짝지어져 있는 상태일 것이다.
- 예를 들어, 2(두) 열의 표 (워드 또는 엑셀 등)에서
1열 및 2열에 각각 원문 및 번역문이 한칸에 한문장씩 '짝지어진' 상태의
(워드 또는 엑셀) 파일은 거의(95%이상) TM 으로 봐도 될 것이다.
- 그것은 (예를 들어, 어떤 doc 파일을 '한글'에서 연 다음 저장하면 hwp파일이 되듯이)
위의 '짝진' 파일을 툴(Trados 등)에서 불러들인 다음 저장하면 TM (파일)이 되기 때문이다.
- 툴에서 번역작업을 했다면, 당연히 '짝진' 파일(자료)가 만들어졌을 것이고,
=> (수많은) 기존의 문서라도 - 정확히 1대1 - 짝진 상태로만 만들면 그것이 TM인 것이다.
TM 자료 확보
개인의 입장에서 TM 자료 구축(생성)에 위의 방법 이상은 (아마) 없을 것이다.
- 다만, 기존의 원문/번역문 파일을 (정확하게 1대1로 대응하는) '짝진' 파일로 만드는 효율적인 방법을 찾을 필요는 있을 것이다
(예를 들어, 툴을 이용한 '얼라인' 등 )
=> 빅데이터를 이용한 엄청난 TM 구축을 진행중인 일부 다국적 기업(구글, SDL 등)은
이용 가능한 (유엔, 정부, 각종 기관 등의) 원본/번역문 파일뿐만 아니라 하드카피 스캔, 개인의 온라인 툴작업 자료 등에서 자료를 수집한다 - { 이래 '유튜브' 참조 }
TM과 기계번역의 통합
- 동영상(유튜브)에서 보듯이 (개인의 경우와는 달리) 빅데이터에 구축되는 TM은 자체의 통계시스템, 알고기즘 등을 이용여
수많은 경우의 수를 만드는 것으로 보인다.
- 이러한 (통계적인) 데이터와 가장 기본인 기계변역의 통합이 소위 자동번역일 것이다.
- 그리고 그 정확성은 데이터의 크기에 비례하여 계속 진화할 것으로 보인다.
TM의 활용
- 개인(데스크탑) 보유 TM의 경우, 툴 작업창에서 번역할 문장에 커서를 놓으면, 동일한
또는 (70~80%이상) 유사한 문장의 번역문장이 선택되어 자동을 입력되며,
(번역툴 창은, 기본적으로 2(두) 열로 되어 있으며 1열은 원문이 칸별 한문장씩 들어있고, 2열은 공란으로 번역문 작업창이다)
이를 좌측 원문과 대조하며 번역작업을 하게된다.
=> TM의 경우 동일한 (또는 유사한) 문장이 없을 경우 공란이 유지되지만, 통합(자동) 번역의 경우에는 (최악의 경우 기계번역이 적용되더라도) 언제나 그 결과를 보여준다.
통합(자동)번역 활용
- 툴(trados)을 사용하여 작업하는 경우, 온라인으로 해당 서버(예: 구글, SDL)에 접속한 후 활용 가능하며, 그 설정 방법 및 사용절차는 개인(데스크탑) TM에 대한 그것과 거의 같다
(다만, 사용전 회원 가입 및 유료인증(구글의 경우) 절차가 필요하다).
- 이(유료) 사용을 원하지 않는 경우에는, 구글웹 번역홈의 기본창에서 번역하여 그 결과를 번역툴에 붙혀넣는다
(본인의 상당한 여러 차례 경험상 유무료 번역결과의 차이는 없었다).
- 번역툴이 없는 경우, 번역홈의 '기본창'을 활용하거나 '구글번역키트'를 활용한다.
* '구글번역키트'(GTT, google trans kit): 번역홈의 기본창 내(하단)에 위치한 아이콘을 클릭하여 진입한다. 그리고,
그 사용 방법 (및 개념)은 일반 '번역톨'과 유사하지만, 웹상의 도구라 반응속도가 많이 느리다.
통합(자동) 번역의 정확도
- 다국적 기업(구글, SDL 등)에서 운영하는 빅데이터 및 그 가공 알고리즘은 세계의 언어를 대상으로 한다 (예를 들어, 구글의 그것은 세계 최고라고 한다).
- 중국어/영어의 경우 상대적으로(한영에 비해) 그 엄청난 자료 및 더 비슷한 어순으로 인해,
이미, 비지니스 영어 번역에서 번역가의 역할은 통합체계 번역문 최종 확인 정도라는 기사가 전해진다.
- 한국어/영어의 경우, 위 수준은 아니지만 그 수준 넘어를 향해 진화하고 있음은 분명해 보인다.
이미, 영한 논문등의 상당히 길고 학술적인 문장의 경우에도 (구, 절 등으로) 적당히 나눠서/토막쳐서 돌려보면, 그 결과에 놀라곤 한다 (이 나누는 도구로는 '세미콜론(;)'이 유용하다).
번역툴 활용 (팁)
개인적으로는 번역주제(공학, 인문 등)와 관계 없이 툴 사용을 즐겨한다.
- 그 주된 이유는, 작업중 원문과 번역문의 편리한 대조, 및 번역문 출력시 원본(워드파일) 포멧의 거의 동일한 유지이다.
- 또다른 이유는 TM, TB(텀베이스), 및 통합번역의 융통적인 활용 때문이다.
[ 예를 들어, 상당한 분량의 서적 번역시 앞쪽에서 번역한 내용은 (뒤쪽 번역에서) 자동으로 TM 기능을 하게 되며,
앞쪽의 생소한 용어도 (TB로 생성시) 뒤쪽에서 TM과 유사한 기능을 하기 때문이다 ].
[또한, '통합번역'의 활용에서, 단문의 경우 그대로 (또는, 조금 수정하여) 쓰거나, (원문이 길고 학술적이어서) 사용이 불가한 경우
필요에 땨라, 적당히 토막친 것의 결과가 상당히 유용한 경우가 종종 있기 때문이다 ].
끝으로,
번역은 제2의 창조라는 말이 있다. 그 취지는 충분히 이해하지만..
- (이론적으로 가정하여) 과거의 거의 모든 번역자료가 TM으로 제공되는 환경 하에서 작업한 결과물과,
- 온전히 나의 능력(경험, 유추,창조력 등)으로 작업한 결과물이 얼마나 차이가 날까.
==> 향후 전업 번역사 역할의 핵심은 이 갭을 메우는 일이 될것으로 생각된다.
[ 추신 ]
- 이상의 내용이 번역분야의 기존 또는 새로이 진입하려는 분들께 참조가 되었으면 하는 바램입니다.
- 그리고, 편의상 평어체로 작성함을 양해바랍니다.
밀레..
※ 유튜브: https://goo.gl/0Crjjp
첫댓글 전 세계에 있는 TM에 축적된 data가 얼마나 될까요. 전 세계에 존재하는 기존의 문장 갯수는 몇개나 될까요?
사하라 사막에 있는 모래알을 다 합친 수보다 클까요? 태평양 바다에 존재하는 물분자의 갯수보다 클까요? 지구상의 모든 원자(수소, 산소, 질소, 나트륨, 염소, 저는 화학 전공자가 아니라서 잘 모르지만)를 다 합친 수보다 클까요?
지구를 넘어 전 우주의 원자를 다 합치면 그 수가 대략 10^80~90(동그라미 갯수가 80~90개 정도된다는 의미입니다) 정도 된다고 하네요.
겨우 45개의 숫자 중에서 6개의 숫자를 추출하여 만들어 낼 수 있는 경우의 수가 약 800만개나 되죠(이게 로또입니다.)
그렇다면, 예를 들어 45,000개의 단어 중에서 20개의 단어를 추출하여 만들어 낼 수 있는 경우의 수는 몇개나 될까요? 약 10^73개(1에 동그라미가 73개) 정도 됩니다.
(문장은 1개의 단어로 만들 수도 있고 20개가 넘는 단어로 이루어진 문장도 있고 한 문장에 같은 단어가 여러개 나올 수 있고, 단어의 순서가 바뀌면 또 다른 문장이 되므로 사실 이보다도 훨씬 더 큰 수가 나오겠죠.
저는 수학 실력이 딸려서 거기까지는 계산하기 힘드네요. 여하튼, 이론적으로 만들 수 있는 문장의 갯수는 말 그대로 무한하다고 합니다
@살다보면 기계번역 해 놓은 것을 편집해 달라는 의뢰를 받은 경험이 있습니다. 하다가 중간에 던져 버렸습니다.
문장 토막내서 구글번역기 입력하고 편집해보진 않았지만 아마 그 짓거리 하는 것보단 아예 처음부터 직접 번역하는 것이 훨씬 시간 단축될 것이라고 생각합니다.
기계가 번역한 것을 최종 확인하는 것이 과연 어느 정도의 노력을 필요로 할까요?
도저히 감수할 수 없는 수준 즉, 오역율이 20% 이상인 것은 폐기하고 다시 번역한다고 하죠. 80%가 아깝지 않나요. 왜 그럴까요?
차라리 다시 번역하는 것이 더 효율적이기 때문입니다.
구글번역기 오역율은 몇%나 될까요? 그야 알 수 없지만 아마 20% 안으로 들어오긴 힘들겁니다.
@살다보면 기계는 사진을 찍습니다. 정말 정확하죠. 똑같습니다. 순식간에 똑같은 모습을 담아냅니다. 사람이 똑같이 그려낼라면 며칠 걸릴 텐데요.
사람이 몇 달 걸려 계산 할 것을 기계는 몇초만에 해치웁니다. 입이 딱 벌어질 일이죠. 촛불만 보다가 처음으로 전깃불을 본 사람처럼 말이죠. 세상에 어찌 이런일이 하면서요.
기계가 달나라를 넘어서 화성까지 가니마니 하니, 세상에 기계가 못할 일은 아무것도 없는 것처럼 보입니다.
잘 아시다시피 언어는 기호입니다.. 빨간불은 정지, 파란불은 진행. 이게 기호입니다. 기호들을 하나둘 만들기 시작해서 그것이 언어가 된 것입니다. 아빠, 엄마, 해, 별, 바람, 비, 눈, 사과, 배, 호두, 호랑이, ...
@살다보면 기계는 사진을 찍지만 사람은 언어로 표현합니다. 정확도와 시간은 단연 카메라가 우수하겠죠. 그러나, 사람이 언어로 표현한 문장과 카메라로 찍어낸 사진은 차원이 다르죠.
사진은 그대로 담아낸 것이지만, 문장은 사람이 기호를 가지고 만들어 낸 것입니다 (어제 저녁에 어떤 초등학생이 쓴 짧은 일기 한 편이 노벨문학상 수상작품보다 더 훌륭하다고 주장할 수도 있는 것입니다..)
주어진 기호를 가지고 각자 나름대로 만들어낸 문장을 기계가 이해하기는 어렵습니다.
@살다보면 그래서 기계는 문장을 스스로 이해하는 것을 포기하고 통계적 기법을 사용하는 것 같습니다.(기계의 막강 능력을 이용해서 그깟 문장, 만들 수 있는 문장을 모조리 다 만들어놓고 빼내어 쓰지 뭐, 그런데 그 수가 장난이 아니죠, 말 그대로 무한한데,)
그런데 문장이라는 것이 워낙에 풍부해서 통계적 기법이 과연 얼마나 효과를 낼지......
기계는 그냥 직역입니다.한개단어가 여러가지 뜻이 있는데 상황에 따라 그뜻이 바뀌죠 기계는 그냥 그중의 한뜻을 가져다 번역합니다.기계나 화확 분야의 번역정화도는 어느정도 되곗지만 다른 분야는 오역률이 엄청 심하죠.
구글 번역을 사용해본 적이 있는데,기계번역치고는 아주 훌륭했습니다. 10년 후에는 굳이 번역회사가 필요 없는 시대가 되지 않을까 하는 불안한 맘이 들 정도로. (번역을 노후 직업으로 생각하고 있음)
노후까지 계획하신다면, 장기적으로 통합(자동)번역이 차지할 영역과의 차별화에 관심을 두시면 좋을 듯하군요..