국사편찬위원회, 서울대 규장각, 한국학중앙연구원 등 역사통합정보시스템을 운영하고 있는 기관들은 고문서와 고역사서 등을 많이 보유하고 있다.
이러한 자료는 오래전에 책자로 발간되었기 때문에 디지털화가 가장 선행되어야 할 과제이다.
대표적으로 조선시대 승정원일기의 경우 서울대 규장각에 보관되어 있는데 디지털화하는 순서는 다음과 같다.
1. 5명의 전문가가 규장각에 들어가 초서로된 원문을 읽어 영인본이라는 정자로된 자료를 만든다.
2. 영인본의 책을 복사하여 스캐너에 읽혀 이미지 파일을 만든다.
3. 이미지 파일은 문자인식기(OCR) 소프트웨어를 통해 텍스트로 된 글자로 변환한다.
(한자의 경우 글씨체와 세로쓰기로 인해 글자로 인식률이 매우 떨어진다)
4. 잘못 인식된 글자 혹은 인식되지 않는 글자 등을 올바르게 정정하는 교정, 교열을 거친다.
5. 한자어로 된 것을 우리말로 번역한다.(일반인에게 서비스)
6. 한자어로 된 것을 영어, 일본어 등으로 번역하여 국제화시킨다.
========================================================================
의흥예씨 정축보를 대상으로 문헌록 부분을 발취하여 문자인식기(ABBYY FineReader 12 테스트 버전)을 활용하여 아래와 같이 텍스트로 변환한다.
1. 정축보 한자 원본 (정축보를 낱장으로 풀어 스캐너로 읽어 이미지로 만듬)
2. FineReader 12에 의한 문자인식 결과
ㅁ으로 된 것은 인식이 안된 것이 아니고 한자 세로쓰기가 되지 않은 것임
3. 인식결과를 가로쓰기로 바꾸어 워드프로세스로 정리
百, 甲 등 몇개의 글자만 오류가 발생
abbyy문자인식사례.pdf
첫댓글 이런 형태의 가로쓰기, 세로쓰기 텍스트로된 한글, 한자, 영어 등의 자료는 엄청난 속도와 정확도로 문자로 변환할 수 있음.
특히 한자 세로쓰기로된 것을 입력하여 교정, 교열을 거쳐 올바른 텍스트로 만드는 되는 엄청남 노력과 시간이 소요됨
정축보의 6단으로 된 본문을 효과적으로 변환하기 위한 연구가 필요함.