책자로된 자료 =＞ 디지털 자료로 변환 (문자인식 툴)

국사편찬위원회, 서울대 규장각, 한국학중앙연구원 등 역사통합정보시스템을 운영하고 있는 기관들은 고문서와 고역사서 등을 많이 보유하고 있다. 이러한 자료는 오래전에 책자로 발간되었기 때문에 디지털화가 가장 선행되어야 할 과제이다. 대표적으로 조선시대 승정원일기의 경우 서울대 규장각에 보관되어 있는데 디지털화하는 순서는 다음과 같다.1. 5명의 전문가가 규장각에 들어가 초서로된 원문을 읽어 영인본이라는 정자로된 자료를 만든다.2. 영인본의 책을 복사하여 스캐너에 읽혀 이미지 파일을 만든다.3. 이미지 파일은 문자인식기(OCR) 소프트웨어를 통해 텍스트로 된 글자로 변환한다.    (한자의 경우 글씨체와 세로쓰기로 인해 글자로 인식률이 매우 떨어진다)4. 잘못 인식된 글자 혹은 인식되지 않는 글자 등을 올바르게 정정하는 교정, 교열을 거친다.5. 한자어로 된 것을 우리말로 번역한다.(일반인에게 서비스)6. 한자어로 된 것을 영어, 일본어 등으로 번역하여 국제화시킨다. ======================================================================== 의흥예씨 정축보를 대상으로 문헌록 부분을 발취하여 문자인식기(ABBYY FineReader 12 테스트 버전)을 활용하여 아래와 같이 텍스트로 변환한다. 1. 정축보 한자 원본 (정축보를 낱장으로 풀어 스캐너로 읽어 이미지로 만듬) <img src="https://t1.daumcdn.net/cfile/cafe/273CEB335308A35A02" class="txc-image" width="567" style="clear: none; float: none;" border="0" vspace="1" hspace="1" data-filename="한자원문샘플.jpg" exif="{}" actualwidth="567" id="A_273CEB335308A35A0207E3"/>2. FineReader 12에 의한 문자인식 결과   ㅁ으로 된 것은 인식이 안된 것이 아니고 한자 세로쓰기가 되지 않은 것임  <img src="https://t1.daumcdn.net/cfile/cafe/2306CB3A5308A3C00C" class="txc-image" width="284" style="clear: none; float: none;" border="0" vspace="1" hspace="1" data-filename="문자인식결과.jpg" exif="{}" actualwidth="284" id="A_2306CB3A5308A3C00CFCFE"/>  3. 인식결과를 가로쓰기로 바꾸어 워드프로세스로 정리    百, 甲 등 몇개의 글자만 오류가 발생 <img src="https://t1.daumcdn.net/cfile/cafe/275FC6365308A41A13" class="txc-image" width="596" style="clear: none; float: none;" border="0" vspace="1" hspace="1" data-filename="인식결과정리.jpg" exif="{}" actualwidth="596" id="A_275FC6365308A41A139EE8"/>   <a href='javascript:fileFilterViewer("http://cfile300.uf.daum.net/attach/263C8B385308A82208D3B5", "/cfile300/26/3C8B385308A82208D3B5", "abbyy문자인식사례.pdf", "grpid%3DuGMq%26fldid%3DFCVr%26dataid%3D69%26fileid%3D4%26regdt%3D20140222222046&url=http%3A%2F%2Fcfile300.uf.daum.net%2Fattach%2F263C8B385308A82208D3B5")'><img src="https://t1.daumcdn.net/daumtop_deco/icon/icon.hanmail.net/editor/p_pdf_s.gif?rv=1.0.1" border="0" alt="첨부파일" class="vam"/> abbyy문자인식사례.pdf</a>

카페정보

의흥예씨 덕유공파(죽암파종회)

카페 전체 메뉴

▲

친구 카페

이전 다음

등록된 친구카페가 없습니다

카페 게시글

일반자료 책자로된 자료 =＞ 디지털 자료로 변환 (문자인식 툴)

들꽃민들레 추천 0 조회 571 14.02.22 22:20 댓글 1

게시글 본문내용

다음검색

첨부된 파일 개 ▼

저작자 표시 컨텐츠변경 비영리

들꽃민들레
작성자 14.02.22 22:33

첫댓글 이런 형태의 가로쓰기, 세로쓰기 텍스트로된 한글, 한자, 영어 등의 자료는 엄청난 속도와 정확도로 문자로 변환할 수 있음.
특히 한자 세로쓰기로된 것을 입력하여 교정, 교열을 거쳐 올바른 텍스트로 만드는 되는 엄청남 노력과 시간이 소요됨
정축보의 6단으로 된 본문을 효과적으로 변환하기 위한 연구가 필요함.

검색 옵션 선택상자

댓글내용선택됨 옵션 더 보기

댓글내용

댓글 작성자

연관검색어

환율

환자

환기

최신목록

의흥예씨 덕유공파(죽암파종회)

https://cafe.daum.net/deokyu

카페 전체 메뉴

친구 카페