전자공시시스템(DART)을 활용한
국내 텍스트 분석(Textual Analysis) 환경에 관한 연구
저자명 김형준, 박종원, 이재원
학술지명 회계저널
발행처 한국회계학회
요약
인터넷기반의 전자공시시스템은 시간과 장소에 상관없고 비용이 따로 발생하지 않는 공시환경을 제공하며 적시적으로 의사결정을 내릴 수 있도록 도와주어 사람들은 이의 편리성을 이용해 문제완화와 효율성을 제고하는데 크게 기여하고 있다. 그렇기 때문에 사람들은 이 공시시스템을 분석함으로써 이익조작이나 회계부정가능성 등을 알아낼 수 있는 프로그램을 개발하기도 하며 불법거래도 적발해내기도 했다. 현재 다트 시스템이 갖는 문제점을 지덕하고 시스템 개선의 필요성이 목적이며 향후 개선발향 또한 제시하고자하였다.
원데이터(분기, 반기 및 사업보고서)를 구축하기 위해 웹크롤링 작업을 수행하였다. 또 Li(2008)을 응용해 프로그램을 개발했으며 DART에서 제공되는 PDF문서 내 텍스트에 접근하기위해 별도의 프로그램도 개발하였다.
FTP서버를 운영하며 대량의 공시서류를 제공하는 미국의 EDGAR과는 달리 한국은 대량으로 공시서류들을 제공받기 어려웠다. DART의 보고서들을 제공받기 위해서는 별도의 Web automation프로그램을 개발하여야 하고 DART 웹페이지상 조회되는 보고서의 텍스트를 모두 수집하는 프로그램은 개발을 하였다. 이에 있어 표본 추출을 하기 위해서 미국보다 1,800시간이 필요하다는 것을 알 수 있었다. 이에 있어 DART시스템의 향후 개선방향을 제시하였다. 국내에도 EDGAR 시스템처럼 정보이용자들이 공시서류를 손쉽게 내려 받을 수 있는 환경의 구축이 필요하고 DART에서 공시되는서류들의 문서 형식들에 대한 기술적인 보완이 필요하다.