'빅데이터를 활용한 텍스트마이닝 기법의 성능비교', 어동선, 인제대학교 일반대학원,[2015] [국내석사]
텍스트마이닝은 비정형 텍스트 자료를 분석하는 데이터마이닝의 한 분야로,이에 관련된 많은 연구가 지속적으로 증가하고 있다. 본 연구에서는 비정형 신문기사 자료를 주어진 범주로 분류함에 있어서 베이지안 방법,k-NN,의사결정나무,SVM,그리고 신경망의 방법을 적용하여 이들의 분류 성능을 비교하였다. 그 결과,SVM 모형이 다른 모형들에 비해 높은 F-측도값을 갖고, 정분류율과 재현율에서도 안정된 결과를 나타냈으며 좀 더 세분화된 목록의 분류에서도 높은 F-측도값을 보여주었다.k-NN과 의사결정나무는 SVM에 비해 수행 능력은 조금 낮지만 변수의 해석이나 학습시간에 강점을 가지므로,텍스트마이닝을 활용한 분류에 적절한 모형이라는 결론을 내릴 수 있었다.

기본적인 텍스트마이닝에 대한 흐름이 쉽게 적혀져 있으며, 비정형적 데이터인 텍스트가 어떻게 정형적인 데이터로 변형되어 분석이 가능한지 이해하기 쉽게 쓰여져있음.
뿐만 아니라 베이지안, K-NN, 의사결정나무, SVM, 신경망 등의 기본적인 데이터마이닝 기법들에 대한 설명이 잘 나타나 있어서 기초를 공부할 때 많은 도움이 될 것으로 보임.