빅데이터 - 비정형 데이터 마이닝
영원한 인간사랑 ・ 2023. 11. 14. 16:33
URL 복사 통계
본문 기타 기능
빅데이터 - 비정형 데이터 마이닝
인기멤버
2023.11.11. 12:33조회 7
댓글 0URL 복사
빅데이터
비정형 데이터 마이닝
비정형 데이터란 숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터를 말한다. 블로그와 게시판 등 웹에서 폭발적으로 발생하는 비정형 데이터는 그 내용을 통해 여론의 흐름을 파악할 수 있다는 점에서 주목받고 있다. 비정형 데이터 분석방법으로는 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝 등이 있다.
1. 비정형 데이터
비정형 데이터(unstructured data)란 일정한 규격이나 형태를 지닌 숫자 데이터(numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말한다. 비정형 데이터의 사례로는 책, 잡지, 문서의료 기록, 음성 정보, 영상 정보와 같은 전통적인 데이터 이외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터가 있다.
가장 대표적인 비정형 데이터로는 문서가 있다. 문서에는 문자가 가장 많은 비중을 차지하고 있지만 숫자와 도표, 그림도 포함하고 있다. 이러한 문서 정보는 정보의 관점에서 보면 유형이 불규칙하고 의미를 파악하기 모호해서 기존의 컴퓨터 처리 방식을 적용하기 어렵다. 기존의 컴퓨터 시스템은 연산과 처리 절차가 숫자 데이터 중심으로 설계되어 있기 때문에 이름이나 성별과 같은 문자 변수는 숫자로 변환해 처리하는 방법을 주로 사용했다. 그러나 이런 방법은 트위터나 블로그처럼 모바일과 온라인에서 생성되는 대규모의 비정형 데이터에 적용하는 것이 불가능하다. 비정형 데이터는 불규칙 정도에 따라 반정형 데이터(semi-structured data)로 구분하기도 한다.
2. 텍스트 마이닝
텍스트 마이닝을 활용하여 재선에 성공한 버락 오바마(Barack Obama, 1961~ )
ⓒ 커뮤니케이션북스
텍스트 마이닝(text mining)이란 대규모의 문서(text)에서 의미 있는 정보를 추출하는 것을 말한다. 분석 대상이 비구조적인 문서정보라는 점에서 데이터 마이닝과 차이가 있다. 텍스트 마이닝은 텍스트 분석(text analytics), 텍스트 데이터베이스로부터 지식 발견(KDT, Knowledge Discovery in Textual Database), 문서 마이닝(document Mining) 등으로 불리기도 한다.
텍스트 마이닝은 정보 검색, 데이터 마이닝, 기계 학습(machine learning), 통계학, 컴퓨터 언어학(computational linguistics) 등이 결합된 학제적(interdisciplinary) 분야다(Han et al, 2011). 텍스트 마이닝은 분석 대상이 형태가 일정하지 않고 다루기 힘든 비정형 데이터이므로 인간의 언어를 컴퓨터가 인식해 처리하는 자연어 처리(NLP, natural language processing) 방법과 관련이 깊다.