데이터 마이닝(data mining)
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것
- 다른 말로는 KDD(데이터베이스 속의 지식 발견, knowledge-discovery in databases)라고도 함.
- Explaining the past and predicting the future by means of data analysis
데이터 마이닝 기법 -- 통계학에서 패턴 인식에 이르기까지 다양한 계량 기법 사용
- 통계학 분야: 탐색적 자료분석, 가설 검정, 다변량 분석, 시계열 분석, 일반 선형모형 등의 방법론
- DB 분야: OLAP (온라인 분석 처리:On-Line Analytic Processing)
- 인공지능 분야: SOM, 신경망, 전문가 시스템 등의 기술적인 방법론 사용
적용 분야
데이터마이닝은 데이터 분석을 통해 아래와 같은 분야에 적용하여 결과를 도출
- 분류(Classification): 일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론
(예: 경쟁자에게로 이탈한 고객)
- 군집화(Clustering): 구체적인 특성을 공유하는 군집을 찾는다.
군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다름.
(예 : 유사 행동 집단의 구분)
- 연관성(Association): 동시에 발생한 사건간의 관계를 정의
(예: 장바구니안의 동시에 들어 가는 상품들의 관계 규명)
- 연속성(Sequencing): 특정 기간에 걸쳐 발생하는 관계를 규명
기간의 특성을 제외하면 연관성 분석과 유사함
(예: 슈퍼마켓과 금융상품 사용에 대한 반복 방문)
- 예측(Forecasting): 대용량 데이터집합내의 패턴을 기반으로 미래를 예측
(예: 수요예측)
30. 데이터마이닝 개요 - 4p.pdf
30. 데이터마이닝 개요.pdf