빅데이터 처리 S/W에 대한 특징과 각각에 대해 설명하세요.
1) 하둡(Hdoop)
오픈소스S/W
하둡코어 (HDFS+MapReduce)
빅데이터처리 프레임워크
다양한 하둡에코시스템으로 구성
결험허용시스템
데이터 블록의 복사본을 중복저장 유지
2) 빅쿼리(BigQuery)
a. 내용
구글 클라우드스트리지와 함께이용
대용량데이터처리 엔진
분석할 데이터를 구글시스템에 업로드
빅쿼리 API를 사용하여 질의를 전송하는 방식
최대 2TB까지 데이터를 업로드하여 무료로 분석가능.
b. 특징
- 클라우드 서비스로 설치 및 운영이 필요없음
- SQL언어사용
- 구글클라우드 인프라를 통한 대용량 지원과 빠른 성능
- 인프라에 대한 투자없이 막강한 컴퓨팅 자원을 활용
- 데이터 복제를 통한 안정성
- 배치처리 및 스트리밍 처리 모두 지원
3) 스파크(Spark)
a. 인-메모리 방식의 분산처리 시스템(실시간 처리 가능)
-UC버클리 AMP햅에서 개발
b. 메모리 사용으로 반복작업이나 스트리밍데이터를 효율적으로 처리
-기계학습 알고리즘에 유용한 소프트제어
c. 배치, 스트리밍 처리, SQL기반 쿼리수행
d. Scala Shell을 제공하여 사용자와 대화형으로 데이터 관리가능
e. 스칼라 언어로 구현되어 있으나 다양한 언어를 지원하는 SDK를
가지고 있음. (파이선, 자바 등 언어를 지원 가능)
f. 다양한 데이터 스트리지와 연동가능.
- HDFS, 아마존S3, 카산드라, Hbase 등
4) 파이썬(Python)
a.오픈소스S/W
b.데이터 처리와 머신러닝을 위한 강력한 파이썬 패키지가 많이
개발되고 있다.
c. Pandas. Numpy, Scipy, matplotlib, NLTK, SpaCy, Sciycit-learn 등
- Pandas : 데이터 처리 및 분석
- Numpy : N차원 배열개체, 선형대수, 푸리에 변환, 난수 생성 등
- Scipy : 과학 수학 연산과 최적화
- matplotlib : 2D차트 생성 라이브러리
- NLTK : 텍스트 마이닝과 자연어 처리
- SpaCy : 기업용 자연어 처리 라이브러리
- Sciycit-learn : Numpy및 Pandas 와 연동 머신러닝 라이브러리
5) R
a.오픈소스S/W
b.통계처리, 데이터처리 및 시각화를 위한 개발환경 제공
c.통계분석,예측분석이 가능하고 다양한 기능을 가진 여러 패키지를
보유함.
d.객체지향 방법 지원
e. R 프로그램을 위한 통합개발환경 R Studio.