빅데이터 분석을위한 아파치 스파크 프로그래밍 과정
2017년 현재, 스파크는 RDD보다도 더 뛰어난 기능으로 무장한 데이터셋을 추가로 도입해서 머신러닝, 그래프 알고리즘, 실시간
스트리밍 처리는 물론이고 하둡, R, 하이브(Hive), 카프카(Kafka), 아파치 제플린(Zeppelin) 등 빅데이터 분야의 기존 스타들과의
연동을 통해 데이터 처리와 관련된 거의 대부분의 영역에서 영향력을 넓혀가고 있다.
본 과정은 스파크의 개요, 설치, 설정 및 작동, 사례, 적용방법을 예제와 더블어 배울 수 있으므로 스파크를 처음 접하는
개발자들도 단기간에 스파크가 무엇이고 어디에 어떻게 활용할 수 있는지 스파크프로그래밍 전체 모듈에 대한 학습과 예제를 통해
배우실수 있습니다.
◆ 교육개강 - 10월14일 ~10월22일
◆ 교육과정 - 빅데이터 분석을위한 아파치 스파크 프로그래밍 과정 (4일 30시간)
◆ 교육강의시간 - 09:30~18:30
◆대 표 :02-6925-4760
◆사이트:https://oraclejava.co.kr:5001/gspecedu/curri/currimaster.php?command=2828&lecture=6
교육목표
- 아파치 스파크 개요의 이해
- 스파크 설치 및 개발환경의 이해
- 스파크 설정의 이해
- Scalar 언에에 대한 이해
- 스파크 RDD의 이해
- SQL과 HiveQL기반의 아파치 스파크 SQL의 이해
- 스파크 MLlib의 이해
- Mllib과 스파크 ML을 이용한 머신 러닝 애플리케이션 개발 방법의 이해
- 스파크 스트리밍을 이용한 고속 데이터 스트림 처리 방법의 이해
교육대상
- 아파치 스파크의 도입을 원하는 자
- 아파치 스파크에 관심있는 개발자, 데이터분석가, DB전문가
- 기업 내 정보화 및 IT 혁신 담당자
- 기업 전산 시스템 및 데이터 관리 담당자
- 빅데이터 분석에 관심 있는 재직자
선수학습
- Programming 기초
- SQL기초
- Linux 기본 명령어
교육과정(커리큘럼 상세 내용은 해당 홈페이지 참조)
아파치 스파크 프로그래밍 과정
- 아파치 스파크 개요
- 스파크 소개
- 스파크 설치 및 환경설정
- 개발 환경 구축
- 스파크컨텍스트 생성
- RDD 프로그래밍
- RDD 생성
- RDD 액션
- 클러스터 환경
- 스탠드얼론 클러스터
- Apache Mesos
- 스파크 SQL
- 스파크 SQL을 이용한 데이터 처리
- 스파크 스트리밍 데이터 처리
- 스파크 스트리밍 데이터 읽기
- 데이터의 저장
- MLlib
- MLlib API
- 데이터 타입
- MLlib 데이터 처리
- 알고리즘