1) [통계기반데이터분석]Histogram
1) 데이터분석계획서의 적절성
a) 미국의 최대 1000개의 회사에 대한 매출과 수익/손액 데이터를 csv형태로 받다.
b) 매출과 손익에 대한 시각화를 진행하며, 분포의 상황을 알아내다.
2) 통계처리방식의 적절성
a) 최대 10매출, 최대5수익, 최다5손액등의 데이터를 뽑고 바차트와 파이차트로 시각화하고 비교하다 (Fig. 1,2,5,6).
b) 최대 50매출과 그에 대한 수익, 또한 최대 50수익과 그에 대한 매출등을 바차트로 시각화하고 비교하다 (Fig. 3,4).
c) 히스토그램을 사용하여 어떤 매출의 범위에 맞는 회사수를 표현하다. 같은 처리를 수익에 대해서 도 하다 (Fig. 7,8).
d) 1000회사 전체와 최대10회사의 매출에 대한 평균과 표준편차를 계산하고 바차트로 시각화하다 (Fig. 9)
e) 최대10매출과 그의 수익 (Fig. 10), 그리고 전체의 매출과 수익을 (Fig. 11) 산점도로 시각화하고 선의 관계 있는지 알아내다.
3) 통계적 개념이 잘 정립되었는지 확인
a) 매출과 손익의 분포가 너무 넑고, 규칙적이지 않으며 선형산관을 찾을 수 없다.
b) 업체 분야등 추가적인 변수를 설립 하면서 선형산관이 있는 화사들을 그뤂화하는 법을 찾아야 하다.
4) 모델의 성능이 우수한지 확인
a) 히스토그램, 바차트, 파이차트, 산점도를 사용하며 매출등의 크기를 잘 시각화하고 비교 할 수 있지만, 더 복잡한 성형산관, 등을 알아보기에는 부족하다.
2) [텍스트데이터분석]Wordcloud
1) 텍스트데이터분석 채점체크
a) 잦은 단어를 시각화하게에는 워드클라우드가 좋다.
b) 숫자적인 시각화보다 발표등 시각화가 중요한 경우에는 워드클라우드를 쓰다.
2) 데이터분석계획서의 적절성
a) 카카오톡 기록의 잦은 단어를 시각화하다.
b) 명사와 형용사만 따로 뽑고 표현하다.
3) 분석방식의 적절성
a) 상기
4) 텍스트 분석의 절차를 잘이해하고 사전을 사용할 수 있는지
a) OK
5) 분석결과 시각화가 잘되었는지 확인
a) OK
3) [머신러닝기반데이터분석]Tensorflow
1) 머신러닝기반데이터분석 채점체크
a)
b)
2) 데이터분석계획서의 적절성
a) 28px * 28px 의 손글씨 숫자 이미지를 입력 받아 실제로 의미하는 숫자를 인식시키기.
b) mnist 손글씨 데이터셋을 머신러닝을 통해 학습시키고 실제로 예측하기.
c) GUI프로그램으로 구현해보기
d) 데이터를 입력하여 실제로 예측이 가능한지 검증하기
3) 학습데이터로부터 머신러닝 모델링 수행
a)
b)
4) 선택한 머신러닝 기법이 사안에 적절한지 확인
a) 28px의 저해상도 사진이고, 손글씨의 경우 구분선의 정확도가 중요하기 때문에 DNN기법이 사용되었으며, 편집된 별도의 테스트 데이터에서도 80%의 정확도를 보이고 있기 때문에 손글씨 데이터를 예측하는데 적절한 기법으로 판단됨.
b)
5) 모델의 성능이 우수한지 확인
a)
b)
4) 시행동영상