RM 1주차(1장)

1/31까지 해올 거: 래피드마이너 교재 1장,2장 1장 서론<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>기본용어</li><li>오퍼레이터유형</li><li>파라미터유형</li><li>분석절차</li><li>속성 값 유형 -속성 값 유형 변환 -이산화</li><li>결론</li></ul> 검증오퍼레이터 1.Cross validation- 교차 검증을 수행한다. 교차 검증은 데이터 세트를 N개의 하위 세트로 분할 한 후 1개의 하위 세트는 검증을 위해 남겨 두고, 나머지 N-1 개의 하위세트로 모델을 생성한 후 검증 데이터 세트로 모델을 검증하는 방법. 따라서 N번의 모델 생성과 N번의 검증이 이루어진다. 왜냐하면 한번씩 검증데이터 세트를 해보기 때문이다. 여기서 N의 숫자는 매개변수로 정하고, N개의 하위 세트로 분할할 때 사용되어야 할 표본화 기법 등을 지정해 주어야 한다.파라미터split on batch attribute- 데이터를 무작위로 분할하는 대신 속성을 '배치'(일괄처리)라는 특수 역할 갖는 속성을 사용한다.leave one out- 사례 세트의 각 사례까 검증 데이터로 한 번 사용되도록 반복된다. 2.Split validation- 데이터 세트를 학습 데이터 세트와 검증 데이터 세트로 분할 후 검증을 수행한다. 학습과 검증의 크기는 매개 변수인 <split ratio>를 이용해 조절하면 된다. 둘다 sampling type이 있는데1) 선형 표본화: 사레의 순서를 변경하지 않고 사례 세트를 분할한다.2) 셔플 표본화: 사례 세트의 무작위 부분 집합을 만든다.3)계층화된 표본화: 층화표집은 모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법이다.<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZVrU/5ea1309586937036d0d92c8c363cdf047f9536b4" class="txc-image" width="539" height="210" data-img-src="https://t1.daumcdn.net/cafeattach/1ZVrU/5ea1309586937036d0d92c8c363cdf047f9536b4" data-origin-width="1101" data-origin-height="429"><div class="figcaption">https://www.scribbr.com/methodology/stratified-sampling/</div></div>4)AUTO: 기본값 별로 층화 샘플링을 사용한다. 얘를 들어 층화 표본화를 사용할 수 없다면 셔플 샘플링이 사용한다. 데이터 분석 보고서 구조서론: 분석 문제에 대한 정의와 데이터 세트 소개분석 방법: 문제 해결을 위해 적용된 알고리즘에 대한 소개데이터로딩: 데이터 로딩 방법 설명데이터 전처리: 결측치처리, 이산화, 값 유형 변환모델링: 모델 생성과 적용 방법에 대한 설명분석 결과: 모델, 성과, 모델이 적용된 사례 등 분석 결과 제시결론: 분석 방법의 사용사례, 장/단점 등 <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZVrU/b1c2b1a7bd2a38dd7cfc84777fbfbb15e23c69f0" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZVrU/b1c2b1a7bd2a38dd7cfc84777fbfbb15e23c69f0" data-origin-width="1315" data-origin-height="601"></div>이산화:discretize, 이산화는 수치 데이터를 일정한 구간으로 분할하여 범주 유형 속성으로 변경하는 것이다.ex) 100~0 점수를 A,B,...F 등의 등급(이산 값)으로 바꾼다는 말이다. 일정범위를 구간으로 나눔으로써 데이터 값의 크기를 줄일 수 있다.이산 뜻: 연속의 반대로 하나하나 값이 떨어져 있다는 말