|
검증오퍼레이터
1.Cross validation- 교차 검증을 수행한다. 교차 검증은 데이터 세트를 N개의 하위 세트로 분할 한 후 1개의 하위 세트는 검증을 위해 남겨 두고, 나머지 N-1 개의 하위세트로 모델을 생성한 후 검증 데이터 세트로 모델을 검증하는 방법. 따라서 N번의 모델 생성과 N번의 검증이 이루어진다. 왜냐하면 한번씩 검증데이터 세트를 해보기 때문이다. 여기서 N의 숫자는 매개변수로 정하고, N개의 하위 세트로 분할할 때 사용되어야 할 표본화 기법 등을 지정해 주어야 한다.
파라미터
split on batch attribute- 데이터를 무작위로 분할하는 대신 속성을 '배치'(일괄처리)라는 특수 역할 갖는 속성을 사용한다.
leave one out- 사례 세트의 각 사례까 검증 데이터로 한 번 사용되도록 반복된다.
2.Split validation- 데이터 세트를 학습 데이터 세트와 검증 데이터 세트로 분할 후 검증을 수행한다. 학습과 검증의 크기는 매개 변수인 <split ratio>를 이용해 조절하면 된다.
둘다 sampling type이 있는데
1) 선형 표본화: 사레의 순서를 변경하지 않고 사례 세트를 분할한다.
2) 셔플 표본화: 사례 세트의 무작위 부분 집합을 만든다.
3)계층화된 표본화: 층화표집은 모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법이다.
4)AUTO: 기본값 별로 층화 샘플링을 사용한다. 얘를 들어 층화 표본화를 사용할 수 없다면 셔플 샘플링이 사용한다.
데이터 분석 보고서 구조
서론: 분석 문제에 대한 정의와 데이터 세트 소개
분석 방법: 문제 해결을 위해 적용된 알고리즘에 대한 소개
데이터로딩: 데이터 로딩 방법 설명
데이터 전처리: 결측치처리, 이산화, 값 유형 변환
모델링: 모델 생성과 적용 방법에 대한 설명
분석 결과: 모델, 성과, 모델이 적용된 사례 등 분석 결과 제시
결론: 분석 방법의 사용사례, 장/단점 등
이산화:discretize, 이산화는 수치 데이터를 일정한 구간으로 분할하여 범주 유형 속성으로 변경하는 것이다.
ex) 100~0 점수를 A,B,...F 등의 등급(이산 값)으로 바꾼다는 말이다. 일정범위를 구간으로 나눔으로써 데이터 값의 크기를 줄일 수 있다.
이산 뜻: 연속의 반대로 하나하나 값이 떨어져 있다는 말