1. 머신러닝 분석 프로세스
Data Set 분할 → 데이터 전처리 → 모델 적용 → 하이퍼 파라미터 탐색 및 결정
1.1 데이터 셋 분할
- 학습 데이터를 랜덤으로 학습/검증 셋 분할
- 테스트 셋 준비
- 학습 데이터 : 70~90%
- 검증 데이터 : 10~20%
- 테스트 데이터 : 10~20%
- 학습 데이터를 그룹으로 나누어서 교차 검증하는 방법도 사용
1.2 데이터 전처리
- 데이터의 표준/ 정규화
- 표준화(평균0 / 표준편차 1) 또는 Min-Max 정규화
- 범주 자료 one-hot encoding
- 특성 변수의 축약
1.3 모델 적용
- 과제 해결에 적합한 머신러닝 알고리즘 적용
- 평가지표를 통한 모델 평가
- 예측, 분류, 비지도 알고리즘에 데이터 학습
- 학습된 모델에 검증 데이터로 평가
- 정확도 및 과소/과대 추정 여부 판단
- 파라미터 조정을 통한 최적 모델 결정
1.4 Hyper Parameter 탐색 및 결정
- 다양한 하이퍼 파라미터 적용
- 최적의 하이퍼 파라미터 및 모델 결정
- 최종 분류기에서 검증 셋은 사용하지 않는 것이 좋음
- 최종 모델을 테스트 셋에 대해 성능을 평가
- 테스트 셋에 대한 정확도를 현재 데이터로 학습한 알고리즘 성능으로 제시
2. 프레세스별 핵심 체크
2.1 Data Set 분할
- 전체 분석 데이터 중 학습시키기 위한 데이터는 70~80%(train data), 학습된 모델이 다른 데이터에도 맞는지 확인하기 위한 테스트 데이터는 20~30%(test data) 가량 나눔
- 이렇게 분할하는 이유는 일반화를 검증 및 일반화에 적합하 모델을 확인하기 위함
- 일반화를 하는 이유는 새로운 입력에 대해서도 처리 가능하도록 조정
2.2 데이터 전처리
- 특성변수의 단위가 다르거나 범주형일 경우 거리계산에 오류가 발생함, 이를 조정하기 위한 과정을 데이터 전처리라고 함
- 단위 조정 : 스케일링(scaling)
- 범주의 조정 : 원-핫-인코딩(one-hot-encoding)
2.3 모델의 적용과 탐색
- 머신러닝은 다양한 하이퍼파라미터(hyper-parameter)를 조정하며 데이터에 적합한 최적의 알고리즘을 찾아야 됨
- 그리드 탐색(Grid Search) 또는 랜덤 탐색(Random Search)를 통해 여러 조합의 결과를 파악함
- Grid Search : 몇 가지 임의의 파라미터를 연구자가 설정하여 그 결과 중 가장 좋은 정확도(모델평가지표)를 선정
- Random Search : 일정 범위 이내에서 무작위로 파라미터를 뽑아 최적 결과를 도출하는 방식
- 소수점이 있는 경우
- 횟수가 많은 경우
- 컴퓨터의 사양 중요
- 하이퍼파라미터는 규제를 의미하며 일종의 모델 조정계수
카페 게시글
ML/DL/AI
머신러닝
머신러닝 프로세스
주인장
추천 0
조회 19
21.10.02 12:05
댓글 0
다음검색