[머신러닝] Pytorch 6장

<p><span data-ke-size="size23"><b><6장> 모델 평가와 하이퍼파라미터 튜닝의 모범 사례</b></span></p><p> </p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>머신 러닝 모델 성능 평가하기</li><li>머신 러닝 알고리즘에서 일반적으로 발생하는 문제 분석하기</li><li>머신 러닝 모델 세부 튜닝하기</li><li>여러 가지 성능 지표를 사용하여 모델의 예측 성능 평가하기</li></ul><p> </p><p><span style="background-color: #dddddd;" data-ke-size="size20"><b>1. 파이프라인을 사용한 효율적인 워크플로</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>테스트 데이터셋에 있는 별도의 샘플처럼 새로운 데이터의 스케일을 조정하고 압축하기 위해 훈련 데이터셋에서 학습한 파라미터를 재사용해야 됨.<br>=> 사이킷런의 <span style="color: #ee2323;"><b>Pipeline</b> </span>클래스 사용.</li><li>여러 개의 변환 단계를 포함한 모델을 학습하고 새로운 데이터에 대한 예측을 만들 수 있음.</li></ul><p> </p><p><span style="background-color: #dddddd;"><b>① 위스콘신 유방암 데이터셋</b></span><b> / </b><span style="background-color: #dddddd;"><b>② 파이프라인으로 변환기와 추정기 연결</b></span></p><ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>악성(M)과 양성(B)인 종양 세포 샘플 569개의 <b>데이터셋 불러오기</b>.<br>0, 1 열(label): 샘플의 고유 ID 번호와 진단 결과(M, B)<br>2~31열(data): 세포 핵의 디지털 이미지에서 계산된 30개의 실수 값 특성</li><li><b>데이터 전처리</b>(⑴ 범주형 데이터 인코딩, ⑵ 데이터셋 분류(train, test))</li><li><b>파이프라인(<span style="color: #ee2323;">변환기</span>, 추정기 연결)</b><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>스케일 조정</b>: 다양한 스케일로 측정된 입력 특성을 표준화</li><li><b>특성 추출:</b> 차원 축소(데이터 압축) <span style="color: #666666;">(PCA(주성분 분석), LDA(선형 판별 분석))</span></li></ul></li></ol><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/6a9b7d624f125885779f5bcd0e217d6ca358bc6f" class="txc-image" width="510" height="382" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/6a9b7d624f125885779f5bcd0e217d6ca358bc6f" data-origin-width="780" data-origin-height="584"><div class="figcaption">파이프라인 객체의 작동 방식</div></div><p> </p><p> </p><p> </p><p><span style="background-color: #dddddd;" data-ke-size="size20"><b>2. k-겹 교차 검증을 사용한 모델 성능 평가</b></span><b></b></p><p><b>참고: <a href="https://yngie-c.github.io/machine%20learning/2020/05/01/val_eval‎/" target="_blank" class="ke-link">https://yngie-c.github.io/machine%20learning/2020/05/01/val_eval‎/</a></b></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>교차 검증 기법</b>: 모델의 일반화 성능(test data에 모델이 얼마나 잘 작동하는지) 신뢰할 만한 추정.<br><b>① 홀드아웃 방법</b><br><b>② k-겹 교차 검증</b></li></ul><p><span style="background-color: #dddddd;"><b>① 홀드아웃 방법</b><b> (Holdout)</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b><span style="background-color: #f6e199;">모델 선택</span><br>· </b>Test data에 대해 예측 성능을 높이기 위해 <b>하이퍼파라미터</b>를 <b>튜닝</b>하고 비교하는 과정.<br><b>·</b> 주어진 분류 문제에서 <b>튜닝</b>할 <b>하이퍼파라미터</b>의 최적값을 선택하는 것.</li><li>훈련을 할 때 test data를 사용하게되면 모델은 <b>과대적합</b>됨.</li><li><b><데이터 분류></b><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>훈련 데이터셋</b>: 여러 가지 모델을 훈련하는데 사용.</li><li><b>검증 데이터셋</b>: 반복적으로 다른 파라미터 값에서 모델을 훈련한 후 성능을 평가.</li><li><b>테스트 데이터셋</b></li></ul></li><li><b>단점</b><ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>훈련 데이터를 훈련 데이터셋(test data)와 검증 데이터셋(val data)으로 나누는 방법에 따라 <b>성능 추정</b>이 민감함.</li><li>학습 데이터에 손실이 있기 때문에 데이터가 적은 경우에는 사용하기 힘듦.</li><li>검증을 한 번 밖에 할 수 없음.</li></ol></li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/e711ae1babbf492d3405b892403c34f311d7113a" class="txc-image" width="429" height="313" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/e711ae1babbf492d3405b892403c34f311d7113a" data-origin-width="647" data-origin-height="472"></div><p> </p><p> </p><p><span style="background-color: #dddddd;"><b>② k-겹 교차 검증</b><b> (K-fold CV)</b></span></p><ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>중복을 허용하지 않고 <b>훈련 데이터셋</b>을 k개의 폴드로 랜덤하게 나눔.</li><li>k-1개의 폴드(<b>훈련 폴드</b>)로 <u>모델을 훈련</u><br>나머지 하나의 폴드(<b>테스트 폴드</b>)로 <u>성능 평가</u></li><li>위 과정을 k번 반복하여 k개의 <b>모델</b>과 <b>성능 추청</b>을 얻음.</li><li>서로 다른 독립적인 폴드에서 얻은 <b>추정</b> <b>성능(E_i)</b>을 기반으로 <b>모델의 평균 성능(E)</b>을 계산.</li></ol><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>=> 만족스러운 <b>하이퍼파라미터 값</b>을 찾은 후에는 <b>전체 훈련 데이터셋</b>을 사용하여 모델을 다시 훈련.</li><li><b>독립적인 테스트 데이터셋</b>을 사용하여 최종 성능 평가.</li></ul><p> </p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><span style="background-color: #f6e199;"><b>k-겹 교차 검증 후에 전체 훈련 데이터셋으로 모델을 학습하는 이유</b></span><br>⑴ (k개의 개별 모델이 아니라) 하나의 <b>최종 모델</b>이 필요하고<br>⑵ <b>훈련 샘플</b>이 많을수록 학습 알고리즘이 더 정확하고, 안정적인 모델을 만들기 때문</li><li>k-겹 교차 검증이 중복을 허용하지 않는 <b>리샘플링 기법</b>이기 때문에 각 반복에서 샘플이 정확히 <b>한 번</b>만 사용되며<br><b>훈련 폴드</b>와 <b>테스트 폴드</b>가 중첩되지 않음. (또한, 모든 테스트 폴드가 중첩되지 않음)</li><li><b><홀드아웃 방법과의 차이점></b><br><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>홀드아웃 방법에 비해 훈련 데이터셋의 분할에 <b>덜 민감한 성능 추정<br></b>(즉, 테스트 데이터셋에서 모델의 성능을 평가할 때 만족할 만한 <u><b>일반화 성능</b>을 내는 최적의 하이퍼파라미터 값</u>을 찾기 위해 사용됨)</li><li>이로인해 홀드아웃 방법보다 모델 성능의 추정에 분산이 낮음.</li><li>모든 데이터 포인트가 평가에 사용되기 때문에 <b>검증 세트</b>를 사용하는 홀드아웃 방법보다 <u>데이터셋을 더 잘 활용</u>함.</li></ul></li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/236dc6e6ba88e02ece2ae5d254a9931edc22c8be" class="txc-image" width="492" height="267" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/236dc6e6ba88e02ece2ae5d254a9931edc22c8be" data-origin-width="792" data-origin-height="429"></div><p> </p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><span style="background-color: #f6e199;"><b>폴드 계수(k)값의 변화가 미치는 영향</b></span><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>k값 증가</b><br><b>·</b> 각 반복에서 더 많은 데이터가 <b>훈련 데이터</b>로 사용되며, <b>테스트 데이터</b>는 줄어듦.<br><b>· </b>많은 <b>훈련 데이터</b> 사용(훈련 폴드가 서로 많이 비슷해짐)으로 모델 성능을 평균화하여 <b>일반화 성능</b>을 추정할 때 더 <b>낮은 편향</b>을 만듦. </li><li><b>k값 감소</b><br><b>· 훈련 데이터</b>의 크기가 줄어들고, <b>테스트 데이터</b>의 크기가 커짐.<br><b>· 모델</b>이 데이터의 패턴을 충분히 학습하지 못해 <b>높은 편향 상태</b>가 됨.</li></ul></li></ul><div class="table-wrap"><table data-ke-type="table" data-ke-align="alignLeft" style="width: 82.0481%;" border="1"><tbody><tr><td style="width: 15.5078%; text-align: center;"></td><td style="width: 33.2069%; text-align: center;"><b>k값 증가</b></td><td style="width: 32.7222%; text-align: center;"><b>k값 감소</b></td></tr><tr><td style="width: 15.5078%; text-align: center;"><b>데이터 증/감</b></td><td style="width: 33.2069%; text-align: center;"><b>훈련 데이터↑, 테스트 데이터↓ </b></td><td style="width: 32.7222%; text-align: center;"><b>훈련 데이터↓, 테스트 데이터↑ </b></td></tr><tr><td style="width: 15.5078%; text-align: center;"><b>편향/분산</b></td><td style="width: 33.2069%; text-align: center;"><b>편향↓</b><span style="color: #333333; background-color: #ffffff;" data-ke-size="size16">, </span><b>분산↑</b></td><td style="width: 32.7222%; text-align: center;"><b>편향↑ </b><span style="color: #333333; background-color: #ffffff;" data-ke-size="size16">, </span><b>분산↓ </b></td></tr></tbody></table></div><p> </p><p><b><계층적 교차 검증></b></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>클래스 비율이 동등하지 않을 때는 <b>전체 훈련 데이터셋</b>에 있는 클래스 비율을 대표하도록 유지할 수 있도록<br><b><span style="color: #ee2323;">StratifiedKFold</span> </b>클래스의 <b>shuffle</b> 매개변수를 True 지정하면 <u>폴드를 나누기 전에 샘플을 섞어 놓음</u>. (기본값 False)</li></ul><p> </p><p> </p><p> </p><p><span style="background-color: #dddddd;" data-ke-size="size20"><b>3. 학습 곡선과 검증 곡선을 사용한 알고리즘 디버깅</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>분석 도구</b>: 학습 알고리즘의 <b>성능 향상</b>에 도움. (<b>과대적합(높은 분산)</b>되는지 or <b>과소적합(높은 편향)</b>되는지 분석)<ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li><span style="background-color: #c0d1e7;"><b>학습 곡선:</b> <b>학습 데이터의 양</b></span>에 따른 <b>훈련 정확도(train)</b>와 <b>테스트 정확도(val)</b>를 그래프에 나타낸 것.</li><li><span style="background-color: #c0d1e7;"><b>검증 곡선:</b> <b>모델의 하이퍼파라미터 값</b></span>에 따른 모델의 성능 지표를 그래프에 나타낸 것.</li></ol></li></ul><p><span style="background-color: #dddddd;"><b>① 학습 곡선으로 편향과 분산 문제 분석</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>과대적합</b>을 줄이려면 훈련 샘플을 더 모으면 도움이 되지만 실전에서는 불가능한 경우가 많음.</li><li><span style="background-color: #f6e199;">모델의 <b>훈련 정확도</b>와 <b>검증 정확도</b>를 훈련 데이터셋의 크기 함수로 그래프를 그려보면</span><br>모델에<b> 높은 분산</b>의 문제가 있는지 / <b>높은 편향</b>의 문제가 있는지 쉽게 감지할 수 있음.</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/9a7689ba3bab82b67c492e13d0fe74408ffb9973" class="txc-image" width="481" height="436" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/9a7689ba3bab82b67c492e13d0fe74408ffb9973" data-origin-width="751" data-origin-height="681"><div class="figcaption">편향-분산 트레이드오프</div></div><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>왼쪽 위 그래프</b><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>편향이 높은 모델. <b>훈련 정확도</b>와 <b>교차 검증 정확도</b>가 모두 낮아 훈련 데이터에 <b>과소적합</b>된 것.</li><li><b>해결 방안</b>: 모델의 파라미터 개수를 늘리기, 추가적인 특성 수집 or 만들기 <br>(+ <b>서포트 벡터 머신(SVM)</b>이나 <b>로지스틱 회귀</b> <u>분류기를 통한 규제 강도 줄이기</u>)<br>참고: <a href="https://cafe.daum.net/SmartRobot/RoVa/2063" target="_blank" class="ke-link">https://cafe.daum.net/SmartRobot/RoVa/2063</a></li></ul></li><li><b>오른쪽 위 그래프</b><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>분산이 높은 모델. <b>훈련 정확도</b>와 <b>교차 검증 정확도 </b>사이에 큰 차이가 있는 것. (과대적합)</li><li><b>해결 방안</b>: 더 많은 훈련 데이터를 모으기 (과대적합 <u>가능성</u>을 줄이는 것임)<br>모델 복잡도를 낮추거나 규제 증가시키기. (규제가 없는 모델은 <b>특성 선택</b>, <b>특성 추출</b>을 통해 <b>특성 개수</b>를 줄이기)<br>참고: <a href="https://cafe.daum.net/SmartRobot/RoVa/2067" target="_blank" class="ke-link">https://cafe.daum.net/SmartRobot/RoVa/2067</a></li></ul></li></ul><div class="figure-html" data-ke-type="html" data-source="<div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div><div style="line-height:130%">60</div><div style="line-height:130%">61</div><div style="line-height:130%">62</div><div style="line-height:130%">63</div><div style="line-height:130%">64</div><div style="line-height:130%">65</div><div style="line-height:130%">66</div><div style="line-height:130%">67</div><div style="line-height:130%">68</div><div style="line-height:130%">69</div><div style="line-height:130%">70</div><div style="line-height:130%">71</div><div style="line-height:130%">72</div><div style="line-height:130%">73</div><div style="line-height:130%">74</div><div style="line-height:130%">75</div><div style="line-height:130%">76</div><div style="line-height:130%">77</div><div style="line-height:130%">78</div><div style="line-height:130%">79</div><div style="line-height:130%">80</div><div style="line-height:130%">81</div><div style="line-height:130%">82</div><div style="line-height:130%">83</div><div style="line-height:130%">84</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;pandas&nbsp;<span style="color:#a71d5d">as</span>&nbsp;pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.decomposition&nbsp;<span style="color:#a71d5d">import</span>&nbsp;PCA</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.linear_model&nbsp;<span style="color:#a71d5d">import</span>&nbsp;LogisticRegression</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.pipeline&nbsp;<span style="color:#a71d5d">import</span>&nbsp;make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;matplotlib.pyplot&nbsp;<span style="color:#a71d5d">as</span>&nbsp;plt</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;learning_curve</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;numpy&nbsp;<span style="color:#a71d5d">as</span>&nbsp;np</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;1단계:&nbsp;데이터&nbsp;불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>,&nbsp;header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;2단계:&nbsp;데이터&nbsp;전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>,&nbsp;<span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;데이터셋&nbsp;분류&nbsp;(8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train,&nbsp;X_test,&nbsp;y_train,&nbsp;y_test&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;\</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;train_test_split(X,&nbsp;y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;3단계:&nbsp;파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr&nbsp;=&nbsp;make_pipeline(StandardScaler(),&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;변환기:&nbsp;표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PCA(n_components=2),&nbsp;&nbsp;#&nbsp;변환기:&nbsp;차원&nbsp;축소:&nbsp;주성분&nbsp;분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;LogisticRegression())&nbsp;#&nbsp;추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr.fit(X_train,&nbsp;y_train)&nbsp;#&nbsp;학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;y_pred&nbsp;=&nbsp;pipe_lr.predict(X_test)&nbsp;#&nbsp;예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;test_acc&nbsp;=&nbsp;pipe_lr.score(X_test,&nbsp;y_test)&nbsp;#&nbsp;테스트&nbsp;정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;k-겹&nbsp;교차&nbsp;검증(k-fold&nbsp;cross-validation)을&nbsp;내부적으로&nbsp;사용하여&nbsp;학습&nbsp;곡선을&nbsp;그리기&nbsp;위해&nbsp;데이터&nbsp;평가</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_lr&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;make_pipeline(StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;LogisticRegression(penalty<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'l2'</span>,&nbsp;max_iter<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10000</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_sizes,&nbsp;train_scores,&nbsp;test_scores&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>\</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;learning_curve(estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_lr,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;X<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>X_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;y<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;train_sizes<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>np.linspace(<span style="color:#0099cc">0.</span><span style="color:#0099cc">1</span>,&nbsp;<span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>,&nbsp;<span style="color:#0099cc">10</span>),</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;n_jobs<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.mean(train_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_std&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.std(train_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.mean(test_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_std&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.std(test_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(train_sizes,&nbsp;train_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>,&nbsp;marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'o'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>,&nbsp;label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Training&nbsp;accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(train_sizes,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;train_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">+</span>&nbsp;train_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;train_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">-</span>&nbsp;train_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>,&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(train_sizes,&nbsp;test_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>,&nbsp;linestyle<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'--'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'s'</span>,&nbsp;markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Validation&nbsp;accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(train_sizes,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">+</span>&nbsp;test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">-</span>&nbsp;test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>,&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.grid()</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.xlabel(<span style="color:#63a35c">'Number&nbsp;of&nbsp;training&nbsp;examples'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylabel(<span style="color:#63a35c">'Accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.legend(loc<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'lower&nbsp;right'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylim([<span style="color:#0099cc">0.</span><span style="color:#0099cc">8</span>,&nbsp;<span style="color:#0099cc">1.</span><span style="color:#0099cc">03</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.tight_layout()</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.show()</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div>"><div data-ke-class="article"><div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div><div style="line-height:130%">60</div><div style="line-height:130%">61</div><div style="line-height:130%">62</div><div style="line-height:130%">63</div><div style="line-height:130%">64</div><div style="line-height:130%">65</div><div style="line-height:130%">66</div><div style="line-height:130%">67</div><div style="line-height:130%">68</div><div style="line-height:130%">69</div><div style="line-height:130%">70</div><div style="line-height:130%">71</div><div style="line-height:130%">72</div><div style="line-height:130%">73</div><div style="line-height:130%">74</div><div style="line-height:130%">75</div><div style="line-height:130%">76</div><div style="line-height:130%">77</div><div style="line-height:130%">78</div><div style="line-height:130%">79</div><div style="line-height:130%">80</div><div style="line-height:130%">81</div><div style="line-height:130%">82</div><div style="line-height:130%">83</div><div style="line-height:130%">84</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> pandas <span style="color:#a71d5d">as</span> pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.decomposition <span style="color:#a71d5d">import</span> PCA</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.linear_model <span style="color:#a71d5d">import</span> LogisticRegression</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.pipeline <span style="color:#a71d5d">import</span> make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> matplotlib.pyplot <span style="color:#a71d5d">as</span> plt</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> learning_curve</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> numpy <span style="color:#a71d5d">as</span> np</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 1단계: 데이터 불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>, header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 2단계: 데이터 전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>, <span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 데이터셋 분류 (8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train, X_test, y_train, y_test <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> \</div><div style="padding:0 6px; white-space:pre; line-height:130%">    train_test_split(X, y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # 3단계: 파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr = make_pipeline(StandardScaler(),     # 변환기: 표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         PCA(n_components=2),  # 변환기: 차원 축소: 주성분 분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         LogisticRegression()) # 추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr.fit(X_train, y_train) # 학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># y_pred = pipe_lr.predict(X_test) # 예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # test_acc = pipe_lr.score(X_test, y_test) # 테스트 정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># k-겹 교차 검증(k-fold cross-validation)을 내부적으로 사용하여 학습 곡선을 그리기 위해 데이터 평가</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_lr <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> make_pipeline(StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">                        LogisticRegression(penalty<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'l2'</span>, max_iter<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10000</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">train_sizes, train_scores, test_scores <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>\</div><div style="padding:0 6px; white-space:pre; line-height:130%">                learning_curve(estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_lr,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                               X<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>X_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                               y<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                               train_sizes<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>np.linspace(<span style="color:#0099cc">0.</span><span style="color:#0099cc">1</span>, <span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>, <span style="color:#0099cc">10</span>),</div><div style="padding:0 6px; white-space:pre; line-height:130%">                               cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                               n_jobs<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">train_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.mean(train_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_std <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.std(train_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.mean(test_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_std <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.std(test_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(train_sizes, train_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>, marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'o'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>, label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Training accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(train_sizes,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 train_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">+</span> train_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 train_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">-</span> train_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>, color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(train_sizes, test_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>, linestyle<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'--'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'s'</span>, markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Validation accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(train_sizes,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 test_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">+</span> test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 test_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">-</span> test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>, color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.grid()</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.xlabel(<span style="color:#63a35c">'Number of training examples'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylabel(<span style="color:#63a35c">'Accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.legend(loc<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'lower right'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylim([<span style="color:#0099cc">0.</span><span style="color:#0099cc">8</span>, <span style="color:#0099cc">1.</span><span style="color:#0099cc">03</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.tight_layout()</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.show()</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div></div></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/7298a4d4bddf956bbd77921bd7b725661d2c4905" class="txc-image" width="468" height="394" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/7298a4d4bddf956bbd77921bd7b725661d2c4905" data-origin-width="625" data-origin-height="526"><div class="figcaption">훈련 샘플 개수에 따라 훈련 세트와 검증 세트의 정확도를 보여주는 학습 곡선</div></div><p> </p><p> </p><p><span style="background-color: #dddddd;"><b>② 검증 곡선으로 과대적합과 과소적합 조사</b></span></p><div class="figure-html" data-ke-type="html" data-source="<div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div><div style="line-height:130%">60</div><div style="line-height:130%">61</div><div style="line-height:130%">62</div><div style="line-height:130%">63</div><div style="line-height:130%">64</div><div style="line-height:130%">65</div><div style="line-height:130%">66</div><div style="line-height:130%">67</div><div style="line-height:130%">68</div><div style="line-height:130%">69</div><div style="line-height:130%">70</div><div style="line-height:130%">71</div><div style="line-height:130%">72</div><div style="line-height:130%">73</div><div style="line-height:130%">74</div><div style="line-height:130%">75</div><div style="line-height:130%">76</div><div style="line-height:130%">77</div><div style="line-height:130%">78</div><div style="line-height:130%">79</div><div style="line-height:130%">80</div><div style="line-height:130%">81</div><div style="line-height:130%">82</div><div style="line-height:130%">83</div><div style="line-height:130%">84</div><div style="line-height:130%">85</div><div style="line-height:130%">86</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;pandas&nbsp;<span style="color:#a71d5d">as</span>&nbsp;pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.decomposition&nbsp;<span style="color:#a71d5d">import</span>&nbsp;PCA</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.linear_model&nbsp;<span style="color:#a71d5d">import</span>&nbsp;LogisticRegression</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.pipeline&nbsp;<span style="color:#a71d5d">import</span>&nbsp;make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;matplotlib.pyplot&nbsp;<span style="color:#a71d5d">as</span>&nbsp;plt</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;validation_curve</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;numpy&nbsp;<span style="color:#a71d5d">as</span>&nbsp;np</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;1단계:&nbsp;데이터&nbsp;불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>,&nbsp;header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;2단계:&nbsp;데이터&nbsp;전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>,&nbsp;<span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;데이터셋&nbsp;분류&nbsp;(8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train,&nbsp;X_test,&nbsp;y_train,&nbsp;y_test&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;\</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;train_test_split(X,&nbsp;y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;3단계:&nbsp;파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr&nbsp;=&nbsp;make_pipeline(StandardScaler(),&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;변환기:&nbsp;표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PCA(n_components=2),&nbsp;&nbsp;#&nbsp;변환기:&nbsp;차원&nbsp;축소:&nbsp;주성분&nbsp;분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;LogisticRegression())&nbsp;#&nbsp;추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr.fit(X_train,&nbsp;y_train)&nbsp;#&nbsp;학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;y_pred&nbsp;=&nbsp;pipe_lr.predict(X_test)&nbsp;#&nbsp;예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;test_acc&nbsp;=&nbsp;pipe_lr.score(X_test,&nbsp;y_test)&nbsp;#&nbsp;테스트&nbsp;정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;k-겹&nbsp;교차&nbsp;검증(k-fold&nbsp;cross-validation)을&nbsp;내부적으로&nbsp;사용하여&nbsp;</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;검증&nbsp;곡선을&nbsp;그리기&nbsp;위해&nbsp;데이터&nbsp;평가</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_lr&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;make_pipeline(StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;LogisticRegression(penalty<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'l2'</span>,&nbsp;max_iter<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10000</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;[<span style="color:#0099cc">0.</span><span style="color:#0099cc">001</span>,&nbsp;<span style="color:#0099cc">0.</span><span style="color:#0099cc">01</span>,&nbsp;<span style="color:#0099cc">0.</span><span style="color:#0099cc">1</span>,&nbsp;<span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>,&nbsp;<span style="color:#0099cc">10.</span><span style="color:#0099cc">0</span>,&nbsp;<span style="color:#0099cc">100.</span><span style="color:#0099cc">0</span>]</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_scores,&nbsp;test_scores&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;validation_curve(</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_lr,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;X<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>X_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;y<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;param_name<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'logisticregression__C'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;param_range<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>)&nbsp;<span style="color:#999999">#&nbsp;10-겹&nbsp;교차&nbsp;검증</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.mean(train_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_std&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.std(train_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.mean(test_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_std&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;np.std(test_scores,&nbsp;axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(param_range,&nbsp;train_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>,&nbsp;marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'o'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>,&nbsp;label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Training&nbsp;accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(param_range,&nbsp;train_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">+</span>&nbsp;train_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;train_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">-</span>&nbsp;train_std,&nbsp;alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(param_range,&nbsp;test_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>,&nbsp;linestyle<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'--'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'s'</span>,&nbsp;markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Validation&nbsp;accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">+</span>&nbsp;test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_mean&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">-</span>&nbsp;test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>,&nbsp;color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.grid()</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.xscale(<span style="color:#63a35c">'log'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.legend(loc<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'lower&nbsp;right'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.xlabel(<span style="color:#63a35c">'Parameter&nbsp;C'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylabel(<span style="color:#63a35c">'Accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylim([<span style="color:#0099cc">0.</span><span style="color:#0099cc">8</span>,&nbsp;<span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.tight_layout()</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;plt.savefig('figures/06_06.png',&nbsp;dpi=300)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.show()</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div>"><div data-ke-class="article"><div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div><div style="line-height:130%">60</div><div style="line-height:130%">61</div><div style="line-height:130%">62</div><div style="line-height:130%">63</div><div style="line-height:130%">64</div><div style="line-height:130%">65</div><div style="line-height:130%">66</div><div style="line-height:130%">67</div><div style="line-height:130%">68</div><div style="line-height:130%">69</div><div style="line-height:130%">70</div><div style="line-height:130%">71</div><div style="line-height:130%">72</div><div style="line-height:130%">73</div><div style="line-height:130%">74</div><div style="line-height:130%">75</div><div style="line-height:130%">76</div><div style="line-height:130%">77</div><div style="line-height:130%">78</div><div style="line-height:130%">79</div><div style="line-height:130%">80</div><div style="line-height:130%">81</div><div style="line-height:130%">82</div><div style="line-height:130%">83</div><div style="line-height:130%">84</div><div style="line-height:130%">85</div><div style="line-height:130%">86</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> pandas <span style="color:#a71d5d">as</span> pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.decomposition <span style="color:#a71d5d">import</span> PCA</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.linear_model <span style="color:#a71d5d">import</span> LogisticRegression</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.pipeline <span style="color:#a71d5d">import</span> make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> matplotlib.pyplot <span style="color:#a71d5d">as</span> plt</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> validation_curve</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> numpy <span style="color:#a71d5d">as</span> np</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 1단계: 데이터 불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>, header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 2단계: 데이터 전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>, <span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 데이터셋 분류 (8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train, X_test, y_train, y_test <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> \</div><div style="padding:0 6px; white-space:pre; line-height:130%">    train_test_split(X, y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # 3단계: 파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr = make_pipeline(StandardScaler(),     # 변환기: 표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         PCA(n_components=2),  # 변환기: 차원 축소: 주성분 분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         LogisticRegression()) # 추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr.fit(X_train, y_train) # 학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># y_pred = pipe_lr.predict(X_test) # 예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # test_acc = pipe_lr.score(X_test, y_test) # 테스트 정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># k-겹 교차 검증(k-fold cross-validation)을 내부적으로 사용하여 </span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 검증 곡선을 그리기 위해 데이터 평가</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_lr <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> make_pipeline(StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">                        LogisticRegression(penalty<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'l2'</span>, max_iter<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10000</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> [<span style="color:#0099cc">0.</span><span style="color:#0099cc">001</span>, <span style="color:#0099cc">0.</span><span style="color:#0099cc">01</span>, <span style="color:#0099cc">0.</span><span style="color:#0099cc">1</span>, <span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>, <span style="color:#0099cc">10.</span><span style="color:#0099cc">0</span>, <span style="color:#0099cc">100.</span><span style="color:#0099cc">0</span>]</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_scores, test_scores <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> validation_curve(</div><div style="padding:0 6px; white-space:pre; line-height:130%">                estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_lr,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                X<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>X_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                y<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y_train,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                param_name<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'logisticregression__C'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                param_range<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>) <span style="color:#999999"># 10-겹 교차 검증</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">train_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.mean(train_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">train_std <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.std(train_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.mean(test_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">test_std <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> np.std(test_scores, axis<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(param_range, train_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>, marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'o'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>, label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Training accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(param_range, train_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">+</span> train_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 train_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">-</span> train_std, alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'blue'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.plot(param_range, test_mean,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>, linestyle<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'--'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         marker<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'s'</span>, markersize<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">5</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">         label<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'Validation accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.fill_between(param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 test_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">+</span> test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 test_mean <span style="color:#0086b3"></span><span style="color:#a71d5d">-</span> test_std,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                 alpha<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">15</span>, color<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'green'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.grid()</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.xscale(<span style="color:#63a35c">'log'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.legend(loc<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'lower right'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.xlabel(<span style="color:#63a35c">'Parameter C'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylabel(<span style="color:#63a35c">'Accuracy'</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.ylim([<span style="color:#0099cc">0.</span><span style="color:#0099cc">8</span>, <span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.tight_layout()</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># plt.savefig('figures/06_06.png', dpi=300)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">plt.show()</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div></div></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/31b464b135008a1d35e62a9c0a445d47cfca7802" class="txc-image" width="479" height="405" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/31b464b135008a1d35e62a9c0a445d47cfca7802" data-origin-width="623" data-origin-height="527"><div class="figcaption">SVM 하이퍼파라미터 C(규제 역수)에 대한 검증 곡선</div></div><p> </p><p> </p><p> </p><p> </p><p><span style="background-color: #dddddd;" data-ke-size="size20"><b>4. 그리드 서치를 사용한 머신 러닝 모델 세부 튜닝</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b> 파라미터 조합 샘플링</b> <br><b>① 그리드 서치</b>: 완전 탐색. (리스트로 지정된 하이퍼파라이터 값들을 모두 적용시킨 후 최적의 조합을 찾는 것)<br><b>② 랜덤 서치</b>: 하이퍼파라미터로 설정될 수 있는 범위 내에서 랜덤한 값을 뽑아 조합을 찾는 것.</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/327c222e508b0ae1f3f86f649a3fb5979210f96f" class="txc-image" width="607" height="260" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/327c222e508b0ae1f3f86f649a3fb5979210f96f" data-origin-width="870" data-origin-height="373"><div class="figcaption">아홉 개의 하이퍼파라미터 설정을 샘플링</div></div><p> </p><p><span style="background-color: #dddddd;"><b>① 그리드 서치를 사용한 하이퍼파라미터 튜닝</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>완전 탐색</b>: 리스트로 지정된 여러 가지 하이퍼파라미터 값 전체를 모두 조사.</li><li><b>문제점</b>: 하이퍼파라미터 그리드 설정이 크면 그리드 서치 비용이 많이듦.</li></ul><div class="figure-html" data-ke-type="html" data-source="<div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;pandas&nbsp;<span style="color:#a71d5d">as</span>&nbsp;pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.pipeline&nbsp;<span style="color:#a71d5d">import</span>&nbsp;make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;GridSearchCV</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.svm&nbsp;<span style="color:#a71d5d">import</span>&nbsp;SVC</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;1단계:&nbsp;데이터&nbsp;불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>,&nbsp;header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;2단계:&nbsp;데이터&nbsp;전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>,&nbsp;<span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;데이터셋&nbsp;분류&nbsp;(8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train,&nbsp;X_test,&nbsp;y_train,&nbsp;y_test&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;\</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;train_test_split(X,&nbsp;y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;3단계:&nbsp;파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr&nbsp;=&nbsp;make_pipeline(StandardScaler(),&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;변환기:&nbsp;표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PCA(n_components=2),&nbsp;&nbsp;#&nbsp;변환기:&nbsp;차원&nbsp;축소:&nbsp;주성분&nbsp;분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;LogisticRegression())&nbsp;#&nbsp;추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr.fit(X_train,&nbsp;y_train)&nbsp;#&nbsp;학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;y_pred&nbsp;=&nbsp;pipe_lr.predict(X_test)&nbsp;#&nbsp;예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;test_acc&nbsp;=&nbsp;pipe_lr.score(X_test,&nbsp;y_test)&nbsp;#&nbsp;테스트&nbsp;정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;그리드&nbsp;서치를&nbsp;사용한&nbsp;하이퍼파라미터&nbsp;튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_svc&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;make_pipeline(StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;SVC(random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;선형&nbsp;SVM의&nbsp;경우&nbsp;규제&nbsp;매개변수&nbsp;C만&nbsp;튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;[<span style="color:#0099cc">0.</span><span style="color:#0099cc">0001</span>,&nbsp;<span style="color:#0099cc">0.</span><span style="color:#0099cc">001</span>,&nbsp;<span style="color:#0099cc">0.</span><span style="color:#0099cc">01</span>,&nbsp;<span style="color:#0099cc">0.</span><span style="color:#0099cc">1</span>,&nbsp;<span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>,&nbsp;<span style="color:#0099cc">10.</span><span style="color:#0099cc">0</span>,&nbsp;<span style="color:#0099cc">100.</span><span style="color:#0099cc">0</span>,&nbsp;<span style="color:#0099cc">1000.</span><span style="color:#0099cc">0</span>]</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">param_grid&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;[{<span style="color:#63a35c">'svc__C'</span>:&nbsp;param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'svc__kernel'</span>:&nbsp;[<span style="color:#63a35c">'linear'</span>]},</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;{<span style="color:#63a35c">'svc__C'</span>:&nbsp;param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'svc__gamma'</span>:&nbsp;param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'svc__kernel'</span>:&nbsp;[<span style="color:#63a35c">'rbf'</span>]}]</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">gs&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;GridSearchCV(estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_svc,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;param_grid<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>param_grid,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;scoring<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'accuracy'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;refit<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>)&nbsp;<span style="color:#999999">#&nbsp;10-겹&nbsp;교차&nbsp;검증</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#999999">#&nbsp;(서로&nbsp;다른&nbsp;하이퍼파라미터&nbsp;설정으로&nbsp;훈련된&nbsp;모델을&nbsp;비교하기&nbsp;위해)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">gs&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;gs.fit(X_train,&nbsp;y_train)</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(gs.best_score_)</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(gs.best_params_)</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div>"><div data-ke-class="article"><div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> pandas <span style="color:#a71d5d">as</span> pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.pipeline <span style="color:#a71d5d">import</span> make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> GridSearchCV</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.svm <span style="color:#a71d5d">import</span> SVC</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 1단계: 데이터 불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>, header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 2단계: 데이터 전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>, <span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 데이터셋 분류 (8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train, X_test, y_train, y_test <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> \</div><div style="padding:0 6px; white-space:pre; line-height:130%">    train_test_split(X, y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # 3단계: 파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr = make_pipeline(StandardScaler(),     # 변환기: 표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         PCA(n_components=2),  # 변환기: 차원 축소: 주성분 분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         LogisticRegression()) # 추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr.fit(X_train, y_train) # 학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># y_pred = pipe_lr.predict(X_test) # 예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # test_acc = pipe_lr.score(X_test, y_test) # 테스트 정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 그리드 서치를 사용한 하이퍼파라미터 튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_svc <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> make_pipeline(StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">                         SVC(random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 선형 SVM의 경우 규제 매개변수 C만 튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> [<span style="color:#0099cc">0.</span><span style="color:#0099cc">0001</span>, <span style="color:#0099cc">0.</span><span style="color:#0099cc">001</span>, <span style="color:#0099cc">0.</span><span style="color:#0099cc">01</span>, <span style="color:#0099cc">0.</span><span style="color:#0099cc">1</span>, <span style="color:#0099cc">1.</span><span style="color:#0099cc">0</span>, <span style="color:#0099cc">10.</span><span style="color:#0099cc">0</span>, <span style="color:#0099cc">100.</span><span style="color:#0099cc">0</span>, <span style="color:#0099cc">1000.</span><span style="color:#0099cc">0</span>]</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">param_grid <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> [{<span style="color:#63a35c">'svc__C'</span>: param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">               <span style="color:#63a35c">'svc__kernel'</span>: [<span style="color:#63a35c">'linear'</span>]},</div><div style="padding:0 6px; white-space:pre; line-height:130%">              {<span style="color:#63a35c">'svc__C'</span>: param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">               <span style="color:#63a35c">'svc__gamma'</span>: param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">               <span style="color:#63a35c">'svc__kernel'</span>: [<span style="color:#63a35c">'rbf'</span>]}]</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">gs <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> GridSearchCV(estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_svc,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                  param_grid<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>param_grid,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                  scoring<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'accuracy'</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                  refit<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                  cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>) <span style="color:#999999"># 10-겹 교차 검증</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                         <span style="color:#999999"># (서로 다른 하이퍼파라미터 설정으로 훈련된 모델을 비교하기 위해)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">gs <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> gs.fit(X_train, y_train)</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(gs.best_score_)</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(gs.best_params_)</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div></div></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/712f7a9b945e720a02440d0f8026a94955eab44c" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/712f7a9b945e720a02440d0f8026a94955eab44c" data-origin-width="421" data-origin-height="33"><div class="figcaption">테스트 정확도: 0.984 / 그에 따른 하이퍼파라미터</div></div><p> </p><p><span style="background-color: #dddddd;"><b> ② 랜덤 서치로 하이퍼파라미터 설정을 더 넓게 탐색하기</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>그리드 서치</b>는 <b>완전 탐색</b>이기에 사용자가 지정한 파라미터 그리드에 최적의 하이퍼파라미터가 포함되어 있다면 무조건 찾을 수 있음.</li><li>그러나 그리드 서치 비용의 문제로 <b>랜덤 서치</b>를 사용.</li><li><b>랜덤 서치</b>: 분포에서 랜덤하게 하이퍼파라미터 설정을 샘플링함.<br>(하이퍼파라미터 공간에 대해 완전 탐색을 수행하지 않기에 비용과 시간 측면에서 더 효율적으로 넓은 범위의 하이퍼파라미터 값을 탐색할 수 있음)</li></ul><div class="figure-html" data-ke-type="html" data-source="<div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div><div style="line-height:130%">60</div><div style="line-height:130%">61</div><div style="line-height:130%">62</div><div style="line-height:130%">63</div><div style="line-height:130%">64</div><div style="line-height:130%">65</div><div style="line-height:130%">66</div><div style="line-height:130%">67</div><div style="line-height:130%">68</div><div style="line-height:130%">69</div><div style="line-height:130%">70</div><div style="line-height:130%">71</div><div style="line-height:130%">72</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;pandas&nbsp;<span style="color:#a71d5d">as</span>&nbsp;pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.preprocessing&nbsp;<span style="color:#a71d5d">import</span>&nbsp;StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.pipeline&nbsp;<span style="color:#a71d5d">import</span>&nbsp;make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;scipy.stats</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.model_selection&nbsp;<span style="color:#a71d5d">import</span>&nbsp;RandomizedSearchCV</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span>&nbsp;sklearn.svm&nbsp;<span style="color:#a71d5d">import</span>&nbsp;SVC</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span>&nbsp;numpy&nbsp;<span style="color:#a71d5d">as</span>&nbsp;np</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;1단계:&nbsp;데이터&nbsp;불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>,&nbsp;header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;2단계:&nbsp;데이터&nbsp;전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;df.loc[:,&nbsp;<span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>,&nbsp;<span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;데이터셋&nbsp;분류&nbsp;(8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train,&nbsp;X_test,&nbsp;y_train,&nbsp;y_test&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;\</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;train_test_split(X,&nbsp;y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;3단계:&nbsp;파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr&nbsp;=&nbsp;make_pipeline(StandardScaler(),&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;#&nbsp;변환기:&nbsp;표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;PCA(n_components=2),&nbsp;&nbsp;#&nbsp;변환기:&nbsp;차원&nbsp;축소:&nbsp;주성분&nbsp;분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;LogisticRegression())&nbsp;#&nbsp;추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;pipe_lr.fit(X_train,&nbsp;y_train)&nbsp;#&nbsp;학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;y_pred&nbsp;=&nbsp;pipe_lr.predict(X_test)&nbsp;#&nbsp;예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;#&nbsp;test_acc&nbsp;=&nbsp;pipe_lr.score(X_test,&nbsp;y_test)&nbsp;#&nbsp;테스트&nbsp;정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;랜덤&nbsp;서치를&nbsp;사용한&nbsp;하이퍼파라미터&nbsp;튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#&nbsp;선형&nbsp;SVM의&nbsp;경우&nbsp;규제&nbsp;매개변수&nbsp;C만&nbsp;튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#param_range&nbsp;=&nbsp;[0.0001,&nbsp;0.001,&nbsp;0.01,&nbsp;0.1,&nbsp;1.0,&nbsp;10.0,&nbsp;100.0,&nbsp;1000.0]</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#이전&nbsp;그리드&nbsp;서치&nbsp;데이터(가능한&nbsp;하이퍼&nbsp;파라미터&nbsp;범위)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;scipy.stats.loguniform(<span style="color:#0099cc">0.</span><span style="color:#0099cc">0001</span>,&nbsp;<span style="color:#0099cc">1000.</span><span style="color:#0099cc">0</span>)&nbsp;&nbsp;<span style="color:#999999">#&nbsp;로그&nbsp;균일&nbsp;분포를&nbsp;따르는&nbsp;파라미터&nbsp;범위&nbsp;설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">np.random.seed(<span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range.rvs(<span style="color:#0099cc">10</span>)&nbsp;&nbsp;<span style="color:#999999">#10개의&nbsp;랜덤&nbsp;수&nbsp;생성</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_svc&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;make_pipeline(&nbsp;&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;SVC(random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">param_grid&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;[{<span style="color:#63a35c">'svc__C'</span>:&nbsp;param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'svc__kernel'</span>:&nbsp;[<span style="color:#63a35c">'linear'</span>]},</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;{<span style="color:#63a35c">'svc__C'</span>:&nbsp;param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'svc__gamma'</span>:&nbsp;param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;<span style="color:#63a35c">'svc__kernel'</span>:&nbsp;[<span style="color:#63a35c">'rbf'</span>]}]</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">rs&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;RandomizedSearchCV(estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_svc,&nbsp;&nbsp;<span style="color:#999999">#&nbsp;랜덤&nbsp;서치를&nbsp;위한&nbsp;파이프라인&nbsp;설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;param_distributions<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>param_grid,&nbsp;&nbsp;<span style="color:#999999">#&nbsp;탐색할&nbsp;파라미터&nbsp;분포&nbsp;설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;scoring<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'accuracy'</span>,&nbsp;&nbsp;<span style="color:#999999">#&nbsp;평가&nbsp;지표&nbsp;설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;refit<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span>,&nbsp;&nbsp;<span style="color:#999999">#재학습&nbsp;여부&nbsp;설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;n_iter<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">20</span>,&nbsp;&nbsp;<span style="color:#999999">#하이퍼파라미터&nbsp;조합을&nbsp;몇&nbsp;번&nbsp;탐색할지&nbsp;설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>,&nbsp;&nbsp;<span style="color:#999999">#f-교차&nbsp;검증에서&nbsp;fold의&nbsp;수&nbsp;설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>,&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;n_jobs<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0086b3"></span><span style="color:#a71d5d">-</span><span style="color:#0099cc">1</span>)&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%">rs&nbsp;<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>&nbsp;rs.fit(X_train,&nbsp;y_train)</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(rs.best_score_)&nbsp;&nbsp;</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(rs.best_params_)</div><div style="padding:0 6px; white-space:pre; line-height:130%">&nbsp;</div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div>"><div data-ke-class="article"><div class="colorscripter-code" style="color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important; position:relative !important;overflow:auto"><table class="colorscripter-code-table" style="margin:0;padding:0;border:none;background-color:#fafafa;border-radius:4px;" cellspacing="0" cellpadding="0"><tr><td style="padding:6px;border-right:2px solid #e5e5e5"><div style="margin:0;padding:0;word-break:normal;text-align:right;color:#666;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="line-height:130%">1</div><div style="line-height:130%">2</div><div style="line-height:130%">3</div><div style="line-height:130%">4</div><div style="line-height:130%">5</div><div style="line-height:130%">6</div><div style="line-height:130%">7</div><div style="line-height:130%">8</div><div style="line-height:130%">9</div><div style="line-height:130%">10</div><div style="line-height:130%">11</div><div style="line-height:130%">12</div><div style="line-height:130%">13</div><div style="line-height:130%">14</div><div style="line-height:130%">15</div><div style="line-height:130%">16</div><div style="line-height:130%">17</div><div style="line-height:130%">18</div><div style="line-height:130%">19</div><div style="line-height:130%">20</div><div style="line-height:130%">21</div><div style="line-height:130%">22</div><div style="line-height:130%">23</div><div style="line-height:130%">24</div><div style="line-height:130%">25</div><div style="line-height:130%">26</div><div style="line-height:130%">27</div><div style="line-height:130%">28</div><div style="line-height:130%">29</div><div style="line-height:130%">30</div><div style="line-height:130%">31</div><div style="line-height:130%">32</div><div style="line-height:130%">33</div><div style="line-height:130%">34</div><div style="line-height:130%">35</div><div style="line-height:130%">36</div><div style="line-height:130%">37</div><div style="line-height:130%">38</div><div style="line-height:130%">39</div><div style="line-height:130%">40</div><div style="line-height:130%">41</div><div style="line-height:130%">42</div><div style="line-height:130%">43</div><div style="line-height:130%">44</div><div style="line-height:130%">45</div><div style="line-height:130%">46</div><div style="line-height:130%">47</div><div style="line-height:130%">48</div><div style="line-height:130%">49</div><div style="line-height:130%">50</div><div style="line-height:130%">51</div><div style="line-height:130%">52</div><div style="line-height:130%">53</div><div style="line-height:130%">54</div><div style="line-height:130%">55</div><div style="line-height:130%">56</div><div style="line-height:130%">57</div><div style="line-height:130%">58</div><div style="line-height:130%">59</div><div style="line-height:130%">60</div><div style="line-height:130%">61</div><div style="line-height:130%">62</div><div style="line-height:130%">63</div><div style="line-height:130%">64</div><div style="line-height:130%">65</div><div style="line-height:130%">66</div><div style="line-height:130%">67</div><div style="line-height:130%">68</div><div style="line-height:130%">69</div><div style="line-height:130%">70</div><div style="line-height:130%">71</div><div style="line-height:130%">72</div></div></td><td style="padding:6px 0;text-align:left"><div style="margin:0;padding:0;color:#010101;font-family:Consolas, 'Liberation Mono', Menlo, Courier, monospace !important;line-height:130%"><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> pandas <span style="color:#a71d5d">as</span> pd</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> LabelEncoder</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> train_test_split</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.preprocessing <span style="color:#a71d5d">import</span> StandardScaler</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.pipeline <span style="color:#a71d5d">import</span> make_pipeline</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> scipy.stats</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.model_selection <span style="color:#a71d5d">import</span> RandomizedSearchCV</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">from</span> sklearn.svm <span style="color:#a71d5d">import</span> SVC</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#a71d5d">import</span> numpy <span style="color:#a71d5d">as</span> np</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 1단계: 데이터 불러오기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">df <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> pd.read_csv(<span style="color:#63a35c">'https://archive.ics.uci.edu/ml/'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'machine-learning-databases'</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                 <span style="color:#63a35c">'/breast-cancer-wisconsin/wdbc.data'</span>, header<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">None</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 2단계: 데이터 전처리리</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 인코딩</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">2</span>:].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> df.loc[:, <span style="color:#0099cc">1</span>].values</div><div style="padding:0 6px; white-space:pre; line-height:130%">le <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> LabelEncoder()</div><div style="padding:0 6px; white-space:pre; line-height:130%">y <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> le.fit_transform(y)</div><div style="padding:0 6px; white-space:pre; line-height:130%">le.transform([<span style="color:#63a35c">'M'</span>, <span style="color:#63a35c">'B'</span>])</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 데이터셋 분류 (8:2)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">X_train, X_test, y_train, y_test <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> \</div><div style="padding:0 6px; white-space:pre; line-height:130%">    train_test_split(X, y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     test_size<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">0.</span><span style="color:#0099cc">20</span>,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     stratify<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>y,</div><div style="padding:0 6px; white-space:pre; line-height:130%">                     random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # 3단계: 파이프라인</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr = make_pipeline(StandardScaler(),     # 변환기: 표준화</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         PCA(n_components=2),  # 변환기: 차원 축소: 주성분 분석(PCA)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#                         LogisticRegression()) # 추정기</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># pipe_lr.fit(X_train, y_train) # 학습</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># y_pred = pipe_lr.predict(X_test) # 예측</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># # test_acc = pipe_lr.score(X_test, y_test) # 테스트 정확도</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 랜덤 서치를 사용한 하이퍼파라미터 튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999"># 선형 SVM의 경우 규제 매개변수 C만 튜닝</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#param_range = [0.0001, 0.001, 0.01, 0.1, 1.0, 10.0, 100.0, 1000.0]</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#999999">#이전 그리드 서치 데이터(가능한 하이퍼 파라미터 범위)</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> scipy.stats.loguniform(<span style="color:#0099cc">0.</span><span style="color:#0099cc">0001</span>, <span style="color:#0099cc">1000.</span><span style="color:#0099cc">0</span>)  <span style="color:#999999"># 로그 균일 분포를 따르는 파라미터 범위 설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">np.random.seed(<span style="color:#0099cc">1</span>)</div><div style="padding:0 6px; white-space:pre; line-height:130%">param_range.rvs(<span style="color:#0099cc">10</span>)  <span style="color:#999999">#10개의 랜덤 수 생성</span></div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">pipe_svc <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> make_pipeline(  </div><div style="padding:0 6px; white-space:pre; line-height:130%">    StandardScaler(),</div><div style="padding:0 6px; white-space:pre; line-height:130%">    SVC(random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>))</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">param_grid <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> [{<span style="color:#63a35c">'svc__C'</span>: param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">               <span style="color:#63a35c">'svc__kernel'</span>: [<span style="color:#63a35c">'linear'</span>]},</div><div style="padding:0 6px; white-space:pre; line-height:130%">              {<span style="color:#63a35c">'svc__C'</span>: param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">               <span style="color:#63a35c">'svc__gamma'</span>: param_range,</div><div style="padding:0 6px; white-space:pre; line-height:130%">               <span style="color:#63a35c">'svc__kernel'</span>: [<span style="color:#63a35c">'rbf'</span>]}]</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">rs <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> RandomizedSearchCV(estimator<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>pipe_svc,  <span style="color:#999999"># 랜덤 서치를 위한 파이프라인 설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                        param_distributions<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span>param_grid,  <span style="color:#999999"># 탐색할 파라미터 분포 설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                        scoring<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#63a35c">'accuracy'</span>,  <span style="color:#999999"># 평가 지표 설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                        refit<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#066de2">True</span>,  <span style="color:#999999">#재학습 여부 설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                        n_iter<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">20</span>,  <span style="color:#999999">#하이퍼파라미터 조합을 몇 번 탐색할지 설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                        cv<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">10</span>,  <span style="color:#999999">#f-교차 검증에서 fold의 수 설정</span></div><div style="padding:0 6px; white-space:pre; line-height:130%">                        random_state<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0099cc">1</span>, </div><div style="padding:0 6px; white-space:pre; line-height:130%">                        n_jobs<span style="color:#0086b3"></span><span style="color:#a71d5d">=</span><span style="color:#0086b3"></span><span style="color:#a71d5d">-</span><span style="color:#0099cc">1</span>) </div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div><div style="padding:0 6px; white-space:pre; line-height:130%">rs <span style="color:#0086b3"></span><span style="color:#a71d5d">=</span> rs.fit(X_train, y_train)</div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(rs.best_score_)  </div><div style="padding:0 6px; white-space:pre; line-height:130%"><span style="color:#066de2">print</span>(rs.best_params_)</div><div style="padding:0 6px; white-space:pre; line-height:130%"> </div></div><div style="text-align:right;margin-top:-13px;margin-right:5px;font-size:9px;font-style:italic"><a href="http://colorscripter.com/info#e" target="_blank" style="color:#e5e5e5text-decoration:none">Colored by Color Scripter</a></div></td><td style="vertical-align:bottom;padding:0 2px 4px 0"><a href="http://colorscripter.com/info#e" target="_blank" style="text-decoration:none;color:white"><span style="font-size:9px;word-break:normal;background-color:#e5e5e5;color:white;border-radius:10px;padding:1px">cs</span></a></td></tr></table></div></div></div><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/3bbab594e5f803fd81ae87be092b81eeb236c421" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/3bbab594e5f803fd81ae87be092b81eeb236c421" data-origin-width="392" data-origin-height="33"><div class="figcaption">테스트 정확도: 0.978 / 그에 따른 하이퍼파라미터</div></div><p> </p><p><span style="background-color: #dddddd;"><b>③ 중첩 교차 검증을 사용한 알고리즘 선택</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>중첩 교차 검증<br></b><u>바깥쪽 k-겹 교차 검증 루프</u>가 데이터를 <b>훈련 폴드</b>와 <b>테스트 폴드</b>로 나누고,<br><u>안쪽 루프</u>가 <b>훈련 폴드</b>에서 k-겹 교차 검증을 수행하여 모델을 선택한다. <br><u>바깥 루프</u>에 다섯 개의 폴드를 사용하고, <u>안쪽 루프</u>에 두 개의 폴드를 사용하는 중첩 교차 검증의 개념을 보여 주고 있음.</li><li>계산 성능이 중요한 대용량 데이터셋에서 유용함.</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/488f95b51846a13880739de73aceb02425ac21fe" class="txc-image" width="403" height="327" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/488f95b51846a13880739de73aceb02425ac21fe" data-origin-width="771" data-origin-height="626"></div><p> </p><p> </p><p> </p><p> </p><p><span style="background-color: #dddddd;" data-ke-size="size20"><b>5. 여러 가지 성능 평가 지표</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>일반적으로 분류 모델의 성능을 <b>정량화</b>하는데 유용함. (<b>성능 지표</b>를 통해 주어진 문제에 모델이 적합한지 측정할 수 있음)</li></ul><p><b>① 오차 행렬: </b>학습 알고리즘의 성능을 펼쳐놓은 행렬.</p><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1RgNt/560b45358aedabb0dd39c6b288ff486173f9caf5" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1RgNt/560b45358aedabb0dd39c6b288ff486173f9caf5" data-origin-width="610" data-origin-height="256"><div class="figcaption">오차 행렬 / 유방암 데이터셋의 오차 행렬</div></div><p> </p><p><span style="background-color: #dddddd;"> <b>② 분류 모델의 정밀도와 재현율 최적화</b></span></p><ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>예측 오차(ERR)</b>와 <b>정확도(ACC)</b> 모두 얼마나 많은 샘플을 잘못 분류했는지는 일반적으로 알려줌.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>예측 오차(ERR):</b> 잘못된 예측의 합을 전체 예측 샘플 개수로 나눈 것.</li><li><b>정확도(ACC):</b> 옳은 예측의 합을 전체 예측 샘플 개수로 나눈 것.</li></ul></li><li><b> 거짓 양성 비율(FPR)</b>과 <b>진짜 양성 비율(TPR)</b>은 클래스 비율이 다른 경우 유용한 성능 지표임.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>거짓 양성 비율(FPR) </b>= FP/N(FP+TN)</li><li><b>진짜 양성 비율(TPR) </b>= TP/P(FN+TP)</li></ul></li><li><b> 정밀도(PRE)</b>와 <b>재현율(REC)</b> 성능 지표는 진짜 양성과 진짜 음성 샘플의 비율과 관련있음.<ul style="list-style-type: disc;" data-ke-list-type="disc"><li><b>정밀도(PRE)</b> <b> </b>= TP/(TP+FP)</li><li><b>재현율(REC) = TPR </b>= TP/P(FN+TP)</li></ul></li></ul>