5. 딥러닝

[실습] Python을 활용한 AI 모델링 - 딥러닝 파트<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>이번시간에는 Python을 활용한 AI 모델링에서 딥러닝에 대해 실습해 보겠습니다.</li><li>여기서는 딥러닝 모델 DNN, CNN, RNN 에 대해 코딩하여 모델 구축해 보겠습니다.</li><li>한가지 당부 드리고 싶은 말은 "백문이불여일타" 입니다.</li><li>이론보다 실습이 더 많은 시간과 노력이 투자 되어야 합니다.</li></ul>학습목차<ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>실습을 위한 KT AIDU 환경변수 설정</li><li>딥러닝 모델(DNN, CNN, RNN) 프로세스</li></ol>1. 실습을 위한 KT AIDU 환경변수 설정In [1]:# 코드실행시 경고 메시지 무시import warningswarnings.filterwarnings(action='ignore')  AIDU 라이브러리 임포트In [2]:from aicentro.session import Sessionfrom aicentro.framework.keras import Keras as AiduFrm aidu_session = Session(verify=False)aidu_framework = AiduFrm(session=aidu_session) AIDU 디렉토리 환경변수<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>data 경로: aidu_framework.config.data_dir</li></ul>In [3]:# aidu_framework.config.data_dir 내용 확인aidu_framework.config.data_dir         #나중에 여기에 + ‘\cust_data.csv’Out[3]:'/aihub/data'   2. 딥러닝 모델(DNN, CNN, RNN) 프로세스① 라이브러리 임포트(import) ② 데이터 가져오기(Loading the data) ③ 탐색적 데이터 분석(Exploratory Data Analysis) ④ 데이터 전처리(Data PreProcessing) : 데이터타입 변환, Null 데이터 처리, 누락데이터 처리, 더미특성 생성, 특성 추출 (feature engineering) 등 ⑤ Train, Test 데이터셋 분할 ⑥ 데이터 정규화(Normalizing the Data) ⑦ 모델 개발(Creating the Model) ⑧ 모델 성능 평가① 라이브러리 임포트필요 라이브러리 임포트In [4]:import numpy as npimport pandas as pdimport matplotlib.pyplot as plt ② 데이터 로드In [5]:#고객등급(cust_class), 성별(sex_type), 나이(age), 사용서비스수(efct_svc_count), 서비스중지여부 (dt_stop_yn), 미납여부(npay_yn)#3개월 평균 요금(r3m_avg_bill_amt), A서비스 3개월 평균요금(r3m_A_avg_arpu_amt), B서비스 3개월 평균요금(r3m_B_avg_arpu_amt), 해지여부(termination_yn) df = pd.read_csv('cust_data.csv') ③ 데이터 분석In [6]:# 12컬럼, 7814 라인df.info()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/848e256c32978be22fd9f6f505b112fd08171a2d" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/848e256c32978be22fd9f6f505b112fd08171a2d" data-origin-width="360" data-origin-height="563"></div>    In [7]:df.tail()Out[7]:<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/ecae6b09e06ef573f4cf24a268dbc2d473f7a75e" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/ecae6b09e06ef573f4cf24a268dbc2d473f7a75e" data-origin-width="967" data-origin-height="371"></div>    In [8]:# termination 레이블 불균형 df['termination'].value_counts().plot(kind='bar')Out[8]:<AxesSubplot:><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/ef59bbcb1589eed4be83580ae33cd9c163f8690b" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/ef59bbcb1589eed4be83580ae33cd9c163f8690b" data-origin-width="413" data-origin-height="251"></div>   ④ 데이터 전처리    문자->숫자로<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>Object 컬럼에 대해 Pandas get_dummies 함수 활용하여 One-Hot-Encoding</li></ul>In [9]:  #여러 개 한꺼번에 one-hot encoding.cal_cols = ['class', 'sex', 'stop', 'npay', 'termination', 'bill_rating'] In [10]:  #one-hot encodingdf1 = pd.get_dummies(data=df, columns=cal_cols, drop_first=True)  #drop_first를 쓰면 첫번째 레벨 뺴고 만들어짐.  k개중 k-1개 만들어짐 참고,print(tf.one_hot(temp_y[0], 10))print(tf.one_hot(temp_y, 10))  In [11]:# 19컬럼, 7814 라인df1.info()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/ea8f03802381127e305066db77e80d115b3dac80" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/ea8f03802381127e305066db77e80d115b3dac80" data-origin-width="408" data-origin-height="695"></div>    ⑤ Train, Test 데이터셋 분할In [12]:from sklearn.model_selection import train_test_split In [13]:X = df1.drop('termination_Y', axis=1).values      #termination 값 외 나머지 넣기y = df1['termination_Y'].values               #terminaction(해지여부) 값 넣기 In [14]:X_train, X_test, y_train, y_test = train_test_split(X, y,                                                     test_size=0.3,                                                     stratify=y,                                                    random_state=42)    참고, train데이터와 test데이터가 따로 주어진 경우df_feature = pd.read_csv("onenavi_train_feature.csv",sep="|")df_target = pd.read_csv("onenavi_train_target.csv",sep="|") from sklearn.model_selection import train_test_splittrain_x, test_x, train_y, test_y = train_test_split(df_feature, df_target, test_size=0.20, random_state=42)   In [15]:X_train.shapeOut[15]:(5469, 18)  In [16]:y_train.shapeOut[16]:(5469,)    ⑥ 데이터 정규화/스케일링(Normalizing/Scaling)In [17]:# 숫자 분포 이루어진 컬럼 확인df1.tail()Out[17]:<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/b54ddb58002849f167a05e8d5f3b8a18ac48528d" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/b54ddb58002849f167a05e8d5f3b8a18ac48528d" data-origin-width="1745" data-origin-height="374"></div>    In [18]:  #정규화from sklearn.preprocessing import MinMaxScaler In [19]:scaler = MinMaxScaler()X_train = scaler.fit_transform(X_train)X_test = scaler.transform(X_test) In [20]:X_train[:2]Out[20]:<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/7138a467ae93fa56fad089c68fbbe93190602f6c" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/7138a467ae93fa56fad089c68fbbe93190602f6c" data-origin-width="399" data-origin-height="183"></div>  #모델 입력갯수, 출력갯수 확인In [21]:X_train.shapeOut[21]:(5469, 18) In [22]:y_train.shapeOut[22]:(5469,)   ⑦ 모델 개발1) DNNA. 이진 분류용 DNN layer<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>18개 input layer</li><li>unit 4개 hidden layer</li><li>unit 3개 hidden layer</li><li>1개 output layser : 이진분류</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/48816105b5c1f82c4d9b59c6ac69794243e172c1" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/48816105b5c1f82c4d9b59c6ac69794243e172c1" data-origin-width="585" data-origin-height="462"></div><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>[출처] <a href="https://subscription.packtpub.com/book/data/9781788995207/1/ch01lvl1sec03/deep-learning-intuition" target="_top" class="ke-link">https://subscription.packtpub.com/book/data/9781788995207/1/ch01lvl1sec03/deep-learning-intuition</a></li></ul>In [23]: 임포트 하기import tensorflow as tffrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Dense, Activation, Dropout In [24]:# 18개 input layer# unit 4개 hidden layer# unit 3개 hidden layer # 1개 output layser : 이진분류    model = Sequential()model.add(Dense(4, activation='relu', input_shape=(18,)))   #첫번째 히든레이어부터 생성. 거기에 input입력model.add(Dense(3, activation='relu'))model.add(Dense(1, activation='sigmoid'))   #1개값에 분류 모델. 참고,def build_model():  model = keras.Sequential([    layers.Dense(64, activation='relu', input_shape=[len(train_x.keys())]),    layers.Dense(64, activation='relu'),    layers.Dense(1)  ])   model.compile(loss='mse',                optimizer='adam',                metrics=['mae', 'mse'])  return model  모델 확인In [25]:model.summary()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/79464a53aa60d556ed575c426dae73aee5981fc5" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/79464a53aa60d556ed575c426dae73aee5981fc5" data-origin-width="799" data-origin-height="422"></div>    모델 컴파일 – 이진 분류 모델   #빨리 처리하기 위해서 컴파일.In [26]:model.compile(optimizer='adam',                                  loss='binary_crossentropy',               metrics=['accuracy'])                                        #최적화 adam사용,  #y가 1개 값이 나오기 때문에 binary_crossentropy 써줘야 함.  Dropout : 과적합 방지<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/79772fa66f3adacba98e61a8deb5698ed0129d22" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/79772fa66f3adacba98e61a8deb5698ed0129d22" data-origin-width="567" data-origin-height="301"></div><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>[출처] <a href="https://medium.com/@amarbudhiraja/https-medium-com-amarbudhiraja-learning-less-to-learn-better-dropout-in-deep-machine-learning-74334da4bfc5" target="_top" class="ke-link">https://medium.com/@amarbudhiraja/https-medium-com-amarbudhiraja-learning-less-to-learn-better-dropout-in-deep-machine-learning-74334da4bfc5</a></li></ul>   In [27]:model = Sequential()model.add(Dense(4, activation='relu', input_shape=(18,)))model.add(Dropout(0.3))          #히든레이어 설정 후 과적합 코드 0.3=30%확률로 없어짐.model.add(Dense(3, activation='relu'))model.add(Dropout(0.3))model.add(Dense(1, activation='sigmoid')) In [28]:model.summary()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/4f37ecdbdf84bbe4ab0e5401b17f9d55706032eb" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/4f37ecdbdf84bbe4ab0e5401b17f9d55706032eb" data-origin-width="972" data-origin-height="610"></div>     모델 컴파일 – 이진 분류 모델In [29]:model.compile(optimizer='adam',               loss='binary_crossentropy',               metrics=['accuracy'])  모델 훈련(학습) 하기  ##fitting!!   test데이터로 학습In [30]:history = model.fit(X_train, y_train,           validation_data=(X_test, y_test),          epochs=20,          #20번 학습          batch_size=16)          #16사이즈 만큼 잘라서 학습<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/5f637e3c4ef528a2810027888f97e11d94e85159" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/5f637e3c4ef528a2810027888f97e11d94e85159" data-origin-width="679" data-origin-height="705"></div> Loss가 점점 낮아지고 정확도 점점 올라감.     B. 다중 분류용 DNN layer    #y가 2개인 경우<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>18개 input layer</li><li>unit 5개 hidden layer</li><li>dropout</li><li>unit 4개 hidden layer</li><li>dropout</li><li>2개 output layser : 이진분류</li></ul><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/cb82d692f89ebf2b90e5820ee5fcf2d1449ba7d3" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/cb82d692f89ebf2b90e5820ee5fcf2d1449ba7d3" data-origin-width="602" data-origin-height="376"></div>In [31]:# 18개 input layer# unit 5개 hidden layer# dropout# unit 4개 hidden layer # dropout# 2개 output layser : 다중분류 model = Sequential()model.add(Dense(5, activation='relu', input_shape=(18,)))model.add(Dropout(0.3))model.add(Dense(4, activation='relu'))model.add(Dropout(0.3))model.add(Dense(2, activation='softmax'))    #다중분류라 softmax   y1, y2로 나오게 됨. In [32]:model.summary()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/b3313ebae1bac9881f1334d9110dce38ee7bf02b" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/b3313ebae1bac9881f1334d9110dce38ee7bf02b" data-origin-width="527" data-origin-height="477"></div>    모델 컴파일 – 다중 분류 모델In [33]:model.compile(optimizer='adam',               loss='sparse_categorical_crossentropy',               metrics=['accuracy'])      # 다중 모델이라서  <ul style="list-style-type: disc;" data-ke-list-type="disc"><li>원핫인코딩 되어 있는 경우: categorical_crossentropy</li><li>원핫인코딩 안되어 있는 경우: sparse_categorical_crossentropy</li><li>원핫인코딩 확인 방법</li><li># Case1 : 원핫인코딩이 안된 데이터</li><li>temp_y=[9,5,6,7,1,2,5,4,6,0]</li><li>temp_y[0]  </li><li>[out] 9         1,0,이 아니라서 원핫인코딩 안되어 있음</li></ul> 모델 훈련(학습) 하기In [34]:history = model.fit(X_train, y_train,           validation_data=(X_test, y_test),          epochs=20,           batch_size=16)<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/b5058e1d5721a6a9ed1b0e7349bd3e7e799b953b" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/b5058e1d5721a6a9ed1b0e7349bd3e7e799b953b" data-origin-width="704" data-origin-height="696"></div>#loss와 accuracy로 평가 할수 있지만 시각화 하기.      ⑧ 모델 성능 평가성능 시각화In [35]:losses = pd.DataFrame(model.history.history)   #복붙 In [36]:losses.head()Out[36]:<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/aef2c4fc773acec226b14a818cf13d7174d0a977" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/aef2c4fc773acec226b14a818cf13d7174d0a977" data-origin-width="354" data-origin-height="335"></div>    In [37]:losses[['loss','val_loss']].plot()Out[37]:<AxesSubplot:> <div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/512501307cc303fb774378f7513be0726e88341f" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/512501307cc303fb774378f7513be0726e88341f" data-origin-width="391" data-origin-height="254"></div> In [38]:losses[['loss','val_loss', 'accuracy','val_accuracy']].plot()Out[38]:<AxesSubplot:><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/1ec275332a7f12efd6187a5f9ad363ea686529a9" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/1ec275332a7f12efd6187a5f9ad363ea686529a9" data-origin-width="391" data-origin-height="254"></div>      In [39]: #matplotlib 사용plt.plot(history.history['accuracy'])plt.plot(history.history['val_accuracy'])plt.title('Accuracy')plt.xlabel('Epochs')plt.ylabel('Acc')plt.legend(['acc', 'val_acc'])plt.show()<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/619cb68c614494c226377eda9ef5a4cc6327fe97" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/619cb68c614494c226377eda9ef5a4cc6327fe97" data-origin-width="421" data-origin-height="302"></div>     2) CNN #이미지 처리시 좋음<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/e7a55e700e799bc2a902a23db57ca3d685120aa6" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/e7a55e700e799bc2a902a23db57ca3d685120aa6" data-origin-width="713" data-origin-height="241"></div><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>[출처] <a href="https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53" target="_top" class="ke-link">https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53</a></li></ul><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>CNN은 이미지 처리에 높은 성능을 보여주고 있어 DNN에서 다뤄던 Tabular 형태의 데이터를 가지고 테스트 진행하기 어려워</li><li>따로 이미지 준비하여 CNN 실습을 진행하겠습니다.</li><li>Feature learning을 통해 특징 파악, 고양이 인지 차인지 등등 확인.</li></ul> KT AIDU 사이트에 업로드된 이미지 파일 가져오기In [40]:from glob import globimport tensorflow as tf In [41]:# KT AIDU 사이트에 업로드한 dataset-clean,dirty.zip 파일 확인   #영상에서는 폴더가 다름.glob('dataset-clean,dirty.zip')     #glob(aidu_framework.config.data_dir + ‘\datase-clean,dirty.zip’)Out[41]:['dataset-clean,dirty.zip']         #’/aibub/data/dataset-clean,dirty.zip’ In [42]:# dataset-clean,dirty.zip 파일을 현재 디렉토리로 복사    # ! 느낌표는 리눅스 영역!mkdir IMAGE!cp ./dataset-clean,dirty.zip ./IMAGE        #!cp ’aibub/data/dataset-clean,dirty.zip ./IMAGE In [43]:# dataset-small-clean,dirty.zip 압축풀기 !cd IMAGE ; unzip -o dataset-clean,dirty.zipArchive:  dataset-clean,dirty.zip   creating: dataset-clean,dirty/   creating: dataset-clean,dirty/clean/inflating: dataset-clean,dirty/clean/plastic1.jpg ….  inflating: dataset-clean,dirty/clean/plastic99.jpg     creating: dataset-clean,dirty/dirty/  inflating: dataset-clean,dirty/dirty/dirty_plastic1.jpg  ….inflating: dataset-clean,dirty/dirty/dirty_plastic99.jpg    In [44]:# dataset-small-clean,dirty/0.clean 폴더 안의 이미지 갯수!ls -l ./IMAGE/dataset-clean,dirty/clean | grep jpg | wc -l435 In [45]:# dataset-small-clean,dirty/1.drity 폴더 안의 이미지 갯수!ls -l ./IMAGE/dataset-clean,dirty/dirty | grep jpg | wc -l435  이미지 파일 하나 읽어 이미지 보기 #간단하게 보고 넘어가기In [46]:clean_img_path = './IMAGE/dataset-clean,dirty/clean/plastic1.jpg'    #정의 In [47]:gfile = tf.io.read_file(clean_img_path)             #메모리에 올려서 읽어오기image = tf.io.decode_image(gfile, dtype=tf.float32) In [48]:image.shapeOut[48]:TensorShape([384, 512, 3])       #3은 RGB표현  In [49]:plt.imshow(image)plt.show()<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/b68f8e2ca16496d6d6b2cb9ac9be9d68c62f97db" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/b68f8e2ca16496d6d6b2cb9ac9be9d68c62f97db" data-origin-width="365" data-origin-height="274"></div> In [50]:dirty_img_path = './IMAGE/dataset-clean,dirty/dirty/dirty_plastic1.jpg' In [51]:gfile = tf.io.read_file(dirty_img_path)image = tf.io.decode_image(gfile, dtype=tf.float32) In [52]:image.shapeOut[52]:TensorShape([384, 512, 3]) In [53]:plt.imshow(image)plt.show()<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/6d9188f993d761626a99f1ca264ba6a45b8c6163" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/6d9188f993d761626a99f1ca264ba6a45b8c6163" data-origin-width="356" data-origin-height="270"></div>    전처리 . 이미지 전처리.Data Preprocess  <ul style="list-style-type: disc;" data-ke-list-type="disc"><li>tensorflow ImageDataGenerator 함수 활용하여 이미지 데이터 스케일 및 트레인 데이터/ 테스트 데이트 나누기</li><li>flow_from_directory 함수 활용하여 나누어진 트레인 데이터와 테스트 데이터에 대해 배치 사이즈 나누고 , 셔플하고 labeling 수행</li></ul>In [54]:# Hyperparameter Tunningnum_epochs = 50       #몇번 돌릴것이냐batch_size = 4            #이미지 묶음 사이즈learning_rate = 0.001     #학습크기 작을수록 세부적으로 조금씩조금씩 학습 input_shape = (384, 512, 3)  # 사이즈 확인num_classes = 2    # clean, dirty 2가지 In [55]:from tensorflow.keras.preprocessing.image import ImageDataGenerator    #복붙 import In [56]:# ImageDataGenerator 이용하여 이미지 전처리하기training_datagen = ImageDataGenerator(      rescale=1. / 255,         #scale을 255로 나눠서 사용      validation_split=0.2     # train set : 435 * (1 - 0.2) = 348  #0.8만큼 트레이닝에 사용해라    ) test_datagen = ImageDataGenerator(      rescale=1./255,          #scale을 255로 나눠서 사용      validation_split=0.2     # test set : 435 * 0.2 = 87         ) In [57]:# training_datagen.flow_from_directory 이미지 데이터 읽고 배치 , 셔플하고 labeling 수행 # IMAGE 포더 밑에 .ipynb_checkpoints 폴더 있을경우 폴데 삭제!rm -rf ./IMAGE/dataset-clean,dirty/.ipynb_checkpoints training_generator = training_datagen.flow_from_directory(    './IMAGE/dataset-clean,dirty/',          # 이미지 데이터 읽고 배치 , 셔플하고 labeling 수행    batch_size=batch_size,     target_size=(384, 512),       # 사이즈 확인    class_mode = 'categorical',   # binary , categorical    shuffle = True,    subset = 'training'           # training, validation. validation_split 사용하므로 subset 지정    ) test_generator = test_datagen.flow_from_directory(    './IMAGE/dataset-clean,dirty/',    batch_size=batch_size,     target_size=(384, 512),       # 사이즈 확인    class_mode = 'categorical',   # binary , categorical    shuffle = True,    subset = 'validation'         # training, validation. validation_split 사용하므로 subset 지정    )Out[57]Found 696 images belonging to 2 classes.               #696이 트레이닝 데이터Found 174 images belonging to 2 classes.     #174가 테스트 데이터  In [58]:# class 이름 및 번호 매핑 확인print(training_generator.class_indices){'clean': 0, 'dirty': 1} In [59]:batch_samples = next(iter(training_generator)) print('True Value : ',batch_samples[1][0])    #샘플 보여주기plt.imshow(batch_samples[0][0])   plt.show()True Value :  [0. 1.]<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/cf8882aba605246080e72e1cb2ee6d49341ac316" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/cf8882aba605246080e72e1cb2ee6d49341ac316" data-origin-width="366" data-origin-height="287"></div>     이때까지 이미지 전처리를 한거고, 이렇게 이미지가 만들어지면 CNN모델링으로 학습 CNN 모델링     #이미지 처리시 좋음In [60]:#CNN 라이브러리 임포트    #복붙import tensorflow as tffrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Dense, Flatten, Dropoutfrom tensorflow.keras.layers import Conv2D, MaxPooling2D In [61]:# Feature extractionmodel = Sequential()model.add(Conv2D(filters=32, kernel_size=3, activation='relu', input_shape=input_shape))              #레이어추가, CNN은 Conv2D로 추가, filters 32개 통과, size 3*3 # 위에서 정의함 input_shape = (384, 512, 3)model.add(MaxPooling2D(pool_size=2))    #축소본 만들기. 2*2사이즈로 반으로 줄어듬model.add(Conv2D(filters=16, kernel_size=3, activation='relu'))model.add(MaxPooling2D(pool_size=2)) # Classificationmodel.add(Flatten())     # 쭉펴서 확인  여기선 input안넣음, feature extraction에서 가져옴model.add(Dense(50, activation='relu'))model.add(Dense(2, activation='softmax'))    #y값 2개  In [62]:model.summary()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/66050c83e83dac1c553ed7e39163f5f62e62c503" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/66050c83e83dac1c553ed7e39163f5f62e62c503" data-origin-width="607" data-origin-height="645"></div>   모델 컴파일 – 이진 분류 모델In [63]:#model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate), model.compile(optimizer='adam',               loss='categorical_crossentropy',    #y가 2개이상이라서              metrics=['accuracy'])   모델 훈련(학습) 하기<ul style="list-style-type: disc;" data-ke-list-type="disc"><li>__(주의)__ GPU 없이 학습시 시간이 오래 걸릴수 있습니다. epochs 횟수 줄이기 권장</li></ul>In [64]:history = model.fit(training_generator,       #training_generator에 이미 y값과 이미지가 다 들어있음          epochs=20 ,          steps_per_epoch = len(training_generator) / batch_size,          validation_steps = len(test_generator) / batch_size,          validation_data=test_generator,           verbose=1)<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/2129e554ea7d632be8a02403b1194e08975bdf3b" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/2129e554ea7d632be8a02403b1194e08975bdf3b" data-origin-width="666" data-origin-height="705"></div>  성능 시각화 - 성능평가In [65]:losses = pd.DataFrame(model.history.history) In [66]:losses.head()Out[66]:<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/3155eb317bb0abf4e23c5d61168c432920fcf86a" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/3155eb317bb0abf4e23c5d61168c432920fcf86a" data-origin-width="343" data-origin-height="342"></div>  In [67]:losses[['loss','val_loss']].plot()Out[67]:<AxesSubplot:><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/78a036b52021fe6fb593cdf9627869d91ca7f303" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/78a036b52021fe6fb593cdf9627869d91ca7f303" data-origin-width="384" data-origin-height="265"></div>  In [68]:losses[['loss','val_loss', 'accuracy','val_accuracy']].plot()Out[68]:<AxesSubplot:> <div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/191840ae32b321e9d007b1a1df320879b5d7f039" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/191840ae32b321e9d007b1a1df320879b5d7f039" data-origin-width="385" data-origin-height="269"></div>   In [69]:plt.plot(history.history['accuracy'])plt.plot(history.history['val_accuracy'])plt.title('Accuracy')plt.xlabel('Epochs')plt.ylabel('Acc')plt.legend(['acc', 'val_acc'])plt.show()<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/a35ca374cd7a006ae44155c12d04501a08a2ff18" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/a35ca374cd7a006ae44155c12d04501a08a2ff18" data-origin-width="409" data-origin-height="288"></div>    예측하기In [70]:# test_generator 샘플 데이터 가져오기# 배치 사이즈 32 확인 batch_img, batch_label = next(iter(test_generator))print(batch_img.shape)print(batch_label.shape)(4, 384, 512, 3)(4, 2)  In [71]:# 4개 Test 샘플 이미지 그려보고 예측해 보기i = 1 plt.figure(figsize=(16, 30))for img, label in list(zip(batch_img, batch_label)):    pred = model.predict(img.reshape(-1,384, 512,3))    pred_t = np.argmax(pred)    plt.subplot(8, 4, i)    plt.title(f'True Value:{np.argmax(label)}, Pred Value: {pred_t}')    plt.imshow(img)       i = i + 1#True Value:0  0 이 깨끗한 병<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/62a2c6e1c94cc3d350a51e066c09dfe15e5e59c2" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/62a2c6e1c94cc3d350a51e066c09dfe15e5e59c2" data-origin-width="564" data-origin-height="143"></div>     3) RNN<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/facab3e0e043f1bd021a56e10e1787b905a893dc" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/facab3e0e043f1bd021a56e10e1787b905a893dc" data-origin-width="674" data-origin-height="225"></div><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>[출처] <a href="https://en.wikipedia.org/wiki/File:Recurrent_neural_network_unfold.svg" target="_top" class="ke-link">https://en.wikipedia.org/wiki/File:Recurrent_neural_network_unfold.svg</a></li></ul><ul style="list-style-type: disc;" data-ke-list-type="disc"><li>RNN은 주로 시계열 처리나 자연어 처리에 사용됩니다.</li><li>우리 실습에 시계열 데이터나 자연어 관련 데이터가 없어 DNN에서 사용한 Tabular 데이터를 가지고 RNN 실습하도록 하겠습니다.</li></ul>RNN 모델링In [72]:  복붙!!#RNN 라이브러리 임포트import tensorflow as tffrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Dense, Flattenfrom tensorflow.keras.layers import LSTM In [73]:X_train.shape, X_test.shapeOut[73]:((5469, 18), (2345, 18)) In [74]:X_train = X_train.reshape(-1,18,1)    #1을 넣어서 2차원을 3차원 데이터로 바꿔줌.X_test = X_test.reshape(-1,18,1) In [75]:X_train.shape, X_test.shapeOut[75]:((5469, 18, 1), (2345, 18, 1)) In [76]:# define model       #RNN은 LSTM으로 레벨 추가model = Sequential()model.add(LSTM(32, activation='relu', return_sequences=True, input_shape=(18, 1)))model.add(LSTM(16, activation='relu', return_sequences=True))model.add(Flatten())model.add(Dense(8, activation='relu'))model.add(Dense(1, activation='sigmoid')) In [77]:model.summary()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/80f4577fe6093c520496341c5bdbd2904217521f" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/80f4577fe6093c520496341c5bdbd2904217521f" data-origin-width="808" data-origin-height="516"></div>    모델 컴파일 – 이진 분류 모델In [78]:model.compile(optimizer='adam',               loss='binary_crossentropy',   # y가 1개라서              metrics=['accuracy'])  모델 학습In [79]:history = model.fit(x=X_train, y=y_train,           epochs=10 , batch_size=128,          validation_data=(X_test, y_test),           verbose=1)<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/4559939a0179939747b3b4f34876ac1d4dc304ae" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/4559939a0179939747b3b4f34876ac1d4dc304ae" data-origin-width="1012" data-origin-height="530"></div>    성능 시각화 - 성능평가In [80]:losses = pd.DataFrame(model.history.history) In [81]:losses.head()Out[81]:<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/55b9e7e377b8024d67f336436eb962b033deb228" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/55b9e7e377b8024d67f336436eb962b033deb228" data-origin-width="388" data-origin-height="351"></div>  In [82]:losses[['loss','val_loss']].plot()Out[82]:<AxesSubplot:><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/7f686bc5b1efdabce4ad2d13c85715b9981d2487" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/7f686bc5b1efdabce4ad2d13c85715b9981d2487" data-origin-width="422" data-origin-height="272"></div>In [83]:losses[['loss','val_loss', 'accuracy','val_accuracy']].plot()Out[83]:<AxesSubplot:><div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/49ba18ca7ad9a127e2e5d437b9f87f590905b76d" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/49ba18ca7ad9a127e2e5d437b9f87f590905b76d" data-origin-width="390" data-origin-height="274"></div>   In [84]:plt.plot(history.history['accuracy'])plt.plot(history.history['val_accuracy'])plt.title('Accuracy')plt.xlabel('Epochs')plt.ylabel('Acc')plt.legend(['acc', 'val_acc'])plt.show()<div class="figure-img" data-ke-type="image" data-ke-style="alignLeft" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1ZWE0/2ad35982ffe919df340029d97965705759212d21" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1ZWE0/2ad35982ffe919df340029d97965705759212d21" data-origin-width="415" data-origin-height="285"></div>  # 최적 모델 불러오기 및 저장model.load_weights(checkpoint_path)model.save("DeeplearningModel.h5")  배운 내용 정리<ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>딥러닝 모델 프로세스 </li></ol>①    라이브러리 임포트(import) ② 데이터 가져오기(Loading the data) ③ 탐색적 데이터 분석(Exploratory Data Analysis) ④ 데이터 전처리(Data PreProcessing) : 데이터타입 변환, Null 데이터 처리, 누락데이터 처리, 더미특성 생성, 특성 추출 (feature engineering) 등 ⑤ Train, Test 데이터셋 분할 ⑥ 데이터 정규화(Normalizing the Data) ⑦ 모델 개발(Creating the Model)     모델링 – 컴파일 - 모델학습 ⑧ 모델 성능 평가<ol style="list-style-type: decimal;" data-ke-list-type="decimal"><li>딥러닝 모델 DNN(테이블형태), CNN(이미지), RNN(시계열데이터, 자연함수) 모델 구축</li></ol>