Re: 오늘의 마지막 문제. 체중과 키 데이터를 이용해서 단순 선형 회귀분석을 하고 시각화 하시오

# 라이브러리 불러오기import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns # 1. 데이터 준비weight=[ 72, 72, 70, 43, 48, 54, 51, 52, 73, 45, 60, 62, 64, 47, 51, 74, 88,64, 56, 56  ]tall = [ 176, 172, 182, 160, 163, 165, 168, 163, 182, 148, 170, 166, 172, 169, 163, 170, 182, 174, 164, 160 ] dict_data = { 'weight' : [ 72, 72, 70, 43, 48, 54, 51, 52, 73, 45, 60, 62, 64, 47, 51, 74, 88, 64, 56, 56  ], 'tall' : [ 176, 172, 182, 160, 163, 165, 168, 163, 182, 148, 170, 166, 172, 169, 163, 170, 182, 174, 164, 160 ]   } df = pd.DataFrame(dict_data)df  # 데이터 살펴보기print(df.head())  # 2. 데이터 탐색# 데이터 자료형 확인print(df.info()) # int형print(df.describe())  # 3. 시각화# matplotlib로 산점도 그리기df.plot(kind='scatter', x='weight', y= 'tall', c='blue', s=10, figsize=(10,5))plt.show()plt.close()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/zchT/fcd3ed03a9ca9ef87a765b3921396dae949035c7" class="txc-image" width="670" height="352" data-img-src="https://t1.daumcdn.net/cafeattach/zchT/fcd3ed03a9ca9ef87a765b3921396dae949035c7" data-orgin-width="693" data-origin-height="364"></div>  # seaborn으로 산점도 그리기fig = plt.figure(figsize=(10,5))ax1 = fig.add_subplot(1, 2, 1)ax2 = fig.add_subplot(1, 2, 2)sns.regplot(x='weight', y='tall', data=df, ax=ax1) # 회귀선 표시sns.regplot(x='weight', y='tall', data=df, ax=ax2, fit_reg=False) # 회귀선 미표시plt.show()plt.close() <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/zchT/9eefcb8f7fb77b0fdbad511b5739af3b645bc025" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/zchT/9eefcb8f7fb77b0fdbad511b5739af3b645bc025" data-orgin-width="701" data-origin-height="356"></div># seaborn 조인트 그래프 - 산점도, 히스토그램 같이sns.jointplot(x='weight', y='tall', data=df) # 회귀선 없음sns.jointplot(x='weight', y='tall', kind='reg', data=df) # 회귀선 표시plt.show()plt.close() <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/zchT/d319d95dbaf4fc9ae281faaa83095f1b0c5e799e" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/zchT/d319d95dbaf4fc9ae281faaa83095f1b0c5e799e" data-orgin-width="508" data-origin-height="500"></div> <div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/zchT/d301233e9f1c13fb7bf0cd24590b6d84ad0a7af6" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/zchT/d301233e9f1c13fb7bf0cd24590b6d84ad0a7af6" data-orgin-width="529" data-origin-height="510"></div># seaborn pariplot으로 두 변수 간의 모든 경우의 수 그리기sns.pairplot(df)plt.show()plt.close()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/zchT/0c67d806179ccb98ff842b4de4b62e38755c5652" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/zchT/0c67d806179ccb98ff842b4de4b62e38755c5652" data-orgin-width="444" data-origin-height="225"></div> # 4. 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)# 속성(변수) 선택X=df[['weight']] #독립 변수 Xy=df['tall'] #종속 변수 y # train data 와 test data로 구분(8:2 비율)from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, #독립 변수 y, #종속 변수 test_size=0.2, #검증 20% random_state=10) #랜덤 추출 값 print('train data 개수: ', len(X_train)) #16print('test data 개수: ', len(X_test)) #4  # 5. 단순회귀분석 모형 - sklearn 사용# sklearn 라이브러리에서 선형회귀분석 모듈 가져오기from sklearn.linear_model import LinearRegression # 단순회귀분석 모형 객체 생성lr = LinearRegression() # train data를 가지고 모형 학습lr.fit(X_train, y_train) # 학습을 마친 모형에 test data를 적용하여 결정계수(R-제곱) 계산r_square = lr.score(X_test, y_test)print(r_square)  # 회귀식의 기울기print('기울기 a: ', lr.coef_) print('\n') # 회귀식의 y절편print('y절편 b:', lr.intercept_) print('\n')  # 모형에 전체 X 데이터를 입력하여 예측한 값 y_hat을 실제 값 y와 비교y_hat = lr.predict(X)plt.figure(figsize=(10, 5))ax1 = sns.distplot(y, hist=False, label="y")ax2 = sns.distplot(y_hat, hist=False, label="y_hat", ax=ax1)plt.show()plt.close()<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/zchT/e486c39f065b4322600870b0724e801131165318" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/zchT/e486c39f065b4322600870b0724e801131165318" data-orgin-width="748" data-origin-height="376"></div>