타이타닉 캐글

<p>########TRAIN</p><p><br></p><p>import  pandas  as  pd</p><p>import  seaborn   as  sns</p><p>import  matplotlib.pyplot   as  plt </p><p><br></p><p>df = pd.read_csv("d:\\data\\train.csv")</p><p><br></p><p>pd.set_option('display.max_columns',15)</p><p>rdf = df.drop(['Cabin'],axis=1)</p><p><br></p><p><span style="color: rgb(255, 0, 0);"># 운임 이상치 제거 </span></p><p>local_std = rdf.Fare.std()*5</p><p>rdf['Fare'] = rdf['Fare'][rdf['Fare']<local_std]</p><p><br></p><p><br></p><p>#rdf = rdf.dropna(subset=['Age'], how='any',axis=0)</p><p><br></p><p><span style="color: rgb(255, 0, 0);"># 나이 na값 31 로 </span></p><p>most_freq =rdf['Age'].value_counts(dropna=True).idxmax()</p><p>rdf['Age'].fillna(31,inplace=True)</p><p><br></p><p><span style="color: rgb(255, 0, 0);"># embarked 최빈값으로</span></p><p>most_freq =rdf['Embarked'].value_counts(dropna=True).idxmax()</p><p>rdf['Embarked'].fillna(most_freq,inplace=True)</p><p><br></p><p><span style="color: rgb(255, 0, 0);"># 운임 최빈값으로</span><br></p><p>most_freq =rdf['Fare'].value_counts(dropna=True).idxmax()</p><p>rdf['Fare'].fillna(most_freq,inplace=True)</p><p><br></p><p><br></p><p>ndf= rdf[['Survived','Pclass','Sex','Age','SibSp','Parch','Embarked','Fare']]</p><p><br></p><p><span style="color: rgb(255, 0, 0);"># child 와 woman 파생변수 생성</span><br></p><p>mask = ( ndf.Age < 10) | (ndf.Sex == 'female')</p><p>mask2 = (ndf)</p><p>ndf['child_women'] = mask.astype(int)</p><p><br></p><p><br></p><p><span style="color: rgb(255, 0, 0);">### 혼자 여행온 사람</span></p><p>ndf['relatives'] = ndf['SibSp'] + ndf['Parch']</p><p>ndf.loc[ndf['relatives'] > 0, 'travelled_alone'] = 0</p><p>ndf.loc[ndf['relatives'] == 0, 'travelled_alone'] = 1</p><p><br></p><p><span style="color: rgb(255, 0, 0);">###FATHER 아빠는 가족들 챙기느라 죽었을것 같음</span></p><p>mask1 = ( ndf.relatives > 4) | (ndf.Sex == 'male')</p><p>ndf['Father'] = mask1.astype(int)</p><p><br></p><p><span style="color: rgb(255, 0, 0);">## 더미 생성</span></p><p>gender=pd.get_dummies(ndf['Sex'])</p><p>ndf=pd.concat([ndf,gender],axis=1)</p><p>onehot_embarked=pd.get_dummies(ndf['Embarked'],prefix='town')</p><p>ndf=pd.concat([ndf,onehot_embarked],axis=1)</p><p>ndf.drop(['Sex','Embarked'],axis=1,inplace=True)</p><p><br></p><p><br></p><p>X=ndf[['Pclass','Father','travelled_alone', 'Age','Fare','female', 'male','Fare','town_C', 'town_Q', 'town_S','child_women']]</p><p>y=ndf['Survived']</p><div><br></div><div><span style="color: rgb(255, 0, 0);">######TEST#########</span></div><div><div>import  pandas  as  pd</div><div>import  seaborn   as  sns</div><div>import  matplotlib.pyplot   as  plt </div><div><br></div><div>df1 = pd.read_csv("d:\\data\\test.csv")</div><div>pd.set_option('display.max_columns',15)</div><div>rdf = df1.drop(['Cabin'],axis=1)</div><div><br></div><div><br></div><div>most_freq =rdf['Embarked'].value_counts(dropna=True).idxmax()</div><div>rdf['Embarked'].fillna(most_freq,inplace=True)</div><div>most_freq =rdf['Fare'].value_counts(dropna=True).idxmax()</div><div>rdf['Fare'].fillna(most_freq,inplace=True)</div><div>most_freq =rdf['Age'].value_counts(dropna=True).idxmax()</div><div>rdf['Age'].fillna(31,inplace=True)</div><div>ndf= rdf[['Pclass','Sex','Age','SibSp','Parch','Embarked','Fare']]</div><div>mask = ( ndf.Age < 10) | (ndf.Sex == 'female')</div><div>ndf['child_women'] = mask.astype(int)</div><div><br></div><div>#relatives</div><div>ndf['relatives'] = ndf['SibSp'] + ndf['Parch']</div><div>ndf.loc[ndf['relatives'] > 0, 'travelled_alone'] = 1</div><div>ndf.loc[ndf['relatives'] == 0, 'travelled_alone'] = 0</div><div><br></div><div>##FATHER</div><div>mask1 = ( ndf.relatives > 4) | (ndf.Sex == 'male')</div><div>ndf['Father'] = mask1.astype(int)</div><div><br></div><div><br></div><div><br></div><div>gender=pd.get_dummies(ndf['Sex'])</div><div>ndf=pd.concat([ndf,gender],axis=1)</div><div>onehot_embarked=pd.get_dummies(ndf['Embarked'],prefix='town')</div><div>ndf=pd.concat([ndf,onehot_embarked],axis=1)</div><div>ndf.drop(['Sex','Embarked'],axis=1,inplace=True)</div><div><br></div><div><br></div><div>test=ndf[['Pclass','SibSp', 'Parch', 'Age','travelled_alone','Fare','female', 'male','Fare','town_C', 'town_Q', 'town_S','child_women']]</div><div><br></div><div><br></div><div>from sklearn import preprocessing </div><div>test=preprocessing.StandardScaler().fit(test).transform(test) </div></div><div><br></div><div><br></div><div><div>from sklearn import preprocessing </div><div>X=preprocessing.StandardScaler().fit(X).transform(X) </div><div><br></div><div>from sklearn.model_selection import train_test_split</div><div>X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=19)</div><div><br></div><div><br></div><div>print('train data 의 갯수:',X_train.shape) # (478,9)</div><div>print('test data의 갯수:',X_test.shape) # (205,9)</div><div><br></div><div><br></div><div>from  sklearn.ensemble   import  RandomForestClassifier </div><div><br></div><div>tree_model = RandomForestClassifier( n_estimators=800,</div><div>                                     oob_score=True,</div><div>                                    random_state= 9 )  </div><div><br></div><div>tree_model.fit( X, y )</div><div><br></div><div># 7단계 테스트 데이터로 예측을 한다.</div><div>y_hat = tree_model.predict( test )</div></div><div><br></div><div><span style="color: rgb(255, 0, 0);">print ( tree_model.oob_score_)</span><br></div><div><b><span style="font-size: 18pt;">0.8204264870931538</span></b><br></div><div><br></div><div><br></div><div>제가 뽑은 파생변수는 Father 와 trabelled alone 입니다 ^^</div><div><br></div><div><div>   Pclass  SibSp  Father  Parch   Age  travelled_alone     Fare  female  male  \</div><div>0       3      0       1      0  34.5              0.0   7.8292       0     1   </div><div>1       3      1       0      0  47.0              1.0   7.0000       1     0   </div><div>2       2      0       1      0  62.0              0.0   9.6875       0     1   </div><div>3       3      0       1      0  27.0              0.0   8.6625       0     1   </div><div>4       3      1       0      1  22.0              1.0  12.2875       1     0   </div><div><br></div><div>   town_C  town_Q  town_S  child_women  </div><div>0       0       1       0            0  </div><div>1       0       0       1            1  </div><div>2       0       1       0            0  </div><div>3       0       0       1            0  </div><div>4       0       0       1            1</div></div><div><br></div><div><br></div><div><span style="font-size: 18pt;">제 캐글 점수는 </span><span style="color: rgba(0, 0, 0, 0.7); font-family: Inter, sans-serif; font-size: 18pt; text-align: right;">0.75598 에요 ^^</span></div><div><span style="color: rgba(0, 0, 0, 0.7); font-family: Inter, sans-serif; font-size: 18pt; text-align: right;"> 뭐가 문제일까요?</span></div><div><br></div><div><br></div><p><br></p>