2023년 1월 25일 수요일 오후 17시 30분
인원 : 최지우 외 14명
장소 : 의양관 B07
1. 회의 미참여자 및 사유
> 도연민혁병현나영소희주희승윤다경현성 : 개인사정
2. 발표
> 병현수민
> 코로나 전후 미국 여행객 분석
> 데이터 타입 변환, matplotlib.pyplot과 seaborn을 통해 데이터 시각화 진행
> 시각화를 통해 코로나 전이 여행객 수가 많음을 파악함
> 상관관계를 나타내주는 히트맵을 그려보았지만 해석이 아쉽다는 피드백 받음
> 여행객 수가 코로나 전후 차이가 있음을 확인하고, 코로나 발생 1년 후 시민들의 경각심이 줄어들어 코로나전 여행객 수와 차이가 없다고 결론을 내림
> 웅기소은
> 영화 관객수 분석
> 다양한 데이터 전처리 방법에 대해 학습
> VIF와 상관계수를 통해 변수를 선택하는 방법을 학습함
> 트리기반 회귀 모델과 선형회귀 모델을 통해 모델링 진행
> 회귀 평가지표에 대해 학습
> 데이터 분석을 진행 하면서 함수를 다루는 것과 시각화에 부족함을 느낌
> 현성민상
> 경진대회 분석 발표
> 신용카드 연체 예측을 기반으로 Revolving에 대한 가설을 세워 분석을 진행함
> 고객의 수입 대비 대출의 금전적 부담감에 대한 변수를 생성함
> 아마존에서 개발한 datawig 알고리즘을 이용하여 결측치를 처리하여 분석 진행
> 연체를 하지않을 것이라 예측했지만 연체를 하게 되는 것이 큰 문제라 판단하여 정밀도를 기준으로 모델 성능을 판단하려는 가설을 세움
> 본 분석을 통해 연령이 주요 변수로 도출되어 이에 대한 집중적인 역학조사를 진행할 수 있는 방안을 마련함
> 명균수현고은
> 경진대회 분석 발표
> 신용카드 연체 예측을 기반으로 tree기반 모델과 통계기반 모델을 구별하여 분석을 진행함
> 범주형 변수에 대해서 소분류로 구분된 경우 대분류로 묶어줌
> tree기반과 통계기반 모델의 결과를 비교해 보았을 때, 통계기반 모델의 f1 score가 더 높게 나타나 좋은 성능을 보임
> 변수중요도가 높은 변수들이 존재하였고 이러한 요소들이 채무불이행에 많은 영향을 미쳤지만 해당 데이터만으로는 현장에서 바로 쓰이기에는 어렵다고 판단함
> 호정나영서영
> 경진대회 분석 발표
> 데이터 변수 설명 중 해석을 할수 없는 변수는 일차적으로 제거
> 결측치가 일정 수준 이상 있을 경우 열 삭제 진행
> 이상치로 예상되는 값은 보간법 및 삭제 진행
> 데이터 모델링 과정에서 모델에 대한 최적화를 진행하기 위해 그리드 서치를 활용하여 진행
> 최종 분석 결과에서, 재무적 요소보다 비재무적 요소가 예측에 있어 더 중요한 역할을 하는 것을 확인함. 따라서, 정확한 예측을 위해서는 재무적 자료외에 신용자의 비재무적 요소 또한 중요한 정보인 것으로 예상함
> 웅기병현
> 대출 승인여부 예측
> 대출이자율이 늘어남에 따라 대출 원금 상환이 부담감이 커짐.이에 대출 승인여부 예측을 시행하여 고객이 대출상환능력을 평가하고자 함
> 결측치처리, 문자형 변수 범주화 처리, 샘플링 시행
> 분류모델을 사용하여 accuracy,precision, recall, auc 평가
> LightGBM모델을 채택하여 변수중요도 추출. EXT_SOURCE_3, EXT_SOURCE_2, AMT_REQ_CREDIT_BUREAI_QRT 순으로 높은것을 파악
>커널밀도곡선을 통해 종속변수와의 관계 파악