2024년 8월 8일 목 오후 4시
인원: 박동채 외 23명
장소: 의양관 B07
불참인원: 진하(여행), 재헌(특강), 승주(개인일정), 지선(외래), 정민(알바)、상언(개인일정)
<공지사항>
1. 다음주 늦출 + 불출 인원 조사 (늦출,결석 구분)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
결석
경원 : 8/16(여행)
강수현 : 8/12(알바)
승주 : 8/16(개인사정)
채윤 : 8/12,14(여행)
도영 : 8/16(여행)
다경 : 8/12(여행)
정민 : 8/12,16(여행,병원)
시경 : 8/16(개인사정)
지선 : 8/14,16(랩실)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
늦출
채윤 : 8/16(여행)
다경 : 8/16(여행)
재헌 : 8/14(개인일정)
지선 : 8/12(개인일정)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
2. 릴레이 발표
8/13: 기존: 강수, 지선 / 신입: 태우, 연수
8/22: 기존: 철민, 주희 / 신입: 승주、서희
8/29: 기존: 진하, 도영 / 신입:
9/5: 기존: 도영, 지선 / 신입:
3. NIA 서비스 개발 및 아이디어 공모전(빅콘 주최사에서 하는거라함, NIA 직원들이 직접 멘토링)
- 공모 분야:
‘민관협력 지원 플랫폼 활용’ 기반 사회 현안 해결 ’서비스 개발’ 공모전
디지털 기반 국가 사회현안 해결 서비스 ‘아이디어 발굴(프로토타입개발)’ 공모전
- https://devcontest-digitalsolveup.kr/
4. 독후감 제출 리마인드
- 8월 10일까지 pdf형식으로 박동채(회장)한테 제출
- 이기적 유전자와 맹자 공통점
- 분량 ppt 한장 -> pdf로
5. 탈퇴 인원
- 김경원: 다른 분야에 관심 생겼음
6. 다음주 회의 시간 변경(광복절) -> 8/13일 16시
<발표>
다경: 리뷰 기반 의류 사이즈 추천시스템 프로젝트
온라인 쇼핑을 할 때 색감, 사이즈 고민에 대한 해결을 위해 리뷰 기반 의류 사이즈 추천 시스템을 개발하기로 함.
사용자의 성별,키, 몸무게를 기반으로 사이즈 정보표를 통해 추천할 예정이다.
옷별로 사이즈 표기가 상이하고 리뷰 기반 사이즈 평점을 새롭게 구현하는것은 문제가 있을 것으로 생각함.
그래서 리뷰 사이즈 평가 정보를 추천에 어떻게 녹이는 지가 가장 중요한 task라고 판단했음.
리뷰에서 구매한 상품 평가가 아닌 구매한 상품의 size에 대한 평가가 반영되어야하고 vocabulary 기반으로 파생변수를 만들기로 결정함.
토크나이징을 통해 데이터를 다듬었다. 태깅 기능을 통해 size vocabulary 구축에 유의미한 체언/용언만 사용함.
새로운 사용자의 선호 정보에 맞춰서 특정 관측치에 더 높은 중요도를 부여하기위해 size 선호별로 데이터를 구분할 수 있는 size파생변수가 필요함을 느껴서 size voca 를 기반으로 탐지된 리뷰에 대해서 파생변수를 생성함.
군집별 특성이 다름에 따라 군집별 예측값을 도출하기 위해 군집별로 모델링을 함.
최적의 가중치를 선택하기 위해 0부터 1까지 0.01 단위로 달라지는 가중치 조합을 모두 고려하였음.
MSE가 가장 작았던 경우의 가중치를 최종적으로 선택하였음.
의의 :
1. 사이즈 관련 언어 사전을 직접 구축
2. 사용자가 원하는 의류에 모두 적용가능한 범용적 시스템 구축
2. 사용자의 니즈를 반영할 수 있는 개인화 사이즈 추천 시스템을 구축
아쉬운점 : 제한적 dataset
철민: 심리상담 데이터를 통한 심리상담 챗봇 개발 및 고전 방식과 최식 방식 차이점.
규칙기반 챗봇 -> 함수적으로 , 프로그래밍의 조건문이라고 생각하면 됨. 복잡한 대화에는 한계가 있다.
키워드 매칭 챗봇 -> "나 우울해"라고 하면 우울이라는 단어를 감지해 관련 내용을 대답한다.
최신 챗봇 기술에는 자연어 처리, 딥러닝, 감정 분석등이 포함되어 자연스러움, 맥락이해, 개인화라는 특징을 띈다. GPT가 대표적이다.
LLM의미 소개 -> 대규모 언어 모델로 방대한 데이터를 학습해 자연스러운 텍스트를 생성한다.
LLM의 발전 과정 -> 1950년대에 통계적언어 모델로 시작해 2017년 트랜스포머 아키텍처 개발을 시작으로 급속도로 발전함.
LLM의 파라미터 수요가 커지면서 고성능의 그래픽카드를 요하게 된다. 현재 GPT4의 파라미터는 대략 1조7천억개이다.
파인튜닝의 개념 -> 사전 학습된 LLM을 도메인에 맞게 추가로 학습한다.
데이터는 AI-HUB에서 가져온 대화 스크립트 데이터 셋이며, 모델은 한국어를 대규모로 학습 모델인 skt의 kogpt2를 사용하였다.
이후는 심리상담챗봇(LLM, NLP, 고전)의 모델의 코드를 시연해서 비교 확인 하였다.(코드리뷰)
수환: 은행 고객 데이터를 통한 정기예금 등록 예측
컬럼을 다 뽑아보고 삭제유무 결정 선정하였다.
결측치 unknown > replace로 np.nan으로 변환함.
putcom 데이터 50%이상 손실되어서 삭제하였다.
EDA > 세대별 분석을 진행하였다.
나이는 0 30 50 70 100으로 파생변수 생성하였다.
파이차트 : 세대별 직업, 연락방법, 대출여부, 학력,재산별 등록
박스플랏 : 재산, 70세이전까지는 상승, 이후부터는 감소
대출여부에 따라 차이가 난다는 가설 -> 대출을 하지않은사람이 대출을 한 사람이 1.5배정도 더 많이 정기예금을 듬
결측치는 세대별로 그룹화를 진행하고 최빈값을 구해 결측치를 대체하였음
모델은 로지스틱, RF, DT 중 DT를 결정하였다.
선정이유 : recall의 true의 정확도가 높았다. 즉 실제 True인 것을 가장 높이 예측
세대나눈 근거로는 데이터에는 18세부터 있어서 0세에서 17세는 없다고 봐도 되고, 30대까지는 학생, 30-50이 직장인이라고 판단하여서 나누었다.
준엽: 신용 점수 분석 데이터를 사용해서 신용도 분류
다양한 핀테크 기업에서 서비스 확장을 하기 위하여 자체 점수를 통한 신용점수 관리 서비스에 집중을하는 추세인데 이를 따라 해보고 싶어 신용 점수 분석을 해보기로함.
코드 리뷰:
먼저 데이터는 캐글에서 얻어왔음.
같은 내용의 중복 컬럼은 삭제하고, 컬럼 하나하나 따로 전처리를 진행해 주었음.
전처리 후 EDA를 위해 박스플롯을 찍어보니 이상치들이 많이 보였음 (나이가 2000살, 8000살이고, 계좌 개수가 1000개 인 행들) 다 제거함.
계좌 개수, 신용카드 개수, 대출 개수, 대출 분포 등 모든 컬럼의 시각화를 통해 데이터 이해 과정을 겪었다.
신용카드 개수, 계좌 수, 대출 수 등 시각화 때 본 모든 컬럼과 신용등급의 상관 관계를 확인하였다.
상관관계에서 연봉과 월간 실수령액의 상관관계가 1을 띄우고 VIF도 매우 높아서 월간 실수령액 열은 삭제하였다.
직업의 결측치, 월간 수령액의 결측치 등 모든 열의 결측치를 채워넣음.
결측치를 채워넣고 모델링(로지스틱, 신경망(NLP), LightGBM, DT, RF)을 한 후에 변수중요도를 확인하였음.
중요 변수 : 미지불 연체금액과 연체기간, 고객의 신용 구성 상태, 연소득 등이 가장 중요한 변수로 여겨짐.