2024년 7월 18일 목 오후 4시
인원: 박동채 외 20명
장소: 의양관 B07
불참인원: 이승주(특강), 박소현(병결)
<공지사항>
1. 다음주 늦출 + 불출 인원 조사 / 공지
정민 : 7월 22~26일 (특강)
지선 : 7월 22~24일 (여행 및 랩실)
수환 : 7월 22~23일 (여행)
상언 : 7월 24~26일 (여행)
채윤 : 7월 22~26일 (특강)
진하 : 7월 22~24일 (회사 및 여행)
이경원 : 7월 23,25~26일 (예비군 및 여행)
재헌 : 7월 24(늦출), 26일 (여행)
시경 : 7월 22일(늦출)
다경 : 7월 24, 26일 (병원 및 여행)
강수현 : 7월 22~26일 (특강 및 개인일정)
소희 : 7월 22~26일 (본가 및 특강)
승주 : 7월 24~26일 (여행)
2. 결초회원 선발과정
- 결회원(방학 동안 활동) -> 결ㅊ회윈(과제 제출 후 면접) -> 결초회원(시간순으로 프로젝트 한거 , 관심 분야 발표)
3. 회비 + 벌금 통장 공지
- 회비는 결초회원 되면 9월에 3달치 몰아서 받고, 벌금만 받을 예정
4. 독후감
- 이기적유전자
- 맹자
두 책 읽고 PPT 한장 분량의 공통점 8월 10일(토)까지 박동채(회장)에게 개인톡으로 PDF 제출
추후에 예시 올려줄 예정
5. 릴레이 발표
- 다음주 발표(7/25) : 박동채
2주 후 발표(8/1) : 김채윤
- 신입부원 3명 발표 예정 (비복원추출)
6. 공모전
<미래에셋>
- 철민, 동해 -> LLM을 활용한 금융투자 경험(1. 추천 시스템 + 교육설명시스템(종목 교육, 해외 투자 교육)
2. 개인화된 포트폴리오 보고서 서비스 / 둘중 고민중..))
<해커톤>
- 지선, 도영, 동해 -> 시민참여형 포트홀 예측모델
- 철민, 강수현, 전수현 -> 미정
- 다경, 정민, 태우 -> 미정(1,3번 고민 중)
- 동채, 채윤, 서희 -> 기상변화의 따른 포트홀 발생 예측
- 진하, 재헌, 주희 -> 미정
<고용노동>
- 현풍, 동해, 다경, 소희 -> 아이디어 부문: NCS직무기술서를 통한 직무 추천 융합 LLM 챗봇 시스템
7. 학술 진행 상황
- 동채팀 -> 객체 탐지 모델 코드 작성후 이미지 증강 코드 작성 예정
- 현풍팀 -> 재무, 비재무 데이터 수집 중
- 동해팀 -> 계획 논의 중
- 피드백 희망일 : 8/5~16 사이 예정
<발표>
정민 : 1주차 복습 및 약간의 내용 보충
외부 데이터를 활용하려면 목적 파악 및 전처리 필요함을 알려주고 아웃라이어, 이상치, 결측치에 대한 설명과 이런 문제가 생겼을때 대응 방법을 설명하였다.
인코딩 : 문자형 데이터를 숫자형 데이터로 바꿔서 컴퓨터가 인식할 수 있게함
기초통계량, 탐색적 데이터 분석, pca 및
모델의 예측 정확도 향상의 전략
외부데이터의 활용, 결측치, 이상치, 교차검증, 오류분석, log변환등 기초에 대해 설명함.
수환 : 월마트
train, key, store 넘버에 맞춰서 합침
절반 이상의 데이터가 결측치라서 sunset과 sunrise의 칼럼을 제거함
문자열의 M과 T : 결측치는 칼럼의 중앙값으로 대체
code sum : 하나의 값들을 숫자를 부여해 전환하였음
데이터 전체를 숫자형 데이터로 변형하고 년 월 기준으로 나누고 월마트의 휴무일을 파악해 판매량이 없는 휴무일(6만개의 행)은 제거
데이터 정리후 남은 데이터 23만개로 줄어듦
강수량과 강설량은 양에따라 구간별로 나누어주었음
연도별 기온과 판매량등 다양한 EDA로 상황 파악하고
선형회귀, DT, 랜덤포레스트등 모델 돌려봤더니 랜덤포레스트가 가장 좋았음
서희 : 월마트
데이터프레임 형태로 불러오고, 칼럼별 의미 해석함
datetime으로 변환 store, station num은 카테고리 형식으로 변형, snowfall 의 M은 null, T는 0으로 바꿔줌
화씨 -> 섭씨 변환
7개의 행(codesum.. 등등) 제거후 히트맵으로 상관관계보고, 데이터 분포를 위해 boxplot으로 봐줌
boxplot으로인한 이상치는 어떤 데이터인지 보기위해 뜯어보니. 폭풍우와 관련된 대량구매가 아니라 판단해 제거하였음
전체적인 판매량의 변화, 연도, 월별 누적판매량을 그래프로 시각화해서 봄
2012~2014까지 점차 줄어드는 판매량의 이유를 알기위해 찾아봤더니 월마트는 14년부터 인터넷시장에 적극적 개입, 즉 해당 데이터는 직접 방문한 고객을 대상으로한 데이터임을 확인
태우 : 월마트
변수 이해를 위해 공부했음. 결측치가 너무 많은 변수들을 과감히 제거
기온을 나타내는 변수는 데려가고, dewpoint, wetbulb 중 dewpoint변수만 사용하기로 결정
avgspeed와 resultspeed 중 결측치가 더 많은 avg보다는 resultspeed 변수만 사용하기로 결정
tmax의 결측치를 평균 온도로 채우고 추후 다른 컬럼의 결측치 채울 예정
경원 : 월마트
데이터 전처리와 eda를 하기 위해 데이터 컬럼명 이해 먼저함
일몰 일출 시간은 날짜의 변화에 따라 당연하다고 생각해 삭제함
EDA를 세분화 하기 위해 연, 월, 일로 나누고 계절별로도 나누어 봄
boxplot을 보니 0이 너무 많았음, 그리고 휴일은 다 삭제함
상품별 판매량을 파악하니 5번 상품의 판매량이 너무 커 어떤 상품인지 파악을함 (37번 가게에서 11일 목요일에 가장 많이 팔렸었음)
월별 판매량, 계절별 판매량 을 통해 우햐향을 확인함.
판매량 합계를 보니 33, 17번 가게의 판매량이 궁금해 공통점을 찾아보려했으나 파악하지 못함.
기상 관측소로 비교해봐도 가게의 판매량 양상을 따라갔음.
강우량과 강설량에 따른 판매량을 확인해 특정 상황에 많이 팔리는 아이템이 있음을 확인함.
기상관측소 오류로 인한 결측치를 확인했음, 그 중 5번 관측소는 근 1년 동안의 값이 결측치여서 다른 관측소의 평균 값으로 대체하였음.
다른 관측소의 결측치는 전날의 데이터로 대체해 주었음.
강설량과 강수량에 대한 관측소의 결측치를 파악해서 확인하였음.