2024년 8월 1일 목 오후 4시
인원: 박동채 외 20명
장소: 의양관 B07
불참인원: 정민(특강), 진하(랩실)
<공지사항>
1. 다음주 늦출 + 불출 인원 조사 (늦출,결석 구분)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
결석
재헌 : 8월 6~9일(특강)
상언 : 8월 6,8일(개인사정)
수환 : 8월 5일(개인사정)
정훈 : 8월 5~6일(여행)
강수현 : 8월 5~6일(알바)
승주 : 8월 6,9일(시험)
태우 : 8월 5~7일(여행)
진하 : 8월 5일(회사) 8월7~9일(여행)
지선 : 8월 5,7,9일(랩실)
정민 : 8월 5,9일(알바)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
늦출
준엽 : 8월 6일(병원)
승주 : 8월 5일(병원)
채윤 : 8월 8일(병원)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
2. 릴레이 발표
8/8: 철민, 다경 / 수환, 준엽
8/13: 기존: 강수, 지선 / 신입: 태우, 연수
8/22: 기존: 철민, 주희 / 신입:
8/29: 기존: 진하, 도영
9/5: 기존: 경원, 지선
9/12: 기존: 도영
3. 독후감 제출 리마인드
- 이기적유전자
- 맹자
두 책 읽고 PPT 한장 분량의 공통점 8월 10일(토)까지 박동채(회장)에게 개인톡으로 PDF 제출
4. 23일 발표 재공지
=> 기존 부원들은 그대로
=> 신입들은 팀 과제 발표(팀 별로 발표하는거라고 대학원 선배님이 말하심, 이것도 정확하지 않음, 14일에 교수님 휴가 끝나셔서 그 때 이야기 다시 이야기 후 전달 받을 예정.)
=> 신입 발표는 팀 단체로 나와서 하는거라고 하심 (팀원들 위주로), 분석 파일 여러개 나올 건데 하나를 선택 하든 아니면 합쳐서 발표하는 식으로 진행 될 예정.
=> 변경시 재공지
5. 7월달 지각, 결석 정산
<지각> 6천원
- 철민 2회 - 3000
- 도영: 1회 - 1000
- 재헌: 1회 - 1000
- 동채: 1회 - 1000
<결석> 다다음주 릴레이 발표
- 태우: 1회
- 도영: 1회
- 철민: 1회
- 지선: 1회
6. 8월 15일 공휴일 -> 13일 16시 회의
+) 학술 피드백 날짜 픽스된 거 있으면 공지 -> 물어볼려고 했는데 교수님 휴가 중이셔서 14일쯤 연락 드릴 예정
+) 텍스트/이미지 스터디하는 기존 부원들도 발표하는지 다시 한번 여쭤볼 예정 -> 기존 계획은 발표 하지 않고, 공부 함에 목적을 두는 것.
1팀: 주희, 철민
2팀: 강수현, 채윤, 정민
3팀: 도영(신입이랑 같이)
+) 결초보은 활동 명부 DB 업뎃 (관심분야, 활동 등) -> 기존 부원만 하고 신입 부원은 입부 확정되면 업데이트 할 예정
<발표>
1. 채윤: 패션 웹로그 데이터 분석을 통한 추천시스템(진행중) 코드 발표
2. 철민: 위치기반 클러스터링을 활용한 주요 포트홀 발생 요충지 분석 및 이를 활용한 포트홀 순찰 경로 최적화
3. 도영: MLops 자동화를 통한, 포트홀 보수 수요 예측 모델 및 시각화
채윤 : 쇼핑몰 추천시스템
인도네시아의 쇼핑몰 데이터를 분석하였음
데이터 전처리랑 EDA진행하고, 많진 않지만 일부 결측치를 채웠음 season의 결측치는 의류이름에 적혀있는 연도를 참고함
연관규칙까지 확인했고 아직 추천시스템 구축은 하지 못함.
장바구니에 담거나 실제로 구매했거나, 여러번 클릭했거나 했을때에 대한 점수를 부여하여 추천시스템을 만들 예정임.
다시 장바구니 분석을 위해 리스트열로 바꾸고 데이터 원핫인코딩 진행
장바구니 구매 대한 연관규칙을 확인하고, 표현해서 확신도, 향상도, 지지도, 신뢰도의 4가지 기준을 가지고 의류와 신발 화장품등 장바구니 담긴 제품들의 연관도를 분석하였음
연관규칙의 결론 : 의류 구매는 신발 구매로 이어진다.
앞으로의 진행 방향 : 장바구니의 연관규칙을 기반으로 추천 시스템을 구축할 예정임.
철민 : 해커톤 주제 소개_위치 기반 클러스터링을 활요한 주요 포트홀 발생 요충지 입지 분석
주요 포트홀 발생 요충지를 찾아보자 라는 아이디어에서 시작
포트홀 발생 좌표데이터랑 발생 빈도랑 크기에 따른 가중치를 부여해 포트홀 점수 만들어서 클러스터링
이후 본선에서 제공되는 데이터를 확인하고 주제 고도화를 진행함.
-> 클러스터링을 하려고 했으나 결과물이 안좋게 나올 것 같아서 고민중이다. 왜냐하면 도로를 구간별로 나누어서 포트홀 점수를 확인하려 했다. (ex 달구벌 대로의 용산->죽전 구간) 그러나 클러스터링을 통해 시스템화 하게 되면 이 시스템이 필요한가? 라는 의문이 들었음.
-> 그래서 동선최적화나 동선 개발에 대한 걸로 바꿀 예정 노드별로 나누어서 동선최적화 알고리즘을 만들어서 씌우려는 계획(현재로써는)
-> 동선 최적화 알고리즘? (유전 알고리즘의 개념 -> 생물체가 환경에 적응하면서 진화해가는 모습을 모방하여 최적해를 찾아내는 최적화 방법을 유전 알고리즘이라 한다.) 알고리즘 약식으로 해보니깐 루트자체가 건물을 뚫고 가면서 동선을 짜주고, 현재 시간에 따른 도로 상황이 반영하는게 어려운듯? 앞으로 이점을 해결해볼 예정이다.
진행하면서 생긴 궁금증 (이는 멘토링을 통해서 해결할 예정이다.)
1. 순찰 차량은 본사에서 출발하는지,
2. 동선을 짜는데 하루안에 순찰을 끝낼 수 있는 거리인지?
3. 순찰중에 작업지역 발생하면?
도영 : 해커톤 주제 소개_MLops 자동화를 통한, 포트홀 보수 수요 예측 모델 및 시각화
먼저 MLops의 개념에 대해 소개함
-> 개발과 운영을 따로 나누지 않고 개발의 생산성과 운영의 안정성을 최적화하기 위한 문화이자 방법론이 DevOps(Development Operations) -> 이를 머신러닝 시스템에 적용하자! 그러면 MLops라고 함
분석할 때는 민원이든 순찰이든, 딱히 구분을 짓지 않을 것이다. 그러나 시각화 제공할 때는 구분해서 하면 현직자들 분석에 도움이 되기에 시각화때는 구분이 필요할 거라 생각해 시각화 때는 이용할 예정이다.
대구 전 지역(군위 제외)을 500x500 or 250x250의 구역으로 나누어서 몇 번 구역에서 포트홀이 발생할지 알 수 있는 모델을 만들 것이다. 포트홀 수리 수요 및 결과나, 시간대 별, 요일 별, 지역 별로 나타낼 수 있는 "한눈에" 수치를 볼 수 있는 시각화 페이지 제공할 예정이다.
앞으로 할 과제
1. 남은 삼 주 동안 어떤 데이터를 쓸지, 혹은 쓸 수 있는 데이터는 무엇인지 재확인 및 추가수집
2. MLops 자동화를 통한 업데이트 시스템을 만들어야함. level은 0~1렙정도 수준의 MLops
3. 사고별(포트홀, 균열, 소성변형, 침하)를 타켓인코딩 해서 통계적인 차이가 있는지 확인 후 차이가 없다면 다른 사고들도 데이터 셋에 같이 넣을것이다. → 왜냐하면 궁극적인 목적은 도로 문제로 인한 사고가 나지 않는 것이 목표이기 때문에