2024년 8월 22일 목 오후 4시
인원: 박동채 외 16명
장소: 의양관 B07
불참인원: 도영,지선,강수현(해커톤), 정민(여행)
<공지사항>
1. 다음주 늦출 + 불출 인원 조사 (늦출,결석 구분)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
결석
수환 : 8/28~30(여행)
태우 : 8/26~30(여행)
경원 : 8/28~30(여행)
재헌 : 8/28(개인사정), 29~30(여행)
시경 : 8/26~31(여행)
채윤 : 8/26~28(특강)
서희 : 8/26~30(개인사정, 여행)
준엽 : 8/26(개인사정)
정훈 : 8/28(개인사정)
연수 : 8/26~27,30 (개인사정)
승주 : 8/26~27,30 (개인사정)
정민 : 8/27(알바)
다경 : 8/26~28(특강)
지선 : 8/26,27,28(랩실)
진하 : 8/26,29(회사), 8/27(여행), 8/28(알바)
강수현 : 8/26~28(알바), 8/29(개인사정)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
늦출
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
2. 릴레이발표
8/29: 기존: 진하, 도영, 철민
9/5: 기존: 도영, 지선
3. 세미나 추가 인원 조사
위치 및 장소 : 8월 28일 13:30 백116호
4. 오늘 회의 끝나고 희망자 있으면 23일 발표 연습 도와드립니다.
5. NIA 공모전 참가
- 참가신청만 통과해도 1차 교류회 및 멘토링 들을 수 있음.
- 참가신청만 제출해도 괜찮음.
- 개인적 의견으로 뭐든 하면 도움 된다.
6. 회칙 설명
제 1 장 총 칙
- 명칭: 동아리 이름은 '결초보은'.
- 목적: 학술활동과 단체 생활을 통해 전문적, 사회적 인성 개발.
- 소재지: 계명대학교 내, 회장 및 임원진이 중심.
제 2 장 회 원
- 회원 선발: 신입회원은 매년 2회(동계/하계 방학 전) 선발, 주로 계명대 경영정보학과에서 선발하며, 최대 20명.
- 회원 자격: 면접 합격, 회칙 동의, 회비 납부 완료 시 정회원 자격 부여.
- 회원 활동기간: 대학 재학기간 동안 활동하며, 장기 휴학 및 해외활동 시 탈퇴로 간주.
- 회원의 권리와 의무: 회칙 준수, 활동 및 회의 참여, 표결권 행사.
- 근태의무: 방학 중 평일 13시~18시 출근, 불참 시 회장에게 사전 알림.
- 경고: 회비 미납 또는 회칙 위반 시 경고 부여 가능. (회비 납부 매달 10일 5000원, 신입들은 들어온다면 9월달에 3달치 내야함)
- 회원 자격 소멸: 명예 훼손, 경고 누적 시 제명 가능, 탈퇴 시 회원 자격 소멸.
경고 종류? = 2회 이상 누적시 회의를 통한 제명
- 출석 의무 불이행: 회원이 정해진 출석 시간을 준수하지 않거나, 정당한 이유 없이 회의나 활동에 지속적으로 불참하는 경우.
- 회비 납부 불이행: 회비를 정해진 기간 내에 납부하지 않거나, 경고를 받고도 이를 이행하지 않는 경우. => 이건 개인차이가 존재하기 때문에 제외
- 교육 및 활동 불참: 동아리에서 주관하는 교육 활동이나 공모전, 학술대회 등 주요 활동에 참여하지 않는 경우.
- 회의 및 결정 사항 무시: 동아리 내에서 결정된 사항을 무시하거나, 자신의 의무를 다하지 않아 동아리 활동에 지장을 주는 경우.
- 동아리 명예 실추: 동아리의 명예를 훼손하거나, 다른 회원에게 피해를 주는 행동을 반복하는 경우.
7. 공지방의 공지는 항상 읽어주시고 (읽었으면 체크표시 부탁드립니다.) 답변 부탁 할 때는 빨리 답해주세요 ㅠㅠ
<발표>
철민: 공공데이터 활용 해커톤 최우수상 - DAERO: 도로 안전과 입지 분석을 시각화하는 클러스터링 솔루션
포트홀 정의 및 문제정의 소개
포트홀 위험지수와 도로 내 중요도 값 도출 + K-means 클러스터링을 통한 입지 분석 진행
KMO 요인분석 기법을 통해 1이상인 요인에 해당하는 값의 가중치로 지표를 도출하고 포트홀 위험지표를 계산하여 도출함
도로중요도 지표를 생성함
-> 도로네트워크를 가져와서 대구광역시 도로 노드 정보를 추출함
-> 최근접 노드를 찾고 도로 네트워크 가중치를 설정하여 PAGE RANK를 계산함
클러스터링 진행함
-> 실루엣 계수 검정 후 엘보우 기법을 통해 최적의 클러스터를 탐색함
-> 데이터 스케일링 후 '포트홀 위험 지수'와 '도로 중요도'건의 클러스터링을 진행함
streamlit을 사용하여 구현함.
주희: 논문리뷰 - On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜
데이터의 규모를 계속해서 키워 나가는 방식의 연구 방식이 괜찮은지에 의문을 가지고 연구를 하며 발생하는 비용에 대한 문제를 지적함
윤리적, 환경적, 사회적 영향에 대해 비판적으로 분석하는 논문을 작성했다가 해고가 된 분을 소개함
생성 모델의 결과물에 집중해서 분석을 진행한다는 점, 겉으로 보기에는 일관성 있는 결과물이지만 실질적으로는 그렇지 않다는 점 등을 통해 llm의 잠재적 위험성을 소개함
잠재적 위험성으로 언어모델이 지배적인 관점을 받아들여 다양한 측면에 대해 지배적인 관점을 과대 반영하고, 언어 데이터 속 폭력적인 언어, 혐오 발언, 다양한 정치 사회적 프레임이 존재하는 등 bias를 재상산하고 증폭시키는 문제점이 존재함
학습셋을 구축하거나 모델을 만들기 전 섬세한 계획이 필요하고, 단순히 데이터를 많이 수집하는 것이 아니라 task에 적절한 데이터를 수집하기 위해 더 많은 시간을 투자할 필요가 있고, 다양한 시나리오를 고려하는 value sensitive design 등으로 꾸준한 노력이 필요함
승주: 경범죄와 중범죄의 나이와 성별 분포 시각화
동일한 정보를 담고 있는 칼럼 우선 제거.
연도 컬럼을 추가하여 각 사건이 몇 연도에 일어났는지 확인
나이 그래프를 통해 20대~40대가 범죄가 많이 일어남을 확인
경범죄보다는 중범죄가 더 많음을 확인.
서희: 신용카드 사기 거래 예측
신용카드 사기 거래 정의를 소개한 후 EDA 발표
연도별 월별 일별로 조회하기 위해 변수를 생성
피해를 받은 사람의 나이대 그래프를 통해 89세 이상의 나이대에서 많은 피해자가 나옴을 파악함.
성별 그래프를 통해 여성보다 남성 피해자가 많았으나 많은 차이가 나진 않았음.
시간대별 그래프를 확인 -> 밤9시부터 발생빈도가 급증하는 것을 보고 인위적으로 만들어진 데이터라고 생각
상점별 사기 빈도 그래프를 확인 -> 실제 있었던 상점명이 아님을 확인하고 가상의 데이터라고 판단
쇼핑넷이라는 쇼핑몰에서 사기 거래 빈도가 높게 나타남을 파악
미국의 DE주에서 가장 많은 사기 거래가 나타났음을 확인.
불균형 해소를 위해 ADASYN 기법을 통해 샘플링을 진행함.
LGBM, RF 등의 모델을 사용하여 모델링 진행.