2024년 8월 13일 화 오후 4시
인원: 박동채 외 23명
장소: 의양관 B07
불참인원: 도영(병결), 다경(병결), 진하(회사)
<공지사항>
1. 다음주 늦출 + 불출 인원 조사 (늦출,결석 구분)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
결석
상언 : 8/19(개인사정)
수환 : 8/19(개인사정)
철민 : 8/21(해커톤)
도영 : 8/21(해커톤)
정민 : 8/20(알바), 8/21~22(엠티)
시경 : 8/19(개인사정)
강수현 : 8/19~20(특강), 8/21~22(해커톤)
지선 : 8/19,23(랩실), 8/21~22(해커톤)
진하 : 8/19(회사), 8/21(알바)
다경 : 8/19(병원)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
늦출
재헌 : 8/19(개인사정)
철민 : 8/21(해커톤)
도영 : 8/22(해커톤)
준엽 : 8/19,21(병원)
ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ
2. 릴레이발표
8/22: 기존: 주희 / 신입: 승주, 서희
8/29: 기존: 진하, 도영, 철민
9/5: 기존: 도영, 지선
3. 신입부원 팀 과제 및 기존 부원 발표
신입 부원: 팀 과제 수행 후 팀별로 발표(14일 실제 발표하는거처럼 연습, 끝까지 안했어도 한 것까지 발표)
기존 부원: 동아리 활동하면서 해온 프로젝트 시간순으로 발표
어떤걸 준비했고 어디까지했는지 진행상황, 어떤 결과 도출할지에 대한 방향성 발표
한사람이 대표 or 단체 같이 해도 상관없음
4. 학술 피드백
8/28일 15시까지. 교수님 피드백 예정
<발표>
강수현: 인공지능을 활용한 의약품 관리 프로젝트 현황 및 리뷰
[너의 알약이 보여]의 프로젝트와 유사한 목적을 가짐
공모전주제와 같은 결과가 도출되어있어 공부 후 발표
개방형 클라우도플랫폼 기반 공모전 활용
의약품 관와 폐의약품 정보를 제공하는 주제를 가지고 식품의약품안전처의 정보 활용함
사용자의 알약 이미지로부터 알약을 식별하는 인공지능 서비스
약물 오복용에 대한 사고가 주는 것을 방지, 약의 앞뒷면을 업로드하면 오픈소스 라이브러리를 활용하여 뒷배경을 제거하고 모양과 색을 분류한 후 일치한지를 데이터베이스에 검색하여
모델로 추출함. 도출된 약들을 비교하여 상위 10개의 약들을 알려주는 모델
알약 품목일련번호를 제외하여 classification 진행
캡슐인지아닌지, 색상분류, 모양분류, 앞뒷면 등의 약정보들 -> 엑셀 파일의형태로 제공하게 됨
remove.bg라이브러리 활용으로 배경 제거
검색시간을 중요하게 여겨 yolov5 모델을 활용
feature extraction활용 같은 class에 속한것들이 가깝게 인식하는 형태를 활용함
y값이 1이 될경우 feature간의 거리가 작게 나타남
99.5%의 정확도가 나타남
알약에 표기된 텍스트를 이용할 때 겹치는 데이터가 없어 성능이 높지 않게 나옴
아쉬운 점
ocr시도를 하였지만 성능이 잘 나오지 않았고 전체적인 설계를 진행하지 않아 아쉬움
100%의 정확도를 기록하지 못함
배경에 따라 색이 바뀌는 캡슐(투명색)에 대한 정확도가 낮게 나옴
지선: 제왕절개 산모의 VitalDB 데이터를 이용한 머신러닝 기반 태아 산혈증 예측
보건복지부의 r&d현황을 배경으로
u-health, emr 내용 추가
의료 빅데이터 활용 사례
-> 국내 fbl에서 유전자 정보은행을 활용한 사례나 질병관리와 예측의 실시
-> 부적절한 약물사용 등을 사전에 예방하는 사례 등
태아 산혈증의 연구 배경으로 태아의 중추신경계 손상 발생과 사망의 문제를 언급
제왕절개를 한 산모를 대상으로 산모의 전자의무기록을 이용하여 산혈증을 예측할 수 있는 머신러닝 모델을 개발하는 목적을 가짐.
vitalDB로 임상정보 실시간 상태 파악가능함(데이터 불러와서 활용)
추가로 코드&최종 결과값 도출
[주요 산과 합병증 의심]은 20%이상의 열로 진단명을 0으로 전처리
5개의 중요변수 지정
총 데이터 종속변수 수 약2100개, 태아 산혈증 62개(의료데이터라 클러스터링 굳이 안함)
아쉬운 점
평균값 최빈값을 대체에 대한 아쉬움
제거했던 변수 수정해서 다시 모델링과정 필요
태우: 비행기 지연 예측 모델
가설 3가지
1. 출발과 도착의 공항 사이의 거리가 멀수록 항공기의 지연이 많이 발생함
2. 겨울철에 항공기의 지연이 많이 될것이다
3. 경유를 할 경우 지연이 될 것이다
여러 항공기 지연 뉴스를 보고 고객의 여행일정의 손해를 보고 항공사의 금전적인 손해를 보고 있는 상황임
이런 상황을 방지하기 위해 항공기 지연 예측 모델을 만들어 이용 고객에 따라 미리 정보를 제공하고 대처가 필요하다고 생각함
가설과 다르게 지연이 발생할 경우에 다른 지역을 경유한 경우는 없었음
가설과 다르게 계절의 영향을 받지 않음
항공기마다 지연 발생이 많았으며 노후된 항공기로 인한 긴급 점검 등으로의 지연이 발생헀다고 생각함
거리가 멀수록 항공이 지연이 많이 발생하지 않음
특정 지역의 날씨의 변화로 인한 지연이라고 생각함
특정공항에서 지연이 발생되었으며 항공기 연결로 인한 지연 비율이 50%이상으로 나타났으며 ord라는 공항이 문제라고 추정됨
항공기 출발시간이 이른아침일 경우 많이 발생하기도 함
비행기 지연 예측의 코드 데이터 공유
delayed값이 나와있는 데이터를 학습시키려 함(0과 1로 설정)
cancelled변수는 취소된 열로 1로 나온 데이터는 없었음
항공사의 코드와 중복된 항공사 명 등은 전처리 진해함
코드를 활용해서 시각화 진행함
아쉬운 점
도착시간 float형태 변형
모델링 중, 전처리 중 전체적으로 아쉬웠음.
원-핫 인코딩 활용 예정
연수: 클러스터링 모델 종류 설명 및 간단 예시 발표
계층적 클러스터링
군집의 개수가 정해지지 않거나 모를 때 사용하고, 군집으로 나누는 것을 결정할 때 사용한다.
각각의 거리를 계산해서 유사성 매트릭스를 계산하여 가장 거리가 가까운 쌍을 찾아 하나의 군집으로 묶는 형식이다.
최단연결법, 최장연결법, 평균연결법, 중심연결법, wards연결법의 method의 각 특징&정보를 발표
계측적 구조를 가졌을 때, 사전 군집수를 모를경우 이상치가 적을 경우 등에 활용하기도 함
단, 데이터간의 크기가 클수록 계산의 복잡도가 일어나며 데이터의 삭제, 추가 변경에 대해 민감함
비계층적 클러스터링
대표적인 k-means 알고리즘을 소개
임의의 값을 초기값으로 설정하여 가장 가까운 중심을 선택을 하여 업데이트하는 과정을 반복하는 형태
임의의 값을 잘 설정해야함
일반적으로 군집화에서 많이 나오는 알고리즘이며 쉽고 간편함
거리기반의 알고리즘으로 속성개수가 많을수록 군집화 정확도가 떨어짐
이상치에 민감하며 군집의 크기가 다르면 일부 군집이 다른 군집을 흡수할 수 있음
ebscan
ebscan은 밀도기반의 방법이며 데이터 포인트를 중심으로 최소한의 환경에 포인트 개수를 활용하게 됨
자동으로 파라미터를 결정하여 최적의 클러스터링을 수행하게되며 다양한 밀도를 가진 클러스터를 효과적으로 탐지할 수 있음
이상치 대응에 효과적이지만 밀도가 다른 경우 군집화가 제대로 이루어지지 않을수 있음
hdbscan
ebscan을 개선한 알고리즘. 그래프를 잘라가며 계삭하고 파악하게 됨
데이터 셋의 밀도와 희소성 의미를 포함된 값으로 포인트간의 거리가 밀도를 반영하도록 조정함
최소 클러스터 크기를 기반으로 클러스터 계층을 축소하고 안정된 클러스터를 식별하여 최적의 클러스터를 결정함
노이즈와 이상치 식별에 용이하지만 시간이 오래걸리는 단점이 있음