다들 너무너무 잘 분석했습니다. ~
분석에 도움이 되고자
데이터셋을 내과의사에게 물어보고 다시 정리 합니다.
데이터 셋에 대한 설명입니다.
1. trestbps ( resting blood pressure ) : 안정시 혈압(수축기 고혈압)
2. chol (serum cholesterol) : 고지혈증
3. fbs ( fasting blood sugar larger 120mg/dl (1 true) ) : 당뇨가 있냐 없냐 ? 보통 126을 기준으로 126이상
이면 당뇨인데 여기 데이터셋은 120을 기준으로
한다.
4. restecg (resting electroc. result (1 anomality)) : 몸의 소금기 상태. 전해질( 나트륨, 칼륨, 염소 ) 중에
몇개가 보이는가 ? 보통 나트륨, 칼륨이 많다.
5. thalach (maximum heart rate achieved ) : 최대 심박수(60~80 이 정상이고 100회 이상이면 빠르다)
6. exang (exercise induced angina (1 yes) ) : 뛸때 가슴통증을 유발하는가 (협심증의 판단의 기준)
7. oldpeak (ST depression induc) : 운동부하로 ST(아래 심전도에 보이는선) 이 기준선 아래로 떨어지는지
8. slope (slope of peak exercise ST ) : ST 경사각도가 올라가는 경우 심근경색이 있을때 경사가
기울어진다.
9. ca (number of major vessel ) : 심장으로 들어가는 3개의 혈관이 막혔는지
( 데이터 셋에서 1개가 막혔는지 2개가 막혔는지 표시됨)
10. thal (no explanation provided, but probably thalassemia
(3 normal; 6 fixed defect; 7 reversable defect) :
살라세미아는 지중해 지역에 사는 사람들에게 발생하는 빈혈관련 병으로 우리나라에서는 거의 환자가 없어
희귀병으로 보고 있다. ( 데이터 셋 : 3은 정상이고 6은 해결할수 없으며 7은 해결가능한 상태다)
11. num ( diagnosis of heart disease (angiographic disease status) ) :
이 데이터 셋의 라벨로 심장질환의 갯수를 나타낸다.
심장질환은 여러개가 있는데 협신증, 심근 경색, 부정맥, 심부전, 심장 판막증 등 여러개 중 몇개가 나타나는지
를 표시하고있다.
위의 데이터는 대부분 피검사와 운동검사를 통해 얻어진 데이터이고 정보획득량은 thal (지중해성 빈혈) 이 가장
높으나 우리나라에서는 희귀병이므로 이 외의 요소인 이 외의 요소인 가슴통증과 oldpeak(운동부하의 ST 선)
등이 심장질환 판단에 중요한 변수가 되겠다.