아래에 통계분석 질문을 남겨주세요.
=>안녕하세요. 로지스틱 회귀분석을 수행하던 중, 궁금한 점이 생겨서 문의드립니다.
제가 가진 데이터는 종속변수 y가 0(수행안함), 1(수행함)로 이분형이고, 전체 데이터 수는 약 1,500개 정도 입니다.
hosmer-lemeshow 검정에서는 유의확률이 0.05보다 크게 나타나, 모형이 적합하다고 나왔습니다.
그런데, 분류 정확도가 좀 문제가 있어서...
데이터 수가 1,500개라고 하면, 1,300개는 0(수행안함)의 값을 가지고 200개는 1(수행함)의 값을 가집니다.
그래서 분류정확도를 보면, 실제 데이터는 0인데 0으로 예측활 확률에 해당하는 분류정확도는 약 90%.
실제 데이터는 1인데 1로 예측할 확률에 해당하는 분류정확도는 약 20%. (여기가 너무 낮아서 문제가 되지 않을까 싶네요)
전체 분류정확도는 약 85%.
대략 이런 결과가 나타나네요. 데이터의 대부분이 0의 값을 갖기 때문에, 실제 1을 1로 예측하는분류 정확도가 상대적으로 낮게 나타난게 아닐까 싶은데요..
많이 검색도 해봤는데, 아직 답을 얻지 못했네요. 궁금한 점은 다음과 같습니다.
1. 분류정확도가 어때야 한다는 특별한 기준이 있나요? (어떤 글은 분류정확도는 별로 중요하지 않으니까 그냥 써도 된다고 하고, 어디서는 각각 0 또는 1로 예측하는 분류 정확도가 50% 이상이고 전체 분류정확도는 70% 이상이어야 한다는 글도 본 적이 있어서요) 만약 기준이 없다면 위 결과대로 분석을 진행해도 무방한가요?
2. 분류정확도를 높이기 위해 ROC curve를 기준으로 삼거나, 디폴트로 설정된 cut-off를 50%가 아닌 다른 값으로 줄 수 있다고 하던데 맞나요? 이 방법에 대해 참조할만한 자료가 있을까요?
3. 이 데이터를 바탕으로 새로운 데이터를 예측을 하기 위함이 아니라, 독립변수가 종속변수에 미치는 영향이 어떠한지를 보기 위해서 수행하는 로지스틱 회귀분석입니다. 그렇다면 분류정확도를 높이기 위해 다른 방법을 활용할 필요는 없는지요?
궁금한 점이 많네요ㅜ 답변 부탁드리겠습니다.
첫댓글 1. 분류정확도는 연구자가 주장하고자 하는 수준을 대변할 수 있으므로, 연구자의 판단에 의해 전달이 되어야 합니다.
2. 분류정확도를 높인다는 의미 보다 데이터 자체의 치우침(0이 너무 많은 상황)이 있는 경우에는 최근에는 PSM(성향점수매칭)을 진행하기도 합니다.
3. 분류정확도는 예측력에 관한 정도를 의미하며, 통계적인 유의성이 보장된다하더라도 분류정확도가 떨어지는 모형에 대해서 통계적 유의성이 의미가 있을까 싶습니다.