1. 목적
한 개체가 어느 집단에 속하는가를 판별하기 위해 한 개 이상의 설명(독립)변수를 가지고 집단(종속)변수에 대한 판별모형을 만든다.판별분석(Discriminant analysis)은 한 개체가 두 개 이상의 집단 중에서 어느 집단에 속할 것인지 예측하기 위한 분석이다. 예를 들어, 은행에서 기업의 신용상태에 따라 도산위험이 높은 집단과 낮은 집단으로 분류할 수 있다. 여러 가지 병의 상태와 검사결과를 가지고 병을 진단하거나, 출토된 화석의 각종 측정치를 가지고 연대를 판별하기 위해서도 판별분석을 사용 할 있다.
판별분석에서는, 소속집단(종속변수)이 이미 알려진 케이스에 대해 그 소속집단을 판별하는데 효과적이라고 생각되는 여러 개의 설명(독립)변수들의 측정값들을 가지고 독립변수들의 선형함수인 판별함수(discriminant function)를 만든다. 이 판별함수는 소속집단을 모르는 케이스에 대해 독립변수 값들을 가지고 어느 집단에 속하는지 판별하는데 사용된다.
이 분석은 독립변수들의 선형결합으로 종속변수의 모형을 만들고 예측한다는 점에 있어서 회귀분석과 유사하다. 주요 차이점은 판별분석의 종속변수는 범주형변수(명목 순서척도)이고, 회귀분석의 종속변수는 구간 비율 척도 변수라는 점이다.
2. 사용되는 변수의 척도
독립변수는 모두 구간 비율척도(더미변수 형태로 바꾼 범주형 변수 포함)이고 종속(집단)변수는 명목이나 순서척도
판별분석에서 종속변수는 집단을 나타내는 명목척도나 순서척도 변수이어야 한다. 독립변수는 회귀분석처럼 모두 원칙적으로 구간 비율척도이어야한다. 그러나 순서척도이더라도 각 범주들의 간격이 등간격이라고 볼 수 있는 경우나 몇 개의 순서척도 변수들의 합으로 된 변수에도 적용할 수 있는 경우나 몇 개의 순서척도 변수들의 합으로 된 변수에도 적용할 수 있다. 또한 독립변수로서 범주형 변수를 사용할 수 있는데 이 경우에는 반드시 더미(dummy)변수 형태로 바꾸어서 사용해야 한다.
3. 원리
판별분석에서의 가정(Assumption)
판별분석을 실행시키기 위해서는 데이터가 다음의 가정을 만족해야 한다.
독립변수들이 각각 정규분포를 따르고 각 집단별 공분산 행렬이 동일하다
케이스 수가 많은 경우에는 정규성을 검토하지 않아도 된다. 그러나 케이스 수가 작은 경우에는 히스토그램을 그려보거나 정규성 검정을 해 볼 필요가 있다. 그러나 판별분석은 정규성 가정에 민감하지 않다고 알려져 있기 때문에 약간 벗어나는 것은 크게 문제되 않는다. 각 집단별 공분산 행렬이 같은가를 Box의 M검정으로 검정해 볼 수 있다. 공분산행렬이 같지 않을 경우에는 분류방법 적용시 공분산 값으로 합동공분산행렬을 사용하지 말고 집단별로 다른 공분산행렬을 사용해야 한다.