오차(Error)와 잔차(Residual), 잔차(Residual) VS 오차(Error)
모집단에서 참값에서 관찰된 값을 뺀 만큼 즉, 실제와 관찰치(값) 사이의 차이를 오차라고 한다. 잔차는 참값이 아닌 관찰치(값)에서 예측값과의 차이를 의미한다.
결국 오차에 대한 가정자체를 하는 것은 참값과 차이가 없는 상태에서 분석이 되어야 한다는 것이며, 잔차는 그 차이를 줄이는 것이 궁극적인 목표가 된다. 하지만, 참값 자체와 관찰값 자체의 차이를 줄이는 것은 상당히 힘들다.
따라서 오차를 최소한으로 줄인 상태에서 관찰된 값과 예측된 값 사이의 또 다른 괴리를 줄이고자 하는 것이다.
그래서 최소제곱(LS)으로 구하는 회귀분석에서는 잔차(Residual)에 대한 다양한 분석을 하게 된다.
회귀분석의 세 가지 가정은 아래와 같다.
1. 정규성 -> K-S 통계량, Q-Q plot 등.
2. 독립성 -> D-W 통계량
3. 등분산성 -> 범위안의 불규칙한(Random) 퍼짐
정규성의 가정은 일반적으로 모든 통계분석에서 가정되는 것으로 정규분포를 따른다는 성질이며, 이는 보통 산점도 또는 Q-Q plot을 통해서 확인한다.
독립성은 자기상관관계(Autocorrelation)를 확인하고자 하는 것으로 시간단위로 구분된 데이터들 끼리 각각 시간의 흐름에 따라서 영향을 주고받는 경우이며, 회귀분석에서는 Durbin-Watson 통계량을 이용한다. 등분산성은 잔차들의 퍼짐의 정도가 일정한 규칙이 없는 상태를 보고 판단하게 된다(t-test의 경우 집단이 2개일 때, revene의 등분산 검정 제공).