|
|
< 목 차 >
| ||||||||||||||||||||||||||||||||||||||||||||||||
1. 회귀분석의 기본개념
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
1) 정의
| ||||||||||||||||||||||||||||||||||||||||||||||||
주어진 자료를 통하여 변수(사회현상이나 자연현상)간의 함수관계를 밝히고 이 함수관계를 이용하여 독립변수값에 대응되는 종속변수의 값을 『예측』 또는 『설명』하는 분석 방법이다.
| ||||||||||||||||||||||||||||||||||||||||||||||||
2) 기능과 용도
| ||||||||||||||||||||||||||||||||||||||||||||||||
(1) 기술도구 | ||||||||||||||||||||||||||||||||||||||||||||||||
- 회귀식 추정 및 추정된 회귀식의 정확도 평가 - 특정 독립변수의 종속변수에 대한 독립적 영향력 측정 - 변수들간의 복잡한 인과관계 메카니즘 파악 | ||||||||||||||||||||||||||||||||||||||||||||||||
(2) 추리도구 | ||||||||||||||||||||||||||||||||||||||||||||||||
- 모수추정 및 신뢰구간 추정
| ||||||||||||||||||||||||||||||||||||||||||||||||
3) 회귀분석의 변수 구분
| ||||||||||||||||||||||||||||||||||||||||||||||||
① 독립변수(independent variable) | ||||||||||||||||||||||||||||||||||||||||||||||||
- 다른 변수에 영향을 주는 변수 - 원인변수, 설명변수, 예측변수라고도 함. | ||||||||||||||||||||||||||||||||||||||||||||||||
② 종속변수(dependent variable) | ||||||||||||||||||||||||||||||||||||||||||||||||
- 다른 변수의 영향을 받는 변수
| ||||||||||||||||||||||||||||||||||||||||||||||||
4) 회귀분석의 사용 사례
| ||||||||||||||||||||||||||||||||||||||||||||||||
- 사람의 라이프 스타일과 수명과의 함수관계를 밝혀 이들 사이의 관계 연구
| ||||||||||||||||||||||||||||||||||||||||||||||||
5) 회귀분석의 종류
| ||||||||||||||||||||||||||||||||||||||||||||||||
① 단순회귀분석(simple regression) | ||||||||||||||||||||||||||||||||||||||||||||||||
- 독립변수가 하나일 때, 독립변수와 종속변수간의 선형관계에 관한 분석 | ||||||||||||||||||||||||||||||||||||||||||||||||
② 다중회귀분석(multiple regression) | ||||||||||||||||||||||||||||||||||||||||||||||||
- 종속변수에 영향을 미치는 변수가 여러개 일 때, 이들 독립변수들과 종속변수간의 선형관계에 관한 분석 | ||||||||||||||||||||||||||||||||||||||||||||||||
2. 단순회귀모형(simple regression model) | ||||||||||||||||||||||||||||||||||||||||||||||||
기울기 b는 x가 1단위 변할 때 y가 변하는 양을 나타내고 a는 y절편으로 함수식 y=a+bx가 y축을 끊는 값이다.
| ||||||||||||||||||||||||||||||||||||||||||||||||
3. 최소제곱법(Method of Least Squares)
| ||||||||||||||||||||||||||||||||||||||||||||||||
회귀직선식 y=a+bx를 구하기 위해서는 실제 관찰치 와 회귀식에 의한 추정치 즉 의 차이인 오차의 제곱을 전부 더한 오차제곱합 S를 최소화해주는 방법인 최소제곱법이란 방법으로 기울기 β와 y절편 α를 구하게 된다. 최소제곱추정량(Least Squares Estimates) ● 추정회귀직선 : < 예1 > 최근 공해, 음식물등의 유해성분, 흡연등으로 대부분의 임산부들은 아기가 태어나서 눈으로 확인할 때까지 혹시나 기형은 아닌가, 미숙아는 아닌가 걱정을 한다. 임신중에 매월 정기검진에서 안전하고 정확한 초음파를 이용하여 태아의 머리와 흉곽을 측정함으로써 태아의 성장을 가장 간단하고 확실하게 확인할 수 있다. 특히 분만예정일을 모르는 경우 태아의 두정골 간격과 태아 체중에 의해 분만예정일을 예측할 수 있는 것이다. 이때 쓰이는 공식이 지금까지 누적된 자료에 의한 모형으로부터의 예측인 것이다. 임신기간에 따른 초음파로 측정된 태아의 두개골 크기측정치 자료인데 눈으로 보아도 임신기간이 늘어날 수록 크기가 커지는 것을 알 수 있다. | ||||||||||||||||||||||||||||||||||||||||||||||||
① 산점도를 작성하여 두변수 즉 임신기간과 태아의 크기간 양의 높을 상관관계임을 확인할 수 있다. ② 이 자료를 가지고 와 를 계산하여 기울기 추정치 를 구했더니 0.29였다. ③ 절편 추정치는 -1.45여서 회귀직선식은 y=-1.45+0.29x로 구해진다. 여기서 중요한 기울기 0.29의 의미는 임신기간이 1주 늘어날 때 태아의 머리가 2.9mm씩 커진다고 해석할 수 있고 임신 마지막 주인 x=40일 때의 y값을 구해보면 10.15cm임을 예측할 수 있다. | ||||||||||||||||||||||||||||||||||||||||||||||||
< 예2 > 어떤 한 기종의 승용차값이 연도가 지남에 따라 그 값이 얼마나 떨어지는 가를 보기 위하여 이 승용차에 대한 중고차 판매가격을 조사했다. 막연히 주인이 깨끗이 쓰던 안쓰던 사용기간이 긴 차일수록 판매가격은 떨어질 것으로 생각할 수 있다. | ||||||||||||||||||||||||||||||||||||||||||||||||
① 산점도를 작성해보면 사용년도와 가격이 거의 직선에 가깝게 음의 상관관계를 갖는것을 알 수 있다. ② 실제 상관계수를 구해보면 -1에 가까운 -0.989임을 알 수 있다. 그러면 이 자료를 가지고 회귀식을 구해 보자. | ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
1) 회귀분석에서의 분산분석의 의미
| ||||||||||||||||||||||||||||||||||||||||||||||||
추정회귀식의 적합도를 측정하는 방법으로 결정계수와 회귀식에 의한 추정값의 표준오차(SEE)를 사용할 수 있다. 그러나 이 지표들은 구해진 회귀식의 통계적 유의도 수준을 직접 판단하는 기준으로는 사용하기 어렵다는 제약을 지닌다. 가령 이들 지표가 얼마 이상의 값을 나타내면 추정된 회귀식에 통계적 의미를 부여할 수 있다는 식으로 활용하기는 어렵다. 추정된 회귀식에 대한 통계적 의미의 부여는 회귀모형에 포함된 독립변수와 종속변수 사이에 직선의 관계가 성립하지 않는다는 영가설을 부정하는 방식으로 이루어진다. 여기서 영가설은 모집단의 수준에서 결정계수가 0, 즉 이라는 의미이다. 물론 이 영가설은 독립변수가 하나(단순회귀분석)인 경우, 모회귀모형에서 기울기인 β가 0의 값을 지닌다는 뜻도 된다. 이 영가설 는 분산분석(ANOVA)표를 작성하여 F비의 값을 구하는 방법으로 검증할 수 있다. 이것이 바로 회귀분석에서 분산분석표가 가지는 의미이자 역할이다. | ||||||||||||||||||||||||||||||||||||||||||||||||
2) 분산분석표의 사용방법
| ||||||||||||||||||||||||||||||||||||||||||||||||
● 귀무가설 ● 검정통계량 ● 기각역 이면 기각하고, 대립가설을 채택함. → 대립가설을 채택되는 경우의 의미 : 회귀직선의 기울기 이 0 이 아니므로 회귀직선이 유의하다는 것을 나타냄
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
● 결정계수(Coefficient of Determination) : 총변동 중 회귀선에 의한 변동이 기여하는 비율로 회귀선의 자료에 대한 설명력을 측정하는 통계량으로 독립변수가 하나인 단순회귀에서는 상관계수와 일치한다. | ||||||||||||||||||||||||||||||||||||||||||||||||
< 결정계수의 성질 > | ||||||||||||||||||||||||||||||||||||||||||||||||
-
| ||||||||||||||||||||||||||||||||||||||||||||||||
< 분석 사례 > 의류광고 비용과 판매량의 자료를 가지고 | ||||||||||||||||||||||||||||||||||||||||||||||||
① 작성된 회귀직선식 분산분석표에 의한 결과가 다음과 같다. ② =383.8 로 ③ F(1.8.0.05)의 5.32보다 크므로 적합된 회귀직선식은 유의한 직선이라고 결론짓고 또한 유의확률(P-value)이 0.001로도 같은 결론을 내린다. ④ 결정계수 을 구해보니 0.95로 선전 비용의로 판매량의 95%를 설명할 수 있다는 것이다. 지금까지 관련된 두 변수의 관계를 나타내는 회귀식중 가장 기본이 되는 직선회귀식을 찾아보고 그 해석방법, 유의성 검정, 변수의 설명력을 나타내는 결정계수의 산출과 해석 등을 살펴보았다. 회귀분석에서도 회귀식의 적합으로 그칠것이 아니라 이 회귀식의 유의성 검정과 함께 조사되지 않은 시점의 예측에 이 회귀분석의 결과를 이용할 때 더욱 분석의 의의가 있을 것이다. |
|
< 목 차 >
| ||||||||||||||||||||||||||||||||||||||||||||||||
1. 다중회귀방정식이란?
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
1) 개념
| ||||||||||||||||||||||||||||||||||||||||||||||||
다중회귀분석이란 종속변수의 변화를 설명하기 위하여 두 개이상의 독립변수가 사용되는 선형회귀모형을 말하며, 실제 자료를 이용한 모형적합의 경우에는 대부분이 중회귀모형을 이용한 모형적합이 이용된다.
| ||||||||||||||||||||||||||||||||||||||||||||||||
2) 필요성
| ||||||||||||||||||||||||||||||||||||||||||||||||
단순회귀모형은 하나의 독립변수와 종속변수로 구성된다. 그러나 실제로 단일 요인에 의해서 결정되는 현상은 매우 드물다. 대부분의 인과관계구조는 여러 요인들로 복잡하게 얽혀있기 마련이며, 따라서 다수의 독립변수를 모형에 포함시키는 다중회귀분석이 불가피해진다.
| ||||||||||||||||||||||||||||||||||||||||||||||||
3) 장점
| ||||||||||||||||||||||||||||||||||||||||||||||||
- 오차분산(error variance)을 줄이고 종속변수에 대한 보다 충실한 설명이나 예견이 가능
| ||||||||||||||||||||||||||||||||||||||||||||||||
4) 다중회귀방정식 모형(독립변수가 두 개인 경우)
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
→ 검정통계량 값이 유의수준 인 경우의 보다 클 때 기각
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
표준화된 다중회귀분석이란, 종속변수와 독립변수를 표준화시켜 회귀분석한 것을 말하며, 이 경우에는 절편항이 필요 없어진다. 표준화된 회귀분석에서 회귀계수들의 절대값이 클수록 독립변수 가 종속변수 y 에 주는 영향이 크다는 것을 의미한다.
| ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
1) 다항회귀 | ||||||||||||||||||||||||||||||||||||||||||||||||
- 단순회귀모형 : 독립변수와 종속변수간에 직선적인 관계가 있는 경우에 사용 - 다항회귀모형 : 독립변수와 종속변수간에 직선적인 관계가 아니고, 아래 산점도와 같이 곡선관계가 있는 경우 사용 | ||||||||||||||||||||||||||||||||||||||||||||||||
2) 가변수(dummy variable)
| ||||||||||||||||||||||||||||||||||||||||||||||||
명목척도나 서열척도로 측정된 질적변수(qualitative variable)를 회귀식에 포함시키고자 할 때는 가변수의 형태로 부호화(coding)하는 방법이 널리 이용된다. 즉, 가변수를 이용한 회귀모형은 독립변수에 질적변수가 포함되어 있는 경우에 사용한다.
| ||||||||||||||||||||||||||||||||||||||||||||||||
→ 각 범주별 반응함수의 기울기가 동일한 경우의 모형 예) 야구게임에서 청량음료 판매갯수 (y) 와 예매표수 (), 게임의 성격 () | ||||||||||||||||||||||||||||||||||||||||||||||||
와의 회귀모형 | ||||||||||||||||||||||||||||||||||||||||||||||||
===> 반응함수
| ||||||||||||||||||||||||||||||||||||||||||||||||
(2) 두 개 범주를 나타내는 가변수가 있는 경우
| ||||||||||||||||||||||||||||||||||||||||||||||||
→ 각 범주별 반응함수의 기울기도 차이가 있는 경우의 모형
| ||||||||||||||||||||||||||||||||||||||||||||||||
(3) 세 가지 이상의 범주를 나타내는 질적변수가 있는 경우
| ||||||||||||||||||||||||||||||||||||||||||||||||
예) 소의 몸무게 (y) 에 영향을 주는 두 개의 변수 , f | ||||||||||||||||||||||||||||||||||||||||||||||||
를 이용한 회귀모형 | ||||||||||||||||||||||||||||||||||||||||||||||||
→ f는 질적변수로서 세 개의 범주를 표시하므로 다음과 같은 두 개(3-f)의 가변수를 고려 | ||||||||||||||||||||||||||||||||||||||||||||||||
모형식 : | ||||||||||||||||||||||||||||||||||||||||||||||||
* , 의 의미 : = 사료 A와 사료 C와의 차이, = 사료 B와 사료 C와의 차이 * 세 개의 사료간에 차이가 없다는 검정 : 귀우가설 |
|
< 목 차 >
| ||
1. 로지스틱 회귀모형이란?
| ||
| ||
로지스틱 회귀모형은 대수선형모형의 일종인데, 독립변수와 종속변수를 구분짓는다는 점에서 일반대수선형모형과 구분된다. 로짓(logit)회귀모형이라고도 불리며, 종속변수가 두 범주로 구성되어 있는 명목변수일 때 적용되는 통계적 기법이다.
| ||
| ||
월수입이 적은 사람들은 거의 대부분 승용차가 없고, 월수입이 많은 사람들은 거의 대부분 승용차를 가지고 있다고 하자. 월수입을 독립변수로 하고, 승용차 소유 여부를 종속변수로 한다고 하자. 족송변수인 승용차 소유 여부에서 비소유를 0으로 하고, 소유를 1로 하여 월수입과 승용차 소유 여부간의 관계를 그림으로 그려보면 다음과 같은 모양을 보일 것이다.
위 그림에 있는 선을 로지스틱 곡선(logistic curve)이라고 한다. 이 곡선은 종속변수 Y(승용차소유 여부)와 독립변수 X(월수입)간의 함수를 나타낸다. 따라서 이것을 회귀방정식으로 표시하면 다음과 같다. | ||
Y = f(X)+e Y= 승용차 소유 여부 X = 월수입 e = 오차 f = 함수 | ||
위의 회귀방정식에서 Y는 명목변수로서 월수입의 수준에 따른 승용차 소유의 확률이기 때문에 정확하게 표시하면 P(Y)=f(X)+e가 된다. P(Y)는 승용차 소유의 확률로서 0.000에서 1.000 사이의 값을 취한다. P(Y)값이 0에 가까우면 승용차를 소유하고 있을 확률이 거의 0임을 뜻하고, 1에 가까우면 승용차를 소유하고 있을 확률이 매우 높음을 뜻한다.
|
< 목 차 >
|
1. 모든 가능한 회귀방법
|
- 모형간편화의 원칙
|
독립변수가 2개 이상인 다중회귀모형에 있어서는 기여도가 낮은 독립변수들이 포함될 수 있다. 이러한 경우 가능한한 적은 수의 독립변수로서 이해하기 좋고 사용하기에 좋은 간편한 모형이 선호되는데 이를 모형간편화의 원칙이라 한다.
|
< 변수선택방법 >
|
모든 가능한 회귀방법(all possible regressions)
|
1. 모든 가능한 회귀방법(all possible regressions)
|
1) 모형선택방법 : 독립변수의 수가 k 개인 경우, 모든 가능한 회귀모형을 적합하여, 최적모형을 선택 |
- 모든 가능한 회귀의 수 :
|
2) 최적회귀모형 선택 기준 : 수정결정계수 기준 |
- 모든 가능한 회귀의 단점 : 적합시켜야 할 모형의 수가 많은 점이 단점
|
2 변수제거법(backward elimination method)과 변수선택법(forward selection method)
|
변수제거법은 일반적으로 "뒤로부터의 제거방법"이라고 하고, 변수선택법은 "앞으로부터의 선택방법"이라고 한다.
|
1) 변수제거법
|
- 회귀모형에 기여도가 작은 변수를 차례로 제거해 나가는 방법 - 변수제거법의 절차 |
① 모든 독립변수를 포함한 회귀 모형을 적합하여,
|
2)변수선택법
|
- 변수제거법과는 반대로 기여도가 높은 변수들을 차례로 선택해 나가는 방법 - 변수선택법의 절차 |
① 상수항만을 포함한 회귀모형에서
|
3. 단계별 회귀방법(stepwise regression method)
|
- 변수선택법을 보완하기 위하여 변수제거법을 가미한 방법으로서, 일반적으로 변수선택시에 가장 널리 사용되 는 방법임 - 단계별 회귀방법절차 : 변수선택법에서, 새로운 변수가 들어온 후에도 기존의 회귀모형에 포함된 변수들이 계 속 유의한 지를 검정하여, 유의하지 않으면 제거해 나가는 방법을 추가 - 단계별 회귀방법이 끝나는 경우 |
① 모형밖의 변수중에서 모형안으로 들어올 변수가 없는 경우 ② 모형내에 막 포함되었던 변수가 즉시 모형에서 제거되는 경우 |
< 목 차 >
|
1. 전차분석 2. 오차의 정규성 검토 3. 오차의 자기상관 4. 다중공선성 5. 이상치 및 영향력이 큰 데이터 |
|
1단계 : 모형 설정 2단계 : 모형의 적합 3단계 : 모형의 타당성 검토 |
- 모형의 타당성 검토 단계에서 고려하여야 할 내용은 다음과 같은 것들이 있다.
|
|
잔차 산점도로 부터 검토할 수 있는 내용은 회귀모형의 가정은 다음과 같다. |
- 선형성의 가정 - 측정오차들의 기대값이 0 이라는 가정 - 측정오차들의 등분산 가정 - 측정오차들의 독립성 가정 - 측정오차들의 정규성 가정 |
그러므로, 잔차 산점도에서 문제가 발생하는 경우에는 위의 다섯 가지 가정이 이루어지지 않기 때문에, 적합된 회귀모형의 타당성이 위협받게 된다. ♣ 잔차 산점도로부터 문제점이 발생하는 경우 취할 수 있는 조치는 다음과 같다. |
① 이분산성(unequal variance)이 있다고 판단되는 경우 : 가중최소제곱법을 이용
|
|
- 오차의 정규성 가정 : 잔차의 정규성을 검토하는 정규확률플롯을 이용
|
|
- 자기상관(autocorrelation) : 시간의 흐름에 따라 나열된 오차항 간의 상관관계 - 가정 : |
* 의미 : 오차항 간에 독립성이 존재 : 오차항 간에 양의 상관관계 존재 : 오차항 간에 음의 상관관계 존재 |
- 검정 : 더빈-왓슨 통계량(DW) 이용 |
♣ 해석 : DW 값이 2 에 가까우면 오차항간에 독립성이 존재
|
|
주어진 독립변수들간에 일차종속 혹은 일차종속에 가까운 관계가 있을 때 다중공선성 문제가 발생한다.
|
|
1) 이상치
|
- 이상치(outlier) : 대부분의 데이터와는 차별적인 성격을 가지면서 동떨어져 있는 데이터를 말함 - 이상치가 있는 경우 : 파악된 자료가 컴퓨터 입력착오, 자료의 획득과정에서의 착오, 기재오류에 의한 것이면 분석에서 제외하지만 이상치가 어떤 과학적인 정보를 가지고 있는 경우도 허다하며, 이러한 경우에는 모형작성 등을 검토하고, 더 좋은 분석결과를 얻을 수 있도록 노력해야 함 |
|
- 영향력이 큰 데이터 : 어느 한 데이터를 제외시키고 얻은 회귀분석결과가 이 데이터를 포함시키고 얻은 결과와 판이하게 다른 경우에 이를 영향력이 큰 데이터라 함 - 영향력분석 : 데이터가 어떤 회귀분석의 결과에 영향을 미치느냐에 따라 여러 가지 진단통계량이 사용됨. 대표적으로 이용되는 진단통계량은 Cook 의 D 통계량임 - Cook 의 D 통계량 : i번째 데이터가 회귀계수 의 추정에 영향력을 가지는 지를 진단하는 통계량 → 값이 크면 i번째 데이터의 영향력이 큼을 의미 |
(출처/피어슨통계컨설팅)
|