◎ 상관분석
1. 상관분석(Correlation Analysis)이란?
→ 쌍으로 관찰된 두 변수 X, Y 간의 관련성을 분석하는 것
< 분석절차>
① 눈으로 변수관계를 확인하는 산점도의 작성
② 하나의 수치로 변수간의 직선관계를 나타내는 회귀계수를 구한다.
③ 회귀식의 적합을 통하여 두 변수간의 관계를 함수로 찾는 것
④ 회귀식의 유용성을 평가한다.
상관분석은 우리가 현실에서 접하게 되는 자료의 유형에 여러모로 유용하게 쓰이는 분석방법으로 일반적으로는 회귀분석을 실시하기 전에 실시하는 중요한 분석과정이다.
상관분석의 대상이 될 수 있는 예로는 시험의 "중간고사 점수"와 "학기말고사 점수"로 기본적으로 중간고사 성적이 높으면 학기말고사 점수도 높으리라고 생각되지만 어떤 경우는 관계가 없거나 약한 경우도 있는것으로 성적분석의 연구결과로 나타났다.
야구선수의 홈런수에 따른 연봉액수, 라면의 선전비용과 판매량, 우리나라 GNP와 자동차 보유대수, 사탕에 첨가된 꿀의 함량에 따른 사탕맛의 점수 등이 그 대상이 될 수 있다.
이와 같이 관련이 있어 보이는 두 변수의 자료를 가지고 우선 산점도(scatter diagram)를 그려봄으로써 그 관련성을 눈으로 파악할 수 있다.
관련있는 두 변수를 다음과 같이 정의한다.
▶ 독립변수(Independent Variable), 설명변수 : 특성치 또는 반응변수를 설명해주고 영향 을 주는 변수
▶ 종속변수(Dependent Variable), 반응변수 : 독립변수의 영향을 받는 예측의 대상이 되 는 변수
◎ 회귀분석
1. 회귀분석(Regression)의 기본개념
1) 정의
주어진 자료를 통하여 변수(사회현상이나 자연현상)간의 함수관계를 밝히고 이 함수관계를 이용하여 독립변수값에 대응되는 종속변수의 값을 『예측』 또는 『설명』하는 분석 방법이다.
2) 기능과 용도
(1) 기술도구
- 회귀식 추정 및 추정된 회귀식의 정확도 평가
- 특정 독립변수의 종속변수에 대한 독립적 영향력 측정
- 변수들간의 복잡한 인과관계 메카니즘 파악
(2) 추리도구
- 모수추정 및 신뢰구간 추정
- 모집단에 관한 가설검증
3) 회귀분석의 변수 구분
① 독립변수(independent variable)
- 다른 변수에 영향을 주는 변수
- 원인변수, 설명변수, 예측변수라고도 함.
② 종속변수(dependent variable)
- 다른 변수의 영향을 받는 변수
- 반응변수, 결과변수라고도 함.
4) 회귀분석의 사용 사례
- 사람의 라이프 스타일과 수명과의 함수관계를 밝혀 이들 사이의 관계 연구
- 제조환경과 생산성과의 함수관계를 밝혀 이들 사이의 관계 연구
- 신제품 개발시의 시장규모 예측
- 관광지 개발시 수요예측
- 고객만족도에 영향을 미치는 각종 변수들의 영향력 검증 등
5) 회귀분석의 종류
① 단순회귀분석(simple regression)
- 독립변수가 하나일 때, 독립변수와 종속변수간의 선형관계에 관한 분석
② 다중회귀분석(multiple regression)
- 종속변수에 영향을 미치는 변수가 여러개 일 때, 이들 독립변수들과 종속변수간의 선형관계에 관한 분석
2. 단순회귀모형(simple regression model)
기울기 b는 x가 1단위 변할 때 y가 변하는 양을 나타내고 a는 y절편으로 함수식 y=a+bx가 y축을 끊는 값이다.
y = a + bx + εi
3. 최소제곱법(Method of Least Squares)
회귀직선식 y=a+bx를 구하기 위해서는 실제 관찰치 와 회귀식에 의한 추정치 즉 의 차이인 오차의 제곱을 전부 더한 오차제곱합 S를 최소화해주는 방법인 최소제곱법이란 방법으로 기울기 β와 y절편 α를 구하게 된다.
최소제곱추정량(Least Squares Estimates)
● 추정회귀직선 :
< 예1 >
최근 공해, 음식물등의 유해성분, 흡연등으로 대부분의 임산부들은 아기가 태어나서 눈으로 확인할 때까지 혹시나 기형은 아닌가, 미숙아는 아닌가 걱정을 한다. 임신중에 매월 정기검진에서 안전하고 정확한 초음파를 이용하여 태아의 머리와 흉곽을 측정함으로써 태아의 성장을 가장 간단하고 확실하게 확인할 수 있다. 특히 분만예정일을 모르는 경우 태아의 두정골 간격과 태아 체중에 의해 분만예정일을 예측할 수 있는 것이다. 이때 쓰이는 공식이 지금까지 누적된 자료에 의한 모형으로부터의 예측인 것이다. 임신기간에 따른 초음파로 측정된 태아의 두개골 크기측정치 자료인데 눈으로 보아도 임신기간이 늘어날 수록 크기가 커지는 것을 알 수 있다.
① 산점도를 작성하여 두변수 즉 임신기간과 태아의 크기간 양의 높을 상관관계임을 확인할 수 있다.
② 이 자료를 가지고 와 를 계산하여 기울기 추정치 를 구했더니 0.29였다.
..③ 절편 추정치는 -1.45여서 회귀직선식은 y=-1.45+0.29x로 구해진다. 여기서 중요한 기울기 0.29의 의미
는 임신기간이 1주 늘어날 때 태아의 머리가 2.9mm씩 커진다고 해석할 수 있고 임신 마지막 주인 x=40일 때 .. ...의 y값을 구해보면 10.15cm임을 예측할 수 있다.
< 예2 >
어떤 한 기종의 승용차값이 연도가 지남에 따라 그 값이 얼마나 떨어지는 가를 보기 위하여 이 승용차에 대한 중고차 판매가격을 조사했다. 막연히 주인이 깨끗이 쓰던 안쓰던 사용기간이 긴 차일수록 판매가격은 떨어질 것으로 생각할 수 있다.
① 산점도를 작성해보면 사용년도와 가격이 거의 직선에 가깝게 음의 상관관계를 갖는것을 알 수 있다.
② 실제 상관계수를 구해보면 -1에 가까운 -0.989임을 알 수 있다. 그러면 이 자료를 가지고 회귀식을 구해 보자.
ⓐ 으로 부터 기울기 이고
절편 a=4.04이다
즉 앞의 산점도 위에 구한 ⓑ 회귀직선 y=4.04-0.48x를 그을 수 있고, 이 식에 의해 1년을 더 쓰면 48만원씩
값이 떨어진다고 해석할 수 있다. 그리고 3.8년 된 차는 x에 3.8을 대입하여, y=4.04-0.48×3.8=0.76으로
76만원의 차값을 받을 수 있다고 예측할 수 있다.
4. 분산분석표의 작성 및 결과 해석
◆ 회귀분석에서의 분산분석의 의미
추정회귀식의 적합도를 측정하는 방법으로 결정계수와 회귀식에 의한 추정값의 표준오차(SEE)를 사용할 수 있다. 그러나 이 지표들은 구해진 회귀식의 통계적 유의도 수준을 직접 판단하는 기준으로는 사용하기 어렵다는 제약을 지닌다. 가령 이들 지표가 얼마 이상의 값을 나타내면 추정된 회귀식에 통계적 의미를 부여할 수 있다는 식으로 활용하기는 어렵다.
추정된 회귀식에 대한 통계적 의미의 부여는 회귀모형에 포함된 독립변수와 종속변수 사이에 직선의 관계가 성립하지 않는다는 영가설을 부정하는 방식으로 이루어진다. 여기서 영가설은 모집단의 수준에서 결정계수가 0, 즉 이라는 의미이다. 물론 이 영가설은 독립변수가 하나(단순회귀분석)인 경우, 모회귀모형에서 기울기인 β가 0의 값을 지닌다는 뜻도 된다.
이 영가설 는 분산분석(ANOVA)표를 작성하여 F비의 값을 구하는 방법으로 검증할 수 있다. 이것이 바로 회귀분석에서 분산분석표가 가지는 의미이자 역할이다.
2) 분산분석표의 사용방법
● 귀무가설
● 검정통계량
● 기각역 이면 기각하고, 대립가설을 채택함.
→ 대립가설을 채택되는 경우의 의미 : 회귀직선의 기울기 이 0 이 아니므로 회귀직선이 유의하다는 것을 나타냄
◎ 다변령분석
통계분석이란 특정 개체들을 대상으로 여러 가지 특성을 관측한 후에 유용한 정보를 구하는 과정이라고 할 수 있다. 여기에서 관측된 특성들은 변수를 통하여 표현하게 되는데, 일반적으로 각 개체로부터 여러개의 변수들을 동시에 측정하게 된다. 예를들어 학생들의 학업성취도를 측정하고자 하는 경우에 국어, 영어, 수학, 과학, 사회 등과 같은 여러 학과목 성적들을 이용하여 측정한다. 이와 같이 측정대상으로부터 여러 개의 변수들을 측정하여 구하는 자료를 『다변량자료』라고 한다.
1. 다변량과 일변량
다변량분석은 크게 다음과 같이 두가지로 구분하여 생각할 수 있다.
첫째는 일변량분석에 대한 다변량분석인데 이는 원인을 측정하는 설명변수와 결과를 관측하는 반응변수가 있는 모형에서 반응변수의 수에 의한 구분이다. 즉 반응변수가 하나이면 일변량분석이라고 하고 반응변수가 두 개 이상인 경우에는 다변량분석이라고 한다. 이 부류에 해당하는 다변량분석에는 짝지은 t-검정, Hotelling T2-검정, 다변량회귀분석, 다변량분산분석 등이 있는데, 기본적인 분석의 틀은 일변량분석과 동일하다.
두 번째 형태의 다변량분석은 각 개체로부터 여러개의 변수들을 측정하였을 때 여러변수들 사이의 관계를 이용하는 통계분석들로 주성분분석, 인자분석, 판별분석, 군집분석, 정준상관분석, 다차원척도, 대응분석 등이 여기에 해당한다.
2. 다변량통계분석의 목적
다변량분석은 자료의 형태와 분석목적에 따라 다양한 분석방법들이 있는데, 이를 분석목적에 따라 다음과 같이 몇가지 유형으로 분류할 수 있다.
(1) 관측한 변수들의 구조적 특성을 파악하여 소수의 새로운 변수를 생성하는 구조적 단순화.
(2) 관측한 변수들을 이용하여 개체들을 몇 개의 소집단으로 구분하는 관찰개체의 분류.
(3) 서로 관련된 변수들을 유사한 것끼리 집단화하는 변수의 군집화.
(4) 유사한 변수값을 갖는 개체들이 유사한 형상을 갖도록 변수들을 이용한 관찰개체의 형상화.
(5) 일반적인 통계분석에서 시행하는 관련모수의 추정과 가설의 구축 및 검정.
◎ 분산분석
◆분산분석의 개념
T-검정은 두 집단간의 평균차이를 분석하고자 할 때 사용한다고 하였다. 분산분석은 분산분석이란 세 집단 이상의 평균치의 차이를 분석하고자 할 때 사용하는 분석방법이다. 즉 한 개의 독립변수가 3개 이상의 집단을 가지는 경우(연령 : 20대, 30대, 40대 이상)와 2개 이상의 독립변수와 3개 집단이상의 집단을 가지는 경우를 말한다. 분산분석은 종속변수가 1개인 경우 요인(독립변수)의 수에 따라 요인 (독립변수)이1개인 경우를 일원분산분석(One-way ANOVA), 요인(독립변수)이 2개인 경우를 이원분산분석(Two-way ANOVA), 요인(독립변수)이 3개이상일 경우 다원분산분석(Multi-way ANOVA)이라 한다. 한편 종속변수가 2개이상인 경우 다변량 분산분석(MANOVA)이라 한다.
◆분산분석의 가정사항
① 독립성(Independence) : 어떤 표본의 추정치는 다른 표본의 측정치와 서로 독립적이다.
② 정규성(Normality) : 측정치의 분포는 정규분포이다.
③ 분산의 동일성(Homogeneity of Variance) : 집단간 분산은 동일하다
◎ 인자분석
비교적 소수의 인자로 많은 변량(變量) 사이의 관계를 설명하기 위해 고안된 통계적 분석방법.
변량 사이의 상관계수(相關係數)의 모임, 즉 상관행렬(相關行列)을 간단한 인자행렬로 변환하는 일련의 수학적 조작을 가리킨다. 특히, 인자분석법은 컴퓨터의 보급으로 광범위하게 각 방면에 적용되고 있다. 다수의 측정값 {x1, x2,…,xq}를 소수의 미지인자 {f1,f2,…,fq}에 따라서 설명하는 것을 주된 과제로 한다. 여러 가지 선형구조(線形構造)의 모형이 세워지나, 가장 일반적으로 쓰이는 것은 다중인자(多重因子) 분석의 모델이며, 그것은 xi=ci+si(i=1,2,…,p), ci=ai1 f1+ai2 f2+…+aiq fq(q≤p) 로 표현된다. 다만 x,f,c는 모두 평균을 0으로 한다.
s는 서로 독립(무상관)이며, c와 s도 서로 독립이라 한다. f의 분산은 1로서 특히 서로 정규분포(正規分布)하는 것으로 가정하는 경우가 많다. a를 변수 xi의 공통인자, 그 분산 pi2을 코뮤낼리티(communality), si를 특수인자, 그 분산 σi2을 유니크니스(uniqueness), fk를 인자득점, aik를 인자부하량(因子負荷量)이라고 한다. pi2=ai12+ai22+…+ain2 의 관계가 성립한다.
인자분석법의 창시자로 알려져 있는 영국의 C.E.스피어먼은 모든 지능검사에 공통인자와, 각각의 검사에 특유한 특수인자로 분석된다고 하는 2인자설을 제창하였다. 이에 대하여 미국의 L.L.서스턴은 몇 개의 인자에 공통으로 들어 있지만, 모든 검사에서는 공통이 아닌 군인자(群因子)와 특수인자로 분석하는 다중인자 분석법을 발표했다. 서스턴에 따르면 지능의 군인자는 공간적 인자, 지각(知覺)의 속도인자, 수의 인자, 기억의 인자, 언어적 인자, 언어의 유창성 인자, 추리적 인자의 7개이다. 이들을 기본적 지능인자라고 한다.
인자설에는 이 외에 공통인자, 군인자 및 특수인자를 가정하는 설과, 다수의 공통인자를 가정하는 주(主)인자설 등이 있다. 이상 서술한 것은 검사(檢査) 간의 관계를 설명하기 위한 인자분석으로서 R기법이라고 한다. 이에 반해 사람과 사람 사이의 유사성의 인자를 분석하는 방법을 Q기법이라고 한다. 인자분석법은 심리학, 특히 지능검사의 분야에서 발전된 통계적 방법인데, 지각이나 인격(人格)의 문제에도 적용되며, 또 의학이나 사회과학에도 이용된다.