|
* 첨부화일 논문: 상관분석과 회귀분석으로 얻을 수 있는 값에 대한 설명
* 회귀분석 가정
종속변수는 양적 변수이어야 한다. 종속변수는 정규분포 가정을 충족하여야 한다
등간, 비율 척도: 일반 회귀 분석
명목, 서열 척도- 더미회귀, 로지스틱
회귀계수의 유의 성 검정
귀무 독립변수는 종속변수와 관계가 없다
대립가설 독립변수는 종속변수와 관계가 있다
t 검정:A의 평균=B의 평균이 같은지 틀린지 확인함으로 t 검증계수와 유의 수준으로 표기함
단순 회귀 분석
연속형 독립변수가 연속형 종속 변수에 미치는 영향 검증
SPSS 분석법
1. 분석-회귀분석-선형 선택- 선형회귀에서 독립변수, 종속변수 선택
2. 통계량 클릭-Durbin-watson 선택, 계속 클릭-확인 클릭
SPSS 결과표 해석하기
1. 회귀모형 적합도 : AVONA 결과표 확인: 유의수준이 0.05보다 작으면 회귀모형 적합으로 해석
2. 회귀모형 설명력 확인: 모형 요약 결과표 확인
: R 제곱 : 독립변수가 종속변수를 얼마나 설명하는지 판단하는 수치 예: 0.356: 35.6%로 설명
: 수정된 R제곱: 단순회귀분석에서는 의마가 없고 다중회귀에서 의미 있음
: Durbin-watson 항목 수치 확인 : 잔차의 독립성 확인 : 잔차는 관측값에서 예측값을 뺀 수치로 회귀분석에서 오차의 개념
- 독립성이란 회귀분석에서 나타나는 오차가 규칙없이 랜덤하게 나타난다는 의미 : 회귀분석에서는 잔차가 랜덤해야 함
- 값을 확인: 수치가 2에 근접할 수록 독립성이 있다고 봄.
3. 계수의 결과표 확인하기
- 계수 결과표에서 유의수준 확인
- 회귀 계수 확인 : 비표준화 계수와 표준화 계수 : 0보다 크면 양의 영향을 미친다고 판단, 0보다 작으면 음의 영향을 미침
: 비표준화계수와 표준화 계수는 다중회귀분석에서는 중요
: 회귀식 : 종속변수=상수+B(비표준화계수)*독립변수
: t 값: t test의 값으로 유의확률과 같이 함께 확인하는것
논문 결과표 작성하기
1. 한글에 표 만들기
2. 엑셀에 결과 붙여넣기
3. 엑셀에서 계수 표준오차, T값 을 모두 선택:crtl+1: 단축키로 셀 서식창 열기: 셀서식창에서 범주의 숫자 클릭->음수의 -1234를 선택-소수 자릿수를 3으로 수정-확인 선택
4. 결과표의 비표준화 계수와 표준오차 표준화 계수베타, t값 유의수준 모든 결과값을 선택하고 복사
5. 한글표에 복사한 값 붙이기- 셀붙이기 창에서 내용만 덮어쓰기 클릭해서 붙이기
6. 모형요약과 ANOVA결과표에서 F값, P값, R제곱값, Durbin-watson값 복사해서 붙이기
7. 유의확률확인해서 t값에 * 위첨자로 표기하기
논문 결과 작성하기- 3단계의 내용이 들어가도록 작성
1. 분석내용과 분석법 설명하는 문장: 00가 00종속변수에 미치는 영향을 검증하기 위해 단순회귀분석을 실시하였다.
2. 회귀모형의 유의성, 설명력 설명하는 문장: 분산분석의 F값과 유의확률로 회귀모형의 유의성을 설명하고 R제곱으로 설명력을 Durbin-watson값으로 잔차의 독립성 가정 충족 여부를 설명
3. 독립변수의 유의성 검증 결과 설명하는 문장: 종속변수에 대한 돌립변수의 영향이 유의한지를 베타값과 유의확률로 설명한다.
다중회귀 분석: 두개 이상의 연속형 독립변수가 연속형 종속변수에 미치는 영향을 검증
* 현실에서는 여러원인 변수가 종속변수의 결과에 영향을 미치는지 알아보아야 하며, 여러 원인 변수 중 가장 많이 영향을 미치는 것을 살펴볼 필요가 있음. 이러한 경우 다중회귀 분석이 필요함
다중 회귀 SPSS 분석법
1. 분석-회귀분석-선형 선택- 선형회귀에서 독립변수에 여러개를 선택, 종속변수 선택
2. 통계량 클릭-Durbin-watson 선택,
3. 공선성 진단에 체크(단순회귀와 차이), 회귀계수, 케이스별 진단, 추정값, 계속 클릭-확인 클릭
3. 도표 선택-> 표준화 잔차 도표의 히스토그램과 정규확률도표 체크-> x축은 표준화 예측값 ZPRE 선택, y축은 ZRESID를 선택-> 계속 클릭
4. 분석방법 선택
입력법: 회귀 분석시 독립변수를 모두 투입
단계선택:회귀분석에 투입되는 독립변수 중 설명력이 가장 높은 변수들로 회귀모델 구성
제거: 연구자가 선택한 변수들이 강제로 제거
후진:회귀분석에서 모든 독립변수를 포함하여 통계적 기준에 따라 중요도가 가장 낮은 변수부터 하나씩 제거되면서 분석
전지:중요도가 가장 높은 변수부터 하나씩 추가하는 방법
변수가 많으면 고려애햐 할 사항이 많아짐으로 단계선택과 후진 방법을 많이 사용한다. 입력, 단계선택, 후진 방법에서 분석 결과가 조금씩 다르며, 가장 이상적인 것은 단계선택과 후진의 결과가 같을 경우: 입력방법에 따라 결과표를 해석하는 방법은 아래와 같이 모두 동일 됨
SPSS 결과표 해석하기
1. 분산분석표 확인: 회귀식 자체의 유의성 판단: 회귀모형 적합도 : 유의수준이 0.05보다 작으면 회귀모형 적합으로 해석
2. 모형 요약 결과표 확인: 회귀모형 설명력 확인:
: R 제곱 : 독립변수가 종속변수를 얼마나 설명하는지 판단하는 수치 예: 0.356: 35.6%로 설명
: 수정된 R제곱: 단순회귀분석에서는 의마가 없고 다중회귀에서 의미 있음. 위계적 회귀분석을 진행할 때 R제곱과 수정된 R제곱을 모두 표시한다. 단순회귀에서는 R제곱값을 많이 보고 다중회귀분석에서는 수정된 R제곱값을 많이 확인한다.
R제곱: 불필요한 독립변수가 추가되도 감소하지 않음, 단순회귀분석, 다중회귀분석에서 모두 표기 R2, R-square등으로 표기
수정된 R제곱: 불필요한 독립변수가 추가되면 감소함. 다중회귀분석에서만 표기 adj R2. adj R-square료 표기
: Durbin-watson 항목 수치 확인 : 잔차의 독립성 확인 : 잔차는 관측값에서 예측값을 뺀 수치로 회귀분석에서 오차의 개념
- 독립성이란 회귀분석에서 나타나는 오차가 규칙없이 랜덤하게 나타난다는 의미 : 회귀분석에서는 잔차가 랜덤해야 함
- 값을 확인: 수치가 2에 근접할 수록 독립성이 있다고 봄.
3. 계수의 결과표 확인하기
- 다중공선성 확인: 다중회귀분석은 변수가 두개 이상임으로 다중 공선성을 봐야함
- 독립변수간의 유사성을 의미하며 독립변수끼리 유사성이 높으면 서로의 영향력을 감소시킬 수 있다. 너무 비슷한 변수 두개가 투입되면 유의하게 나올 수 있는 변수인데도 유의하지 않게 나올 수 있다.
다중공선성은 분산팽창지수(VIF:Variance Inflation Factor)를 통해 판단하며 10미만이면 문제가 없지만 5를 초과하면 의심을 해볼수 있다.
다중공선성의 문제가 있는 변수는 제외하여야 하며 VIF가 큰것부터 제외하면 된다.
다중공선성 판단의 기준
1. 상관계수: 0.9이상- 학자마다 다소 상이
2. 공차 한계 0.1 미만
3. VIF 10이상이면 다른 변수와 다중 공선성 존재
-> 다중공선성의 문제가 없다면 구조 방정식 통계를 실시하기도 함
4. 공선성 진단
상태지수(조건지수)가 15보다 작아야 다중공선성 문제가 없다
모형 2,3은 다중공선성 문제가 있음으로 모형 1 선택
다중공선성에 문제가 없다면 계수 결과표에서 유의수준 확인
- 회귀 계수 확인 : 비표준화 계수와 표준화 계수 : 0보다 크면 양의 영향을 미친다고 판단, 0보다 작으면 음의 영향을 미침
: 비표준화계수와 표준화 계수는 다중회귀분석에서는 중요
: 회귀식 : 종속변수=상수+B(비표준화계수)*독립변수
비표준화계수는 독립변수가 1만큼 증가할때 종속변수가 얼마만큼 증가 혹은 감소하는지 의미
표준화 계수는 점수의 퍼진 정도를 고려해서 산출한 계수이기 때문에 상대적으로 영향력을 비교: 표준화 계수를 바탕으로 어떤 변수의 영향이 크고 작은지를 파악한다.
*** 표준화 계수:베타값 상대적인 영향력
standardized Regression Coefficient
(는 여러 독립변수의 상대적인 영향을 비교하는 것으로 유의확률이 0.05미만으로 나타날 경우 독립변수 중에 어떤 변수가 종속변수에 가장 큰 영향력을 미치는지 확인하는 방법이다. 주의할점은 통계적으로 유의하지 않은 경우에 독립변수 A가 B보다 종속변수에 큰 영향을 미쳤다고 해석하는 오류를 범할 수 있다. 따라서 우선 통계적으로 유의한지 확인이 먼저되어야 한다. 단위가 통일됨으로 비교가 가능
예측에 대한것이 아니라 영향력에 대한 비교를 위한 것임
비표준화 계수: 절대적인 영향력 단위가 통일되지 않음,
Unstandardized Regression Coefficient
: 단위가 통일되지 않음 절대적인 영향력의 크기, 변수끼리 영향력 크기를 비교할 수 없음. 회귀식에서 사용되는 계수로 독립변수 1점 증가시 종속변수가 00증가한다.
표준화 계수 단위가 통일됨. 상대적인 영향력의 크기, 변수끼리 영향력 크기를 비교할 수 있음
회귀식 제시: 종속변수=상수+B1*독립변수1 + B2*독렵변수 2+ .....
학생의 미래 진로 결정= 23.45* 흥미도+ 0.02* 월급
: 미래 진로 결정을 예측하기 위해서는 흥미도와 월급의 회귀식으로 설명할 수 있음
표 샘플
표제목 적기
Outcome variable | Predictable variable | B | SE | β | t | p | VIF |
종속변수이름적기 | 상수 | ||||||
독립변수 이름 1 | |||||||
독립변수 이름 2 | |||||||
F= 000 , P<0.001, R2 = .537, adjR2=.528, D-W=1.419 |
*P<0.05
논문 결과 작성하기- 3단계의 내용이 들어가도록 작성
1. 분석내용과 분석법 설명하는 문장: 00가 00종속변수에 미치는 영향을 검증하기 위해 다중회귀분석을 실시하였다.
2. 회귀모형의 유의성, 설명력 설명하는 문장: 분산분석의 F값과 유의확률로 회귀모형의 유의성을 설명하고 R제곱으로 설명력을(R2값에서 100을 곱한값), Durbin-watson값으로 잔차의 독립성 가정 충족 여부를 설명. vif값으로 다중 공선성 문제 여부를 설명한다
3. 독립변수의 유의성 검증 결과 설명하는 문장: 종속변수에 대한 독립변수의 영향이 유의한지를 유의확률로 설명하고, 베타값으로 영향력 순위를 나열 한다. :예 회귀계수의 유의성 검증 결과 , 자동차 개수(종속변수 1)(베타= 0.129, P=000). 자전거개수 종속변수 2(베타= 0.110, P=000)은 모두 만족도에 (독립변수)에 유의한 양의 영향을 미치는 것으로 나타났다.- 비표준화계수- 즉, 자동차와 자전거가 많을 수록 전반적 만족도는 높아진다. 표준화 계수를 비교하면, 자동자의 갯수, 자전거의 개수 순으로 만족도에 큰 영향을 미치는것으로 검증되었다.-표준화 계수
더미 변수- 0과 1로 코딩- 참조변수 reference variable-기준대비로 해석
회귀분석을 통해 범주형 자료의 영향력도 파악이 가능함
실제 범주형 자료의 영향력을 파악하기보다는 범주형 자료의 영향력을 통제하여 독립변수의 순수한 영향을 파악하기 위해 사용함
가설: 전공 1= 물리치료, 2= 치위생, 3= 그외 전공
물리치료와 치위생변수를 새로 생성해줘야 하는데 이직업을 더미 변환이라고 함
물리치료 변수: 물리치료전공일 경우 1, 아닌경우 0
치위생 변수: 물리치료전공일 경우 1, 아닌경우 0
기타전공 변수: 물리치료전공일 경우 1, 아닌경우 0
대학원 진학 1, 미진학 0으로 토딩한 경우
예: 대학원 진학을 한 경우가 진로 결정이 더 높더라
통제 변수: 성별, 학력등을 넣어서, 통제 변수가 동일한 경우에 해석을 할수 있음
독립변수에 통제 변수들을 모두 넣어서 회귀분석을 실시해봄
' 입시전형이 4개 범주가 진로 결정 종속변수에 미치는 영향을 확인하고자 할 경우
다른 변수로 코딩- 정시, 편입학, 기타, 등을 모두 1.0으로 코딩, 수시입학은 참조변수라서 1.0으로 코딩하지 않음
: 입시 전형-출력변수
-입시전형-정시 2로 코딩된것을-1로 변환, 나머지 전형코딩(els)은 0으로 변환- 확인
- 입시전형 편입학 3으로 코딩된것을 1로 변환, 나머지는 0으로 변환-확인
변환
더미변수 작성- 변수-입시전형을 더비 변수 작성으로 변수를 옮김, 주효과 더비 변수 선택-확인
위의 과정을 자동적으로 더미 변수를 만들어 줌
참조변수를 제외한 나머지 변수를 독립변수로 넣고 종속변수를 넣는다.
결과는 참조변수를 기준으로 해서 해석을 해야 함
이분형로지스틱회귀분석 - 종속이 0.1인경우
다항로지스틱회귀분석-종속이 여러개인 경우
방정식의 변수확인-회귀식의 계수와 비슷함
강점인식이 1단위 증가하면 진로결정이 평균 이상일 확률이 1.138배 증가한다. exp(b)를 확인: 00배를 의미
|