|
교육심리학 제 19~20 강 보충학습자료
(교재 제 11 장. 265~282쪽)
(교재 제 12 장. 283~305쪽)
제 19 강 평가의 원리
※ ‘평가’(evaluation)란 원래 ‘가치를 따져 값을 매긴다’라는 뜻으로, 어떤 사람이 나 사물 혹은 방법이나 절차 등의 옳고 그름, 선함과 악함, 아름다움과 추함, 우수함과 열등함, 좋고 나쁨, 그리고 그 수준이나 정도를 따지는 일이다. 그 런데, 일반적으로 ‘평가’ 하면 교육의 성과 중 하나인 학업성취도에 대한 평 가인 ‘시험’을 떠올리게 된다. 그러나, 시험은 교육평가의 일부 영역일 뿐이 다. 교육평가는 교육의 성과에 대한 평가뿐만 아니라, 교육이 이루어지는 과 정과 관련된 다양한 요소들에 대한 평가까지 포함한 개념이다. 예컨대, 교육 목표는 타당하게 잘 설정되었는지, 교육내용이 교육목표의 달성에 부합하도 록 선정․조직되었는지, 수업 방법과 절차는 적절했는지 등을 평가하는 일은 최종적인 교육성과를 평가하는 일 못지 않게 중요한 과제이다. 또한 교육평 가는 학생에 대한 평가뿐만 아니라, 교사에 대한 평가, 교육과정 및 교육내용 에 대한 평가, 교육기관 및 정책에 대한 평가 등을 모두 포함하고 있다. 여기 에서는 교육평가의 역할과 기능, 교육평가의 종류, 그리고 평가도구의 양호도 를 판별하는 기준에 대해 간략히 살펴보고자 한다.
1. 평가의 기능과 종류
1) 평가의 역할과 기능
- 교육평가는 어떤 교육목적을 달성하기 위한 교육의 한 수단적 활동이다. 즉, 보다 나은 교육을 위해서 평가하는 것이지, 평가하기 위해서 교육하는 것이 아 니라는 말이다. 하지만, 평가가 지나치게 중요시되고, 그 결과가 기계적으로 해 석되어 절대적인 것으로 여겨지는 상황에서 평가는 수단이기보다는 목적이 되 어버려 평가가 교육을 지배할 위험성이 크다. 그런데, 교육장면에서 이루어지는 평가의 역할과 기능은 상황과 여건에 따라 매우 다양하다.
- 일선 교육현장에서 교육평가는 크게 선발적 기능과 처방적 기능을 지니고 있 는 것으로 이해되고 있다. 교육평가의 선발적 기능이란 학생의 소질과 특성을 파악하여 선발․분류․배치하기 위한 목적으로 평가하는 것을 말한다. 이 선발 적 기능은 특히 교육의 기회가 제한되어 있을수록 그 위력을 발휘한다. 오늘날 의 대학입학시험은 평가의 선발적 기능을 잘 보여주는 대표적인 예라고 할 수 있다. 한편, 교육평가의 처방적 기능이란 학생의 소질과 특성을 파악하여 그들 의 학업과 일상생활의 개선을 지도하고 조언하기 위한 목적으로 평가하는 것을 말한다. 이러한 의미에서 보면 교육평가의 결과는 학생들의 학업활동을 개선하 는 교정적 정보를 제공할 뿐만 아니라, 교사의 교수활동에 대한 반성적 정보도 동시에 제공하는 것으로, 교육활동의 개선에 필요한 각종 정보를 획득할 수 있 게 해준다.
- 교육평가의 기능은 이러한 분류 이외에 본질적인 기능과 파생적 기능으로 분 류할 수도 있다. 본질적 기능이란 평가가 본래 담당하고 있는 기능을 말하는 것으로서, 여기에는 진단적 기능, 형성적 기능, 총괄적 기능이 있으며, 파생적 기능이란 본질적 기능을 수행하는 과정에서 파생된 기능을 말하는 것으로서 전 략적 기능이 여기에 해당된다. 각각의 기능에 대해 간략히 살펴보면 다음과 같 다.
① 평가의 진단적 기능
- 이것은 평가 대상(예: 사람, 자료, 프로그램, 기관, 현상 등)의 현재 상태 혹은 실태를 파악하는 것을 말한다. 본래 진단(診斷)이란 의사가 본격적인 치료활동 을 하기 전에 병의 상태를 사전에 파악하는 활동을 의미하는데, 학교교육 현장 에서 교사는 교육의 효과를 높이기 위하여 학생에게 본격적인 교육활동을 수행 하기 전에 학생의 상태(예: 선행지식이나 기능, 학습결손, 학습장애 등)를 진단 하고 점검하는 것이 필요하다. 이러한 기능을 수행하는 평가를 특히 진단평가 라고 한다.
② 평가의 형성적 기능
- 이것은 어떤 활동이 진행되고 있는 과정에서 중간점검을 하는 것을 말한다. 형 성(形成)이란 완성해 가는 과정을 의미하는데, 학교교육 현장에서 교사는 교육 의 효과를 높이기 위하여 어떤 교육활동이 진행되고 있는 중간에 그 성과와 진 행과정을 점검하여 그 활동을 개선하고 수정․보완하거나 대안을 탐색할 필요 가 있다. 이러한 기능을 수행하는 평가를 특히 형성평가라고 한다.
③ 평가의 총괄적 기능
- 이것은 어떤 활동이 종료되고 난 이후에 그 활동의 성과에 대한 최종적인 결 론을 도출하는 것을 말한다. 총괄(總括)이란 개별적인 여러 가지를 한데 묶는 것을 의미하는데, 학교교육 현장에서 교사는 교육의 효과를 높이기 위하여 특 정 교육활동이나 프로그램이 종료되고 난 이후에 교육활동이나 프로그램의 성 과나 효율성을 개인별, 집단별로 판정할 필요가 있다. 이러한 기능을 수행하는 평가를 특히 총괄평가라고 한다.
④ 평가의 전략적 기능
- 이것은 평가를 특정한 목적을 달성하기 위한 하나의 수단으로 활용하는 것을 말한다. 전략(戰略)이란 어떤 일을 성취하기 위한 효과적이고도 적합한 방법을 의미하는데, 이 전략적 기능은 앞서 살펴본 평가의 본질적인 세 기능(진단적, 형성적, 총괄적 기능)과는 차원이 다른 기능이라고 할 수 있다. 예컨대, 교사가 수업시간에 학생들의 동기를 유발하기 위해 본 수업을 시작하기 5분전이나 끝 나기 5분전에 쪽지시험을 치른다든지, 대학에서 신입생을 선발할 때 우수한 사 고능력과 표현능력을 지닌 학생을 선발하기 위해 논술고사를 실시하는 것 등은 그 좋은 예이다.
※ 이와 같이 교육평가가 지니는 기능이 다양하다는 것은 그 모든 기능이 교육 현장에서 중요하게 취급될 필요가 있음을 보여주는 것이다. 결국 교육평가의 결과가 교육활동에 도움이 되기 위해서는 교육평가의 특정한 기능만이 부각 되어서는 안 되고, 교육자는 교육평가의 다양한 기능이 모두 제 역할을 할 수 있도록 노력을 아끼지 않아야 할 것이다.
2) 평가의 종류
※ 평가는 관점에 따라 다양한 유형으로 구분될 수 있다. 앞서 살펴보았듯이 교 육평가는 평가의 본질적인 기능에 따라 진단평가, 형성평가, 총괄평가로 구분 되기도 하며, 평가의 목적이 개인의 위치를 타인과의 비교에 의해 상대적으 로 서열화하는 데 있는지, 아니면 주어진 교육목표의 절대적 달성 정도를 파 악하는 데 있는지에 따라 상대평가와 절대평가로 구분되기도 한다. 또한 평 가를 실시하는 수준에 따라 국가수준의 평가, 자치단체수준의 평가, 학교수준 의 평가, 학급수준의 평가로 구분될 수도 있고, 평가하는 도구의 속성과 관련 하여 검사 또는 측정문항의 채점과정에서 채점자의 주관이 개입되느냐, 배제 되느냐에 따라 주관식 평가와 객관식 평가로 구분될 수도 있다. 그 밖에 다 양한 기준에 의해 평가의 종류를 구분하는 것이 가능하지만, 여기에서는 교 육장면에서 논쟁거리가 되고 있는 상대평가와 절대평가, 그리고 주관식 평가 와 객관식 평가에 대해서만 간략히 살펴볼 것이다.
① 상대평가와 절대평가
- 상대평가는 학력이나 지능, 성격 등에 있어 개인의 위치를 타인과의 비교에 의 해 상대적으로 판단하는 평가를 말하는 것으로서, 흔히 규준지향평가 (norm-referenced evaluation)라고도 한다. 여기에서 규준(規準)이란 일반적으로 학 교, 좀 더 범위를 크게 하자면 한 지역, 나아가 전국의 또래들이 나타내 보인 검사점수의 평균과 표준편차에 비추어 개인을 상대적으로 비교하는 일종의 잣 대다. 따라서 상대평가에서의 평가의 기준은 타인이 된다.
- 상대평가는 모든 자연현상과 인간의 심리적 특성은 별로 변하지 않고 안정되 어 있으며 또한 정상분포를 이룬다는 심리측정이론의 기본가정을 바탕으로 하 고 있는데, 학생들의 위치와 능력 또는 학습결과의 개인차와 우열을 상대적으 로 변별해내는 데 보다 적합하기 때문에 주로 분류․선발․정치(定置)를 목적으 로 시행된다. 예컨대, A중학교 1학년 1반 학생의 수학성적을 상대평가하는 경 우, 최상위 10%는 ‘수’, 상위 20%는 ‘우’, 중위 40%는 ‘미’, 하위 20%는 ‘양’, 최하위 10%는 ‘가’라고 평가하는 것이다.
- 상대평가는 학생들간의 경쟁을 통한 동기유발을 자극하는 효과가 있긴 하지만, 경쟁과 분류를 지나치게 강조함으로 인해서 학생들의 정서적 문제를 야기할 수 있다. 그뿐 아니라 개인의 위치는 그가 속한 집단의 평균치와 표준편차에 의해 결정되고 해석되기 때문에, 개인의 교육적 성과를 그가 속하지 않은 다른 집단 과 비교하는 것이 어려울 수도 있다. 또한 어떤 학생의 수학 성적이 ‘수’라고 할 때, 그것은 그 학생이 속한 학급에서 최상위 10%이내에 든다는 것만을 알려 줄 뿐이지 수학교과에서 무엇을 얼마나 잘 할 수 있는지에 대해서는 알려주는 바가 없는데, 이것이 상대평가의 가장 큰 단점이라고 할 수 있다.
- 반면, 절대평가는 개인이 속해 있는 집단의 검사결과와는 상관없이 주어진 교 육목표를 어느 정도 달성했는지를 평가하는 것으로서, 흔히 준거지향평가 (criterion-referenced evaluation)라고도 한다. 따라서 절대평가에서의 평가의 기준 은 교육목표(또는 수업목표)가 된다.
- 절대평가는 흔히 물리측정이론에서 다루는 절대측정의 개념을 바탕으로 하고 있는데, 어떤 개인의 점수를 한 특정한 능력의 연속선상에 있는 것으로 본다. 따라서 절대평가에서 성적이 ‘0’점이라고 하는 것은 사전에 설정된 교육목표를 하나도 성취하지 못한 상태를 말한다. 이 방법은 교육목표(또는 수업목표)를 달 성한 정도를 판별하는 데 보다 적합하다. 예컨대, A중학교 1학년 1반 학생의 수학성적을 절대평가하는 경우, 수업목표의 90%이상을 달성하면 ‘수’, 수업목표 의 80%이상 90%미만을 달성하면 ‘우’, 수업목표의 70%이상 80%미만을 달성하 면 ‘미’, 수업목표의 60%이상 70%미만을 달성하면 ‘양’, 수업목표의 60%미만을 달성하면 ‘가’라고 평가하는 것이다. 이 경우 모든 학생들이 ‘수’나 ‘우’를 받을 수도 있고, 반대로 모든 학생들이 ‘양’이나 ‘가’를 받을 수도 있다.
- 절대평가는 교육목표의 달성 정도를 파악하는 데에는 적합하지만, 특히 다수의 지원자 중 소수의 합격자를 선발하는 대학입시의 경우와 같이 개인차를 변별해 내야 하는 경우에는 적합치 않다. 그뿐 아니라 교육목표의 성취도 기준을 누가 어떻게 설정하느냐에 따라 준거가 달라질 수 있는데, 성취도 기준을 설정하기 위한 논리적․경험적 근거가 빈약하다는 것이 가장 큰 단점으로 지적되고 있 다.
※ 이상에서 살펴본 바와 같이 상대평가와 절대평가는 그 기본 입장과 목적에 비추어볼 때 서로 보완적인 관계에 있다고 할 수 있다. 따라서 어느 평가가 다른 평가보다 우월하다고 할 수 없으며, 교사는 어떤 목적으로 평가할 것인 지에 따라 각각의 평가방법을 적절히 활용할 필요가 있다.
② 주관식 평가와 객관식 평가
- 교육평가는 평가하는 도구의 속성과 관련하여 검사 또는 측정문항의 채점과정 에서 채점자의 주관이 개입되느냐, 배제되느냐에 따라 주관식 평가와 객관식 평가로 구분할 수 있다. 주관식 평가는 흔히 논문형 평가, 기술형(記述型) 평가 라고 불리는데, 채점자의 주관에 따라 채점결과나 점수가 다르게 나올 가능성 이 높은 평가를 말한다. 이에 반하여 객관식 평가는 흔히 선다형(選多型) 평가 로 불리는데, 채점의 규칙이 명료하여 그 규칙에 따라 채점을 하면 모든 채점 자의 채점결과나 점수가 동일하게 되는 평가를 말한다. 객관식 평가를 선다형 평가로 부르는 것은 가장 대표적인 것이 사지선다형 혹은 오지선다형의 평가방 식이기 때문이다. 하지만 객관식 평가에 선다형만 있는 것은 아니다. 주어진 문 제가 맞으면 O, 틀리면 X를 하는 진위형(眞僞型), 서로 맞는 것 혹은 관련 있는 것끼리 줄을 긋는 결합형, 주어진 문제에 대한 정답을 숫자나 문자의 형태로 간단하게 제시하는 단답형이나 완성형도 객관식 평가에 속한다.
- 주관식 평가와 객관식 평가를 구분하는 또 하나의 방법은 평가문항이 수험자 (학생)에게 요구하는 반응의 성격이 무엇인가에 따르는 것이다. 주관식 평가는 그 문항이 아무리 단순하다 하더라도 수험자로 하여금 문항의 정답을 회상 또 는 구성하여 산출하도록 하며, 객관식 평가는 수험자로 하여금 제시된 답지들 중에서 정답을 인지하여 선택하도록 한다. 이런 기준에서 보면 단답형이나 완 성형 문항은 주관식 평가에 속하는 것으로 볼 수 있다.
- 이밖에 주관식 평가와 객관식 평가는 여러 가지 측면에서 종종 비교된다. 예를 들면, 주관식 평가는 출제에 소요되는 시간은 적지만 채점에 소요되는 시간은 오래 걸리고, 객관식 평가는 출제에 소요되는 시간은 오래 걸리지만 채점에 소 요되는 시간은 적다. 또한 객관식 평가는 주관식 평가에 비해 채점의 신뢰도뿐 아니라 검사도구의 신뢰도가 높아서 채점결과에 대한 사후 논쟁의 여지가 비교 적 적고, 검사결과가 훨씬 더 동일하게 나온다. 반면 주관식 평가는 비교적 고 등정신능력인 적용력, 분석력, 종합력, 평가력을 측정하는 데 적합하나, 객관식 평가는 정답을 구성하여 산출하는 능력보다는 이미 주어진 정답을 정답이 아닌 것과 식별해내는 보다 하위의 능력을 측정하고 있으며, 사실 위주의 단편적인 내용에 대해서만 평가할 가능성이 높다.
※ 이렇듯 주관식 평가와 개관식 평가는 여러 가지 측면에서 서로 비교되어 왔 지만, 주관식 평가와 객관식 평가의 우열에 관한 논쟁은 지금도 계속되고 있 다. 그 동안 진행되어온 논쟁의 핵심은 교육의 목표가 고등정신능력을 함양 하는 것임을 고려할 때 객관식 평가보다는 주관식 평가가 더 바람직하다는 주장과 반드시 그렇지 않다는 주장의 대립이었다. 그런데 여러 연구결과에 의하면 객관식 평가의 결과와 주관식 평가의 결과간에는 높은 정적 상관관계 가 있다. 이러한 연구결과는 객관식 평가의 무용론(無用論)과 같은 극단적인 결론은 타당하지 않다는 것을 보여주는 것이다. 사실 주관식 평가와 객관식 평가의 우열을 가리는 것보다 더 중요한 문제는 문항 출제자의 주관이 덜 개 입된 객관적인 문항을 출제하는 일이다. 시험 범위에서 어떤 개념, 어떤 내 용, 어떤 항목을 중요하게 고려하여 출제할 것인지에 대한 객관적인 기준이 없다면 채점이 아무리 객관적이라고 하더라도 그 평가결과는 출제자의 주관 에 따른 주관적인 평가일 수밖에 없다. 앞서 절대평가의 가장 큰 단점으로 성취도 기준을 설정하기 위한 논리적․경험적 근거가 빈약하다는 것을 지적 한 바 있는데, 성취기준의 객관성을 높이는 일은 어떤 종류의 평가를 수행하 든 간에 해결해야 할 매우 중요한 과제라고 할 수 있다.
2. 평가도구의 양호도
※ 교육이 이루어지는 과정을 살펴보면 여러 단계에서 다양한 형태의 평가도구 가 이용되고 있음을 알 수 있다. 이와 같은 평가도구를 제작하거나 이미 제 작된 것을 빌려서 사용해야 할 때 으레 뒤따르는 질문은 “내가 사용하려는 이 검사가 과연 괜찮은 검사도구인가?”라는 것이다. 이러한 회의는“이 검사 는 좋은 평가도구인가?”라는 질문을 하고 있는 셈이 된다. 한 개의 평가도구 가 좋은 평가도구, 좋은 검사, 좋은 잣대가 되기 위한 조건으로는 그 평가도 구가 타당도가 있는지, 그 검사가 신뢰도가 있는지, 그 관찰이 객관도가 있 는지 하는 것이다. 이외에도 평가도구의 실용도라는 것도 있는데 이것은 검 사를 활용할 때의 경제성, 간편성, 편이성과 관련된 것으로서, 측정학적인 입 장에서는 위의 세 가지 조건 즉, 타당도, 신뢰도, 객관도를 중요한 조건으로 간주한다.
1) 타당도
- 타당도란 한 검사 혹은 평가도구가 ‘측정하려고 의도하는 것’을 어느 정도로 충실하게 측정하고 있느냐의 정도로 정의할 수 있다. 즉, 타당도란 ‘이 검사는 무엇을 재고 있느냐?’, ‘이 검사는 재려고 하는 능력과 특성을 어느 정도 충실 하게 재고 있느냐?’ 하는 개념이다. 측정에 약간의 오차가 있더라도 국어검사 는 ‘국어의 능력’으로 정의된 특성을 측정하고, 학습흥미검사는 ‘학습에 관한 흥미’를 측정하고 있어야지 엉뚱하게 ‘사회생활의 능력’이나 ‘학문적 자아개 념’을 측정하고 있어서는 타당도가 있다고 할 수 없다. 그래서 타당도를 다른 용어로는 검사의 진실성 혹은 정직성이라고 말하기도 한다.
① 내용타당도
- 목표로 삼고 있는 바로 그 내용을 얼마나 제대로 평가하고 있는가를 가리키 는 것으로, 그 분야의 전문가들에게 물어볼 수 있다는 점에서 안면타당도 (face validity)라고도 불린다.
- 목표지향 타당도, 준거지향 타당도, 교과타당도 등으로도 불린다.
② 예언타당도
- 예언타당도(predictive validity)란 현재의 측정을 근거로 미래의 어떤 것을 예 언하는 정도를 말한다.
- 예컨대, 대학입학능력검사(소위 수능검사)가 대학에서의 학업성취를 정확하 게 예언할수록 예언타당도는 높게 된다.
③ 공인타당도
- 예언타당도가 현재 측정된 점수가 미래 측정될 예정인 점수를 얼마나 사전 에 정확하게 예측할 수 있느냐에 관심을 갖고 있다면, 공인(共因)타당도 (concurrent validity)는 현재 측정하고 있는 점수가 다른 평가에서 현재 얻은 점수와 얼마나 상관관계가 있느냐 하는 정도를 가리킨다.
- 예컨대, 지능검사가 성격, 흥미, 학업적성과 어떤 관계가 있는지를 알아보았 을 때 지능검사가 학업적성과 높은 상관관계를 보인다면 지능검사는 학업적 성검사와 높은 공인타당도를 보이고 있다고 할 수 있다.
④ 구인타당도
- 일반적으로 인간의 심리적 특성을 측정하는 검사들은 그 재고자 하는 개념 들을 가설적으로 설정하고 있다. 이때 이러한 가상적 개념은 어느 정도 추상 적이고 모호하여 명료하지 않은 경우가 대부분이다. 구인타당도(construct validity)는 어떤 평가에서 아직 조작적으로 정의하지 않은 어떤 특성이나 성 질을 측정했을 때 그 평가가 과연 과학적 이론에 비추어 보아 어느 정도나 의미있게 측정하고 있는가를 가리키는 개념이다.
- 구인타당도를 산출하기 위한 통계적 방법으로 자주 활용되고 있는 것이 요 인분석(factor analysis) 방법이다.
2) 신뢰도
- 타당도가 ‘무엇을 측정하고 있느냐?’, ‘측정하려고 하는 속성을 어느 정도 충 실히 측정하고 있느냐?’의 문제임에 반해 신뢰도는 ‘얼마나 정확하게’, ‘얼마 나 오차 없이’ 측정하고 있느냐는 개념이다. 즉, ‘측정하고 있는 정도에 일관 성이 있느냐?’, ‘측정의 오차가 얼마나 적으냐?’ 하는 질문과 관련되어 있다. 흔히 신뢰도를 같은 대상에 대해 두 번 측정해서 얻은 두 측정치 사이에 어 느 정도 일관성이 있느냐는 뜻으로 해석하기도 하는데, 이것을 검사-재검사 신뢰도라고 한다. 그러나 신뢰도를 산출하는 방법은 이밖에도 많다.
- 어떤 측정이든 이론적으로 보면 절대적 엄밀성은 있을 수 없다. 더우기 인간 의 행동특성을 그 측정대상으로 하는 경우 거기에는 반드시 어느 정도의 오차 가 존재하기 마련이다. 그러나 고장난 저울로 물건을 달아볼 수 없듯이 신뢰롭 지 않은 평가도구를 가지고 인간행동을 잴 수는 없는 일이다. 인간행동이 대상 인 경우 어차피 어느 한계 내에서의 오차는 허용할 수밖에 없지만 인간행동의 측정도 측정인 이상 이 같은 오차가 극소화되도록 할 필요성은 절실하다.
- 타당도는 평가도구의 필요 불가결한 조건이다. 그러나 신뢰도가 낮으면 타당 도는 이에 비례해서 낮아지기 때문에 신뢰도는 타당도의 선행조건이 된다. 역 으로 표현해서 신뢰도 없이 타당도가 높은 평가도구는 존재할 수 없다.
① 검사-재검사 신뢰도
- 검사-재검사 신뢰도(test-retest reliability)란 일정 기간의 시간 간격을 두고 동 일한 검사를 두 번 실시하여 상관계수를 낸 것을 말한다. 이것을 달리 말하 면 안정성 계수라고도 한다.
② 반분 신뢰도
- 반분 신뢰도(split-half reliability)란 검사-재검사 신뢰도를 산출할 때 발생할 수 있는 검사에 대한 친숙도에 의한 영향을 줄이기 위하여 한 검사를 반으로 쪼개어 별개의 두 검사로 보고 상관계수를 구하는 것을 말한다.
③ 동형검사 신뢰도
- 동형검사 신뢰도(equivalent form reliability)란 A, B의 동형검사를 제작하여 각 검사점수의 상관계수를 구한 것을 말한다. 이 상관계수를 가리켜 동형성 계 수라고 한다.
- 동형검사가 되려면 문항의 내용, 길이, 난이도 등이 같아야 하는데, 동형검사 를 제작하는 것이 그리 쉬운 일은 아니다.
④ 문항 내적 합치도
- 앞서 언급한 신뢰도들이 두 개의 독립된 별개의 검사간 득점의 일관성을 기 준으로 하고 있다면, 문항 내적 합치도(inter-item consistency)는 한 검사 내에 있는 문항 하나하나를 각각 독립된 별개의 검사로 간주하여 문항 내 득점의 일관성을 상관계수로 표시한 것을 가리킨다.
- 각 문항이 동질적일수록 문항 내적 합치도는 높게 나타나는데, 그래서 이것 을 동질성 계수라고 한다. 크론바크(Cronbach)의 α계수가 여기에 해당한다.
3) 객관도
- 신뢰도가 측정도구의 변덕에 의하여 결정되는 것이라면 객관도는 채점자의 변덕에 의해 결정되는 신뢰도라고 할 수 있다. 한가지 반응결과에 대해 여러 사람의 채점 및 평가가 일치하는 정도를 ‘평가자간 객관도’라고 한다면, 한 평 가자가 시간적 간격이나 상황의 차이에 따라 같은 대상에 대해 다른 평가결과 를 나타내는 것은 ‘평가자내 객관도’ 라고 규정할 수 있다. 요약하면, 객관도 는 채점자의 채점이 어느 정도 신뢰롭고 일관성이 있느냐 하는 개념이다.
제 20 강 평가의 도구
※ 교육을 함에 있어 가장 우선적으로 행해져야 할 것은 학생들에 대한 이해다. 학생들이 가지고 있는 제 특성들을 정확하게 이해하고 있을 때 이를 바탕으 로 각종 생활지도가 가능하게 된다. 학생들을 이해하는 데에는 다양한 방법 이 동원될 수 있지만 학생들의 행동특성을 측정하기 위해 사용되는 각종 표 준화 심리검사는 이 분야 전문가들의 오랜 연구와 검토를 거쳐서 제작된 것 으로서 학생들의 능력이나 성격, 흥미 등을 객관적으로 평가할 수 있게 해주 기 때문에 이것을 올바르게 활용한다면 교육적으로 유용한 도구가 될 수 있 다. 물론 표준화되지 않은 검사도구를 활용할 수도 있지만, 그럴 경우에는 그 신뢰도와 타당도를 보장할 수 없다는 단점이 있다.
cf 표준화 심리검사
- 표준화 심리검사란 표준화된 조건하에서 피검사자들의 심리적 특성들을 측정 하기 위한 관찰수단이나 도구를 말한다. 이때 표준화라는 말은 어떤 절대적인 기준(基準, criterion)을 설정하는 것이 아니라 검사실시 상황이나 조건 및 검사 의 내용과 자극을 모든 피검사자들에게 동일하게 함으로써 검사결과의 상대적 비교를 보다 타당하게 하도록 하는 규준(規準, norm)을 설정하는 것을 의미한 다.
※ 학교에서 사용되는 심리검사들은 학력, 지능, 적성 등을 측정하는 인지적 영 역의 검사와 흥미, 성격 및 태도, 가치관 등을 측정하는 정의적 영역의 검사 로 대별할 수 있다. 여기에서는 대표적인 인지적, 정의적 영역의 측정도구에 대하여 간략히 살펴보고자 한다.
1. 지적 영역의 평가
1) 학력 검사
- 교사가 출제하는 학급별 고사나 학업성취에 대한 진단용 검사들은 대개 표준 화되어 있지 않은 것이 보통이다.
- 표준화 학력검사나 전국학력평가(예: 전국의 동일 학년을 대상으로 하는 모의 고사나 수학능력고사 등)는 표준화되어 있는 것이 보통이다.
2) 지능검사
- 지능은 인간의 일반적인 지적 능력을 말하는 것으로서, 그것이 의미하는 바는 무엇이며 구체적으로 어떤 능력들로 구성되어 있는지는 학자에 따라 다양한 주장이 있어왔다. 전통적인 지능이론들은 대개 지능을 일반적인 학습능력이나 문제해결능력으로 파악하고 있는데, 지금까지 개발․사용되어온 지능검사들은 크게 개인용 지능검사와 집단용 지능검사로 분류할 수 있다. 개인용 지능검사 는 검사자가 한 명의 피검사자를 대상으로 하여 지능을 측정하는 것이고, 집단 용 지능검사는 검사자가 여러 명의 피검사자를 대상으로 하여 지능을 측정하 는 것이다.
- 개인용 지능검사는 1905년 프랑스의 비네(Binet)와 시몽(Simon)이 학업부진아 를 판별하기 위해 개발한 것이 효시(嚆矢)이다. 이 검사는 1916년 미국 스탠포 드(Stanford)대학의 터만(Terman)에 의해 개정되었으며(스탠포드-비네 지능검사), 국내에서는 1960년 번안되어 고대-비네 지능검사라는 이름으로 출판되었다. 오 늘날 세계적으로 가장 널리 사용되고 있는 개인용 지능검사는 웩슬러 (Wechsler) 지능검사인데, 성인용(WAIS: Wechsler Adult Intelligence Scale)과 아 동용((WISC: Wechsler Intelligence Scale for Children)이 있다. 비네 지능검사가 정신연령을 생활연령으로 나눈 값에 100을 곱하여 지능지수를 산출하는 방식 (비율 I.Q.)을 채택하고 있는 언어성 검사인 반면, 웩슬러 지능검사는 동일 연 령 집단내에서의 상대적인 위치를 알 수 있게 해주는 편차 I.Q.를 적용하고 있 으며, 언어성 검사뿐만 아니라 비언어성(동작) 검사를 포함하고 있다는 특징이 있다.
- 한편 집단용 지능검사는 1차 세계대전 당시 미국에서 군인을 징병할 때 적절 한 수준의 지능을 가진 사람을 선발할 목적으로 제작된 군대 알파(Army-α)검 사(언어성 검사)와 군대 베타(Army-β)검사(동작성 검사)가 그 효시이다. 국내 에서는 1957년 정범모 박사에 의해 간편지능검사가 최초로 개발되었으며, 그밖 에 여러 종류의 지능검사들이 제작되어 왔다.
3) 적성검사
- 개인이 가지고 있는 지적인 능력들이 어떤 구체적인 일과 관련을 맺을 때 ‘적성’이라는 말로 표현된다. 다시 말해서 적성이란 직업이나 학업 등과 같이 구체적인 일에 대한 앞으로의 성공가능성을 예언하는 심리적인 특성이다. 흔히 “아이들의 적성에 맞는 학과에 진학하기를 희망한다”고 말할 때의 적성은 아 이들의 지적인 능력뿐만 아니라 성격이나 흥미 등을 모두 종합한 의미로 사용 되지만, 엄밀한 의미에서 적성은 지적인 능력을 의미하는 것이다. 그렇다면 지 능과 적성은 어떻게 구분되는 것일까? 지능이 일반적인 지적인 능력을 의미하 는 것이라면, 적성은 특수한 분야에서의 지적인 능력을 의미하는 것으로 이해 할 수 있다.
- 개인의 적성을 평가․측정하는 검사도구는 검사내용에 따라 여러 종류가 있 을 수 있는데, 특수한 직업수행과 관련된 능력을 측정하기 위한 직업적성검사 와, 순수한 기본적인 기능을 다루는 여러 개의 검사를 배터리로 배열해서 적성 의 패턴을 알아보는 적성분류검사로 구분된다. 검사의 목적에 따라서는 상급학 교 진학을 할 때 학과, 전공 등을 선택하기 위해서 필요한 정보를 얻을 수 있 는 진학적성검사와 직업을 선택할 때 필요한 적성정보를 얻을 수 있는 직업적 성검사로 구분된다. 국내에는 1967년 정범모 박사가 제작한 일반적성분류검사 를 비롯해서 여러 종류의 적성검사가 개발되어 있다.
cf. 특수적성검사
- 지능검사나 종합적성검사 뚜는 일반적성검사는 인간의 광범위한 능력을 평가 하고 있기 때문에 특정한 하나의 전문분야에 어느 정도의 적성이나 능력을 가지고 있는지를 측정하기에는 부적합하다. 기계, 미술, 음악 등과 같은 특수 한 영역을 능력을 평가하는 데 동원되는 측정도구가 바로 특수적성검사이다.
2. 정의적 영역의 평가
1) 성격검사
- 성격이란 다양한 환경적 자극에 대해 일정한 방식으로 반응하게끔 하는 우리 내부의 가설적인 조직체이다. 성격검사는 이러한 개인의 독특한 행동 및 사고 유형을 예언하거나 기술해 주는 도구이다. 성격에 대한 정의가 성격학자의 수 만큼 있을 정도로 다양하고 성격이론도 매우 다양한 만큼 성격검사도 다양하 지만, 성격검사는 크게 자기보고형 검사와 투사형 검사로 구분할 수 있다.
① 자기보고형 검사
- 자기보고형 검사란 검사지의 문항을 읽고 ‘예’ 또는 ‘아니오’로 응답하도록 되 어 있는 것으로서, 해싸웨이와 맥킨리(Hathaway & McKinley)에 의해 개발된 미네소타 다면 인성검사(MMPI: Minnesota Multiphasic Personality Inventory), 거 프(Gough)가 개발한 캘리포니아 성격검사(CPI: California Psychological Inventory), 카텔(Cattell)의 16성격요인검사(16 Personality Factor Questionnaire)가 대표적이다. 이 세 검사는 한 개인의 성격특성(trait)을 측정하고 있는데, 보다 근래에 개발되어 국내에서 활용되고 있는 MBTI (Myers-Briggs Type Indicator) 성격검사는 한 개인의 성격의 종류(type)를 파악하려는 검사라는 점에서 앞의 두 검사와 이론적 배경에 차이가 있다.
cf. 미네소타 다면 인성검사(MMPI: Minnesota Multiphasic Personality Inventory))
- 1938년, 멕킨리와 헤사웨이(McKinley & Hathaway)가 개발함. 566문항.
- 이 검사를 통해 정상인의 행동을 설명하고 일반적 성격특성에 대해 유추하는 것도 어느 정도 가능하지만, 이 검사는 일차적으로 정신과적 진단을 목적으로 하고 있다.
- 4개의 타당성 척도와 10개의 임상척도로 구성
cf. 캘리포니아 성격검사(CPI: California Psychological Inventory)
- 1956년 거프(H. Gough)가 개발함. 480문항.
- MMPI를 기초로 만들었지만(1/3 이상의 문항을 MMPI에서 따옴) 정상적인 개인 의 사회적 적응과 내부적 적응을 이해하는 데 도움을 주는 검사이다.
- 4개 척도군과 18개 척도로 구성됨.
- CPI의 해석은 프로파일을 분석한다.
- 학업이나 직업 영역에서 성공을 예언하는 데 유용하게 활용할 수 있다.
cf. 16PF(16 Personality Factor Questionnaire)
- 1949년 커텔(Cattell)과 그 동료들이 개발.
- 사전을 통해 인간에게 적용되는 모든 형용사 목록을 추려서 4,500개의 성격특 성 목록을 작성한 후, 이 중 인간 특성을 가장 잘 나타낸다고 생각되는 171개 단어 목록을 선정함. 이것을 대학생에게 선정된 단어 목록을 얼마나 알고 있는 지 평정하게 하고 요인분석하여 16개 요인을 발견.
cf. NEO-PI-R(NEO Personality Inventory-Revised)
- NEO-PI-R은 1992년 코스타와 맥크레이(Costa & McCrae)에 의해 개발된 것으로 서, CPI, MMPI, MBTI 등의 성격검사들을 결합요인분석(joint factor analysis)하여 공통적으로 추출되는 요인을 발견하고자 한 결과의 산물이다.
- 5대 요인은 각각 6개의 하위 척도로 구분되며, 각 척도당 8문항씩 모두 240문 항으로 구성되어 있다.
cf. MBTI (Myers-Briggs Type Indicator)
- 1920년대 Briggs에 의해 연구 시작
- 융(C. Jung)의 성격유형이론을 차용함.
- MBTI의 선호 축
* 외향(E: Extraversion)---내향(I: Introversion) : 주의집중의 방향과 에너지의 원 천에 따라 구분됨.
* 감각(S: Sensing)---직관(N: iNtuition) : 정보수집(인식)기능에 따라 구분됨.
* 사고(T: Thinking)---감정(Feeling) : 의사결정(판단)기능에 따라 구분됨.
* 판단(J: Judging)---인식(Perceiving) : 행동(생활)양식에 따라 구분됨.
- 이상과 같은 네 개 선호축의 조합에 따라 16가지 성격유형 분류.
② 투사형 검사
- 투사형 검사는 피검사자의 글이나 그림, 이야기 속에 그 사람의 성격이 투사 되어 있다고 보고 그 글이나 그림, 이야기를 분석하여 성격을 알아내는 방법으 로서 머레이와 모간(Murray & Morgan)에 의해 개발된 주제통각검사(TAT: Thematic Apperception Test), 로샤가 개발한 로샤검사(Rorschach‘s Ink-blot Test), 벤더가 개발한 벤더형태검사(BGT: Bender Gestalt Test) 등이 있다. 투사형 검사 는 그 실시와 해석상의 어려움 때문에 임상장면을 제외하고는 별로 사용되지 않는다.
cf. 주제통각검사(TAT: Thematic Apperception Test)
- 욕구이론을 펼친 머레이(Murray)와 모간(Morgan)에 의해 1935년 개발됨.
- 31장의 그림판이 있는데 모두 20매의 그림(11매는 공통, 성인남자용 9매, 성인 여자용 9매, 소년용 9매, 소녀용 9매)을 제시하고 이 그림이 어떤 상황인지, 과 거에 어떤 일이 있었길래 이런 상황이 되었는지, 그리고 앞으로 이 일이 어떻 게 진행되어 갈 것인지에 대해 상상력을 최대한 동원하여 이야기를 꾸며보라고 지시함.
- 여러 가지 해석방법이 사용되고 있으나 ‘욕구-압력 관계 분석법’이 가장 많이 사용됨.(머레이의 욕구이론 참조). 분석 내용은 주인공의 주요한 욕구, 갈등, 불 안, 주위 인물에 대한 지각, 방어기제, 초자아의 적절성, 자아의 강도 등이다.
- 검사자들간에도 의견 차이가 많아 심리측정학적 근거가 명확하지 않다.
cf. 아동용 통각검사(CAT: Children's Apperception Test)
* Bellak & Bellak이 개발, 3~10세 아동용.
* TAT와 다른 점은 그림판에 동물이 등장한다는 점이며, 표준그림판 9매, 보 충그림판 9매 총 18매의 그림판으로 구성됨.
cf. 로샤(Rorschach)의 Ink-blot test
- 1921년 스위스의 정신과 의사인 로샤의 유명한 논문 Psychodiagnostik에서 최초 로 소개됨.
- 처음부터 투사형 성격검사를 개발하려고 한 것이 아니었고, 우연히 잉크반점에 대한 정신분열증 환자의 반응이 정상인의 반응과 차이가 있다는 점을 발견하고 그것을 검증하기 위해 출발한 검사임.
- 10장의 대칭형 그림이 있는 카드 사용
cf. BGT (Bender Gestalt Test)
- 벤더(L. Bender)가 1938년 개발한 것으로서 본래 Bender Visual-Motor Gestalt Test이던 것을 1940년에 BGT로 개칭함.
- 형태주의 심리학의 창시자인 베르타이머(Wertheimer)가 형태지각 실험에 사용 한 여러 기하학적 도형 중 9개를 선택함.(도형 A, 도형 1~8)
- 지시 : “9개의 도형을 보여줄 테니 가능한 한 그림과 똑같이 그려보세요.”
cf. 집, 나무, 사람 검사(HTP: House, Tree, Person Drawing Test)
- 1948년 벅(Buck)에 의해 처음 제창되었으며, 1958년 햄머(Hammer)에 의해 크게 발전됨.
- 집, 나무, 사람은 누구에게나 친밀한 주제인데, 이것을 그리게 하여 환경에 대 한 적응적인 태도, 무의식적 감정과 갈등을 파악하려고 함.