※ 내가 변호사시험법 및 채점관련 기사를 보며 이해한 내용을, 최대한 상세히 기술한 것인데, 약간의 추측이 첨부되어 있음. (추측이 있는 부분은 밑줄처리)
1. 채점이 어떤 방식으로 이뤄지는가?
- 다음과 같은 순서로 이뤄짐
a. 같은 과목 + 시험형식(사·기) + 동일문항 단위로 시험지를 묶음
b. 위 시험지 뭉치를 복사하여 셔플함 (수작업 셔플의 경우 초기의 고사장별 뭉텅이가 완벽히 초기화될만큼의 셔플은 어렵고, 복사한 파일 단계에서 셔플하여 인쇄한다면 셔플 자체는 완벽히 할 수 있음)
c. 셔플한 위 뭉텅이를 4개로 갈라서, 4개의 채점그룹에 분배 (각 채점그룹은 2인의 채점자로 구성 [각 문항별 "4x채점그룹"은 사·기 출제위원 3명, 선택형 출제위원 중 1~2명, 신규 3명으로 구성])
d. 각 2인조 채점그룹은 자기가 받은 500(응시자 2,000명 기준)~750여개(응시자 3,000명 기준)여개의 답안을 각자 모두 채점하여 원점수를 냄 (2인이 동일 답안지를 2회 채점하니까 모든 문항별로 점수가 2개씩 나오는데, 각 채점결과가 크게 상이한 특이케이스 보정 및 양자의 평균값 산출 등을 통해 최종원점수를 결정함)
e. 위와 같이 뽑아낸 최종원점수를 바탕으로 해당 답안지 뭉텅이 내에서 표준점수를 산출함 (즉, 본인 성적표 상의 표준점수는 다른 뭉텅이에 들어간 답안지 수준, 채점결과 등과는 전혀 무관하고, 오로지 자신이 속했던 뭉텅이 내에서의 서열이 결정함)
2. 그래서 내 표준점수가 무엇을 뜻하는가?
- 본인이 속했던 채점그룹(500~750여개의 해당답안지 묶음) 내에서 본인의 답안지가 어느 정도 위치에 있는지를 보여주는 것임
- 일반적인 문항의 경우 표준점수의 평균은 50, 표준편차는 10 (민사 1문은 평균75, 표준편차15 / 민기록은 평균 87.5, 표준편차 17.5 / 선택형은 평균40, 표준편차8)
- 평균±1x표준편차 범위(즉 일반문항의 경우 40~60점)에 속하는 사람의 비율은 68.27% (나머지 31.73%의 반은 이 범위보다 위에, 반은 이 범위보다 아래에 있다는 것임)
- 평균±2x표준편차 범위(즉 일반문항의 경우 30~70점)에 속하는 사람의 비율은 95.45%
- 평균±3x표준편차 범위(즉 일반문항의 경우 20~80점)에 속하는 사람의 비율은 99.73%
- 고로 일반문항 기준으로 표점과 백분위의 관계는 대략 다음과 같음
표점 50 = 백분위 50
표점 60(평균+1x표준편차) = 백분위 84.135 (표점 40 = 백분위 15.865)
표점 70(평균+2x표준편차) = 백분위 97.725 (표점 30 = 백분위 2.275)
표점 80(평균+3x표준편차) = 백분위 99.865 (표점 20 = 백분위 0.135)
- 보다 상세한 계산은 아래의 계산기를 참조
a. 문항별 표준점수 → 백분위 계산기 http://cafe.daum.net/afterlawschool/Qgrc/50541
b. 객관식 원점수 → 백분위 계산기* http://cafe.daum.net/afterlawschool/Qgrc/63698
* 단 b.의 경우 원점수의 분포(평균**과 표준편차**)를 알아야 비교적 정확한 계산이 가능함
** 위 평균과 표준편차는 표준점수와 관련한 평균, 표준편차를 의미하는 것이 아님. 문자 그대로 원점수들의 평균과 표준편차임.
3. 분배형 채점에는 어떤 문제점이 있나?
A. 채점자 간의 채점행태의 차이에 따른 원점수불균형의 문제
(채점행태의 차이 = 가령 채점 기준표상 4점 배점이 된 논점에서, 물론 기준표 상에 가이드라인이 있기는 하나, 구체적으로 어느 정도의 상태인 답안지에 0, 1, 2, 3, 4점을 주는지는 채점자 성향에 따라 다르니까, 후하게 주는 팀에 걸린 사람과 짜게 주는 팀에 걸린 사람의 원점수 차이는 상당히 날 수 있음)
→ 표준점수화로 대부분 해결이 됨
B. 고사장 별로 응시자 실력이 크게 다른 경우, 고사장 뭉텅이 그대로 채점이 들어가면서 발생할 수 있는 표준점수 변동의 문제
(위에서도 말했듯, 자신의 표준점수는 자기가 속한 채점그룹 뭉텅이 내에서 자기가 받은 원점수 서열임. 고로 고득점자가 많고 하위권이 거의 없는 뭉텅이에 속한 중급 답안지의 경우, 다른 뭉텅이에 속했을 때보다 표준점수가 큰 폭으로 하락하게 됨)
→ 일단 이것은 고사장별 응시자 실력분포가 크게 차이가 있다는 가정이 성립할 때에만 발생할 수 있는 문제이고, 셔플을 제대로 한다면 애초에 고사장 뭉텅이 대로 들어가지 않으므로 이런 문제가 없음 (다만 셔플을 제대로 하는지에 대해선, 즉 셔플을 복사한 파일을 이용하여 디지털로 제대로 하는지, 아니면 수작업으로 물리적 답안지를 대충 섞는 것인지 대해서는 아는 바가 없음)
C. 완벽한 셔플 하에서도 여전히 발생하는 약간의 뭉텅이별 응시자실력 불균형으로 인해 초래되는 표준점수 변동의 문제
→ 이것은 분명히 발생하는 것이지만, 그 정도가 중대한지, 그리고 단일채점그룹이 전체답안지를 채점하는 방식 하에서 발생하는 문제점(①모든 채점위원이 모든 응시자의 답안지에 접근할 수 있게 되므로 채점위원 中 1人 매수형 부정행위가 더 확실하게 영향력을 낼 수 있음, ②모든 채점위원이 2~3천여개의 답안지를 채점해야 하므로, 소그룹 채점시보다 채점일관성·정확성이 떨어지는 문제)보다 큰지를 고려하여 문제가 있는지 여부를 판단해야 함.
a. 완벽한 랜덤셔플시 순전히 운으로 발생하는 약간의 상·하위권 답안지 쏠림현상만으로도 표준점수가 변동하는가?
- 분배하든 통합채점하든 동일한 원점수가 나온다는 가정하에,
- 특정 원점수를 가진 답안지의 전체그룹(3천명) 상 표점 vs 자기가 속한 뭉텅이 상 표점(=성적표 표점)은 거의 항상 차이가 남
- 그래서 전체그룹표점과 뭉텅이 표점(=성적표 표기 표점)은 각 문항에서 표준점수로 얼마만큼 차이가 나는가?
- 이건 특정 답안지가 극값에 얼마나 가깝냐에 따라 달라지기 때문에 일률적으로 말하기는 어려움
- 등수를 기준으로 말하자면, 동일 등수가 나올 확률은 거의 없고, 보통 어느 정도 움직이는데,
±50등 범위 내의 변동은 거의 모두가 겪고 있다고 보아도 무방하고
±100~200등 정도의 변동은 비교적 소수가 겪는 것이지만 흔히 있는 일이고,
±200~250등 수준의 변동은 전 문항 전 답안지를 통틀어서 거의 항상 발생하기는 하지만 극소수만이 당하는 것,
±300등을 초과하는 수준의 변동은 거의 발생하기 어려운 것
정도로 이해하면 됨
b. 그래서 위 쏠림현상으로 인하여 내 표준점수 합계는 얼마나 변동할 수 있는가?
- 뭉텅이 내부 표준점수(=성적표 기재) vs 전체 답안지 내의 표준점수
양자 간의 차이는 각 문항별로 서로 독립하여 발생하는 것임
- 즉 민사 1문에서 전체로 했을 때 대비 손해를 본 인간이 2문에서는 이득, 3문에선 개이득, 기록에선 개손해, 형사 1문에서는 본전, 2문에서는 폭망, ... 이런 식으로 간다는 것임
- 그래서 특정 문항에서 상대적으로 극단적인 진폭에 당했다 하더라도, 다른 문항이 이를 상쇄하여 표점합계의 진폭은 평균적으로 그리 크지 않음
- 그래도 전체답안지 내에서의 표점과 현재 뭉텅이 내에서의 표점(=성적표 기재 표점)은 거의 항상 차이가 남
- 표점합계의 변동을 수치상으로 말하자면,
- 대부분의 사람은 ±0~10점 범위 내의 표점 변동을 겪으나, 극단적인 경우에는 ±20점 언저리까지는 변동할 수 있음
- ±30점 이상의 변동은 커트라인 근처에서는 불가능에 가까운 영역이고, 최하위권이나 최상위권에선 가능한 영역임
c. 그래서 뭉텅이 표점이 전체 표점보다 낮아져서, 원래 합격인데 불합격하게 되는 사람의 수는 어느 정도인가?
- 합불 커트라인 표준점수와 동떨어진 사람은 ±10점을 당해도 당락 자체에는 영향이 없음
(당락권에 정확히 걸친 사람은 1등만 움직여도 당락이 뒤집힐 수 있고, 200등 인접 영역인 사람은 200등 정도 움직여야 뒤집힘)
- 몇 명 정도 뭉텅이 내부 표점하락으로 인하여 당락뒤집힘을 당하는지 엑셀로 1,000회를 돌려본 바,
- 이러한 당락 뒤집힘이 적게 발생하는 경우에는 3,000명 응시 기준 약 0~60명 정도(0명인 경우도 존재했었음),
많이 발생하는 경우에는 약 300~400명 정도, 통상의 경우에는 100여명대 정도가 당락뒤집힘을 당함.
d. 그럼 보통 3~5%, 많게는 10% 이상이 나쁜 뭉텅이에 속했다는 이유만으로 떨어진 것인데, 이 정도면 문제 아닌가?
- 위 당락뒤집힘이 무엇을 의미하는지에 대해서 다시 한번 정리하자면,
ㄱ. 분배채점을 하나 통합채점을 하나 항상 동일한 원점수를 받는다는 가정 하에
ㄴ. 다음과 같은 케이스에 해당하는 사람을 당락뒤집힘에 당한 사람으로 분류함
* 전체 3천명짜리 그룹에서 그 원점수가 갖는 표준점수 = 합격
* 자기가 속한 채점그룹에서 그 원점수가 갖는 표준점수(현 성적표상 표점) = 불합격
- 현실에선 애초에 ㄱ. 가정이 이뤄질 수 없으므로, 그다지 의미있는 이야기는 아님
(현실적으로 보면, 지금과 같은 500장 내에서도 완벽한 test-retest 일관성을 가진 채점이 이뤄질 리가 없음)
- 실제로 통합채점 vs 분배채점의 우열을 가리기 위해서는 각 방식이 가지는 장단점의 정도를 비교해 보아야 함
- 통합채점(채점자 모두가 전 응시자 답안지를 채점)을 하게 되면 채점자 피로로 인하여 가면 갈수록 채점의 일관성, 정확성이 떨어질 소지가 높음
(그리고 500장 채점시보다 3000장 채점시 일관성, 정확성이 떨어질 것이라는 점은 충분히 예측 가능)
- 그러니까 ①통합채점을 했을 때 나타나는 원점수 부여 자체의 일관성, 정확성 감소로 당락변동을 당하는 사람의 수가 많을지
아니면 ②분배채점시 뭉텅이별 불균형으로 인해 당락변동을 당하는 사람의 수가 많을지를 비교할 수 있어야 우열을 가릴 수 있음
- 그러나 채점수량 증가(500→3000)에 따른 일관성·정확성 감소 수준이 어떠한지에 대해 알 방법이 없으므로, 계산할 방법이 없음. 고로 비교가 불가능함
- 개인 사견으로는 통합채점시 원점수 부여의 일관성 감소로 인한 문제가 더 클 것이라고 추측하고, 현재 뭉텅이의 크기 등은 적정한 수준으로 판단함
- 판단 근거는 시간 부족으로 생략
향후글 인증용 md5 hash : 4B4A6BD13EAE91795411ABBB5D8A8A38
첫댓글 복사본으로 채점한다고 하니 완벽한 셔플을 할겁니다.
굳이 손으로 대충 안해도 됩니다.
스캔떠서 PDF로 만들면 완벽한 셔플이 가능합니다.
자세히 보면 알겠지만 셔플의 완벽성을 다루는 부분은 그냥 잠깐 지나가다 하는 이야기 정도고, 그 아래 부분은 완벽셔플 하에서의 이야기임
에블바뤼 셔플댄스 빰빠빠빠빰빠빠 빰빠빠빠빠빠
3000장이 넘는 답안을 하나의 복사기에서 돌리는게 가능할까요? 완벽한 셔플이린 있을수없는듯.. 뭐 믿거나 말거나..
복사기 몇개로 돌리든 거기서 스캔되어 나온 파일은 한 개의 컴퓨터로 모을 수 있고, 파일 섞기는 10줄 이내의 스크립트로 스캔된 파일들을 랜덤으로 리네이밍을 한 후 재정렬하면 되니까 매우 쉬움
출판사 인쇄기 보면 그 생각 쏙 들어갈겁니다..
정부에서 전문으로 인쇄하는 곳과 수의계약 맺기 때문에
업체 입장에선 3천장은 많은편에 들어가지 않습니다..
완벽한 셔플이라는 게 물리적으로 그 답안 종이를 섞는다는 의미이지, 그 종이 안의 답안이 어느정도로 쓰여졌는지는 채점 전까진 모르고 따라서 종이만 완벽하게 섞는다고 그를 통한 그룹핑의 수준차가 제거될 순 없는 거 아닌가?
맞고, 그렇게 잔존하는 뭉텅이간 수준차가 점수·당락에 어느 정도 영향력을 미치는지에 대해 다루는 내용이 3. C. 下의 a.b.c.이며, 결론이 d.임.
ㅇㅇ 잘 읽었어 이 정도면 거의 완전한 분석이다 통계에 대한 수학적 사고가 이 정도라면 객 원점수 1문항 당 2.5점의 가치가 표준점수 몇 점의 가치와 상응하고 전체 등수 진폭에 기여하는 정도가 사기 표준 총점과 객 원점 총점이 어느 정도 인지 알 수 있을 것 같은데...다들 객이 중요하단 이유가 '원점수 그대로 들어간다' 정도의 설명 밖에 안 돼서 근거가 얕아 보이거든 내가 보기엔 객 10문제가 표점 25점과 같고 그렇다면 이는 객사기 총점 25점과 같을 텐데 사기에서 골고루 잘 하면 25점이 아니라 100점 이상 차이가 날 듯 한데 객은 20개 안에 모여있어도 최대 50점 같아서 말이지 이 정도 글쓴이라면 답변이 가능할 것 같은데...
객 1문항(2.5점)의 가치 = 사기에서 딴 표준점수 2.5점의 가치
객 1문항(2.5점)이 등수 변동에 기여하는 정도 = 표준점수 2.5점이 등수 변동에 기여하는 만큼
객관식의 일반적인 분포 (모의고사 통계표 기준, 공법 한가지만 예시로 듬)
공법 - 평균 23.86개 / 상위 15% 약 29개, 상위 2% 약 33개 / 하위 15% 약 20개, 하위 2% 약 16개
즉, 공법 객관식은 대략 평균 60점(24개)에 표준편차 10(4개)짜리 사기 문항(민사1문과 일반문항 중간쯤 되는)인 셈이고, 객관식의 독자적 파급력은 그리 크지 않음. (사기 전문항에서 상위 2.2%를 찍으면 약 20*12.85=257점을 더 따는 셈이니, 객관식 백지내더라도 합격률 50% 시험에서 합격 가능)
다만 ①객관식 점수와 사기 점수가 완전 따로 노는 것이 아니고(객 120 근처인데 사기가 모두 저공비행하는 자는 상정하기 힘들고, 그 역도 마찬가지), ②합격률 50% 시대가 되면 커트라인이 곧 응시자 점수가 가장 밀집분포하는 지역이 되는데, 객관식에서 25~50점 가량 더 따면 그 밀집지역을 벗어날 수 있어서, 사기에서 전문항 중간값을 찍었을 때 나쁜 뭉텅이에 많이 걸리더라도 불합격할 가능성이 없음(객까지도 전부 중간을 찍어버리면 사기 뭉텅이가 잘 걸리면 합격인 것이고, 아니면 떨어짐).
글 잘보고 간다 도움 많이 됐다 너도 잘자라
이 글은 공지로 가야할 필요성이 크다
삭제된 댓글 입니다.
표편 20이상 절대 안나온다. 그러면 root 씌우기전에 400이 넘어간다는 얘기 3000명이니 분모 3000에 분자 12만이 넘어간다고? 개인별 편차치 제곱합이 12만이 넘어간다고? ㅅㅂ 이게 무슨 천점 만점 시험이냐? 그런일은 있을 수가 없어.
초고수라고 해봐야 1/n 에 불과하다. 중요한건 평균 주변에 얼마나 많은 애들이 촘촘한가. 중산층이 두꺼운가지.
김연아 박찬호 고승덕 이런애들은 합격라인에 큰 영향이 없어. 아무리 지가 잘나봐야 1/3000이다.
10:56은 나 아니고, 저기서 표준편차, 평균이라고 적어놓은 것은 원점수의 표준편차와 평균을 의미하는 것이 아님. 표준점수 자체의 평균과 표준편차를 이야기하는 것이고, 아래에서 × 10 부분이 표준점수의 표준편차를 10으로 설정한다는 것을 보여주는 부분이고, + 50 부분이 표준점수의 평균을 50으로 설정한다는 것을 이야기하는 부분임.
시행규칙 §5①1. {(시험위원이 채점한 점수 - 시험위원별 답안지 점수의 평균점)/시험위원별 답안지 점수의 표준편차 × 10} + 50
Z점수 = (시험위원이 채점한 점수 - 시험위원별 답안지 점수의 평균점)/시험위원별 답안지 점수의 표준편차
T점수(답안지 상 표준점수) = Z점수*10(표준편차)+50(평균)
그리고 표준점수(평균 50, 표준편차10짜리)에서 0점 아래로 내려가거나 100점을 돌파할 수 있는 것은 당연한 일임. 이건 결국 Z점수가 ±5를 넘을 수 있느냐 없느냐의 이야기임. 민기록 채점기준표상 원점수 만점이 175점이라고 치고, 만약에 원점수의 분포가 평균 55점에 표준편차 15라면, 거기서 130점 이상 득점한 사람은 Z 점수가 5 이상이 되어버림. 고로 저런 분포에서 원점수 145점을 득점한 사람은 표준점수 환산을 했을 때 110점이 되어버리고, 그럼 배점환산을 했을 때 만점 175점 과목에서 192.5점을 받아버리니까 이런 사람을 175점까지밖에 못 받게 수정한다는 것임.
코멘트를 자세히 읽을수록 설명을 해 줘야 하는 부분이 많네.
상하위 1% 정도로는 일반적으로는 표준점수 90점 이상이나 10점 이하가 거의 나오지 않고, 단독 1등이나 단독 꼴등의 경우에는 일반적으로는 80점대, 10점대 정도를 받겠지만, 그 문항의 실제 득점분포도와 해당응시자의 득점에 따라서 이보다 훨씬 더 극단적인 값(0점 미만 혹은 100점 초과의)을 받는 것이 가능은 함.
그리고 채점그룹 간의 합격률 차이는 없음. 어떤 채점그룹이든 간에 그들의 표준점수는 평균이 50에 표준편차가 10이므로, 그 문항 하나의 점수만 가지고 합격여부를 가린다면 어느 그룹에서든 똑같은 비율의 사람이 떨어짐. 다만 다른 그룹에 비해서 평균실력이 높은 특정 그룹이 있을 때, 그 특정 그룹에 들어간 답안지는 다른 그룹에 들어갔을 때보다 상대적으로 낮은 표준점수를 받게 되고, 이런 표준점수 하락으로 인하여 원래는 합격인 사람이 탈락할 수 있게 되는 것임.