ISSN : 1226-9654
구성적 선다형 검사 방식은 선다형 방식의 문제점을 보완하기 위해 개발된 새로운 컴퓨터화 검사 방식이다. 이 방식에서는, 하나의 발문에 대해 먼저 단답식으로 반응하도록 한 다음, 다시 동일한 발문에 대해 선다형으로 반응을 하도록 한다. 따라서 선다형에서 정답을 선택했더라도 단답식 반응을 통해 정답을 알고 선택했는지 모르고 선택했는지를 확인할 수 있다. 이 방식을 사용한 선행 연구에서, 구성적 선다형으로 본 집단과 단답식으로만 본 집단의 단답식 수행을 비교하였을 때, 단답식으로 본 집단이 더 높은 점수를 얻는다는 것이 반복적으로 관찰되었다. 본 연구는 구성적 선다형의 단답식 수행과 단답식으로만 보았을 때의 수행간 동등성을 확보하기 위해, 구성적 선다형의 단답식 점수 배점을 높이는 조작이 실제 수행에 어떻게 영향을 주는지를 알아보기 위해 수행되었다. 초등학교 6학년생 227명을 대상으로 3개의 실험이 수행되었다. 실험 1과2에서는, 무선적으로 나뉘어진 두 집단을 대상으로, 한 집단은 구성적 선다형 방식으로, 다른 집단은 단답식으로 보게 한 다음 수행을 비교하였다. 각각 따로 채점된다고 지시를 준 실험 1에서는 구성적 선다형에서의 단답식 반응이 단답식으로만 반응하게 한 경우보다 낮았다. 그렇지만 단답식과 선다형의 배점을 90% 대 10%로 했을 때에는 두 집단간에 단답식 점수의 차이가 사라졌다. 실험 3에서는, 점수 배점이 90% 대 10%일 때, 구성적 선다형 집단과 선다형 집단의 수행을 비교하였다. 그 결과 오히려 구성적 선다형 집단의 선다형 점수가 높아짐을 발견하였다. 이 결과는 구성적 선다형에서 단답식의 비중을 크게 하면, 두 가지 반응을 하게 하더라도 그로 인해 따로 따로 반응하게 했을 때에 비해, 수행이 저하되지는 않음을 시사한다.
The Constructive Multiple-choice Testing (CMT) system is a new computerized testing system developed to supplement the weaknesses of the multiple-choice (MC) format. The CMT system involves having the examinee respond to the stem first in the short answer format and then in the MC format. Therefore, one can see whether or not the examinee chose the correct option in the MC format because he or she actually knew the answer by checking the short answer portion of the examinee's response. The current study was carried out to examine whether there is any difference in the scores obtained from the CMT test as opposed to the short answer or the MC tests. Two hundred and twenty seven 6th graders in elementary school were randomly assigned to 2 groups. In Experiments 1 and 2, comparison was made between the performance of the group who took the test in the CMT format and that of the group who took the test in the short answer format. In Experiment 1, where the instruction for the CMT test was that the two portions would be graded separately, the mean of the short answer portion of the CMT group was lower than that of the short answer format group. However, in Experiment 2, the examinees were told that the short answer portion would be weighed 9 times as heavily as the multiple-choice portion (90% vs. 10%). There was no difference in the means of the short answer responses between the two groups. In Experiment 3, the means of the multiple-choice responses were compared between the CMT group and the multiple-choice group. The CMT group was given the same instruction as in Experiment 2. The result revealed that the mean of the MC portion of the CMT group was higher than that of the MC group. These results suggest that the performance is not affected by having the examinees respond twice if more points are allotted to the short answer portion of the CMT format.
박도순, 김종필, 양길석 (2002). 컴퓨터검사와 지필검사의 점수 동등성에 관한 메타분석, 교육평가연구, 15(1), 247-272.
박주용, 민경석 (2009). 구성적 선다형 검사에서 선다형과 단답형의 문항 특성 비교. 교육평가연구, 22(2), 451-469.
최윤정, 성태제 (2006). 영어 논술 채점 컴퓨터 프로그램의 비교분석, 교육평가연구, 19 (1), 145-160.
Bennett, R.E., Braswell, J., Oranje, A., Sandene, B., Kaplan, B. & Yan, F. (2008). Does it Matter if I Take My Mathematics Test on Computer? A Second Empirical Study of Mode Effects in NAEP. Journal of Technology, Learning, & Assessment. 6 (9). Retrieved July 25, 2009, from http://escholarship.bc.edu/jtla/.
Berg, C. A., & Smith, P. (1994). Assessing students' abilities to construct and interpret line graphs: Disparities between multiple- choice and free-response instruments. Science Education, 78 (6), 527-554.
Dikli, S. (2006). An Overview of Automated Scoring of Essays. Journal of Technology, Learning, & Assessment. 5 (1). Retrieved June 12, 2008, from http://escholarship.bc.edu/jtla/.
Downing, S. M. (2006). Selected-response item formats in test development. In S. M. Downing & T. M. Haladyna (Eds.), Handbook of test development (pp.287-301). Mahwah, NJ: Lawrence Erlbaum Associates, Inc.
Leacock, C., & Chodrow, M. (2003). C-rater: Automatied scoring of the short-answer questions. Computers and the Humanities, 37, 389-405.
Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational Measurement (4th ed., pp.13-104). New York: Macmillan.
Park, J. (2010). Constructive multiple-choice testing system. British Journal of Educational Technology, 41(6), 1054-1064.
Rodriguez, M. C. (2003). Construct equivalence of multiple-choice and constructed-response items: a random effects synthesis of correlations, Journal of Educational Measurement, 40(2): 163-184.
Veloski, J. J., Rabinowitz, H. K., Robeson, M. R., & Young, P. R. (1999). Patients don't present with five choices: An alternative to multiple-choice tests in assessing physician's competence. Academic Medicine, 74, 539-546.
Wainer, H., & Thissen, D. (1993). Combining multiple choice and constructed response test scores: Toward a Marxist theory of test construction. Applied Measurement in Education, 6, 103-118.
Wang, J., & Brown, M. S. (2007). Automated Essay Scoring Versus Human Scoring: A Comparative Study. Journal of Technology, Learning, & Assessment. 6(2). Retrieved May 10, 2008, from http://escholarship.bc.edu/jtla/.