다국면 Rasch 모형을 이용한 영어 말하기 평가의 채점자 신뢰성과 편향성 조사: 구술 인터뷰, 컴퓨터 구술시험, 폰 패스의 비교를 통하여
Examining Rater Reliability and Bias in Measuring English Speaking Performance with a Many Faceted Rasch Model: Through a Comparison of scores on an Oral Interview, a Computerized Oral Test and a PhonePass
다양한 말하기 능력 시험은 평가 및 채점 방식도 다양한데 IELTS Speaking은 시험관과 1대1 직접 인터뷰형식으로 이루어지며 시험관이 평가 기준표에 의거하여 채점하며 재채점이 필요한 경우를 대비하여 인터뷰는 녹음된다. 국내 많은 채용 기관도 유사한 방식으로 일대 ...
다양한 말하기 능력 시험은 평가 및 채점 방식도 다양한데 IELTS Speaking은 시험관과 1대1 직접 인터뷰형식으로 이루어지며 시험관이 평가 기준표에 의거하여 채점하며 재채점이 필요한 경우를 대비하여 인터뷰는 녹음된다. 국내 많은 채용 기관도 유사한 방식으로 일대일 인터뷰를 통하여 시험관은 수험자가 영어로 효과적으로 대화할 수 있는가를 평가하고자 한다. 그에 반해, TOEFL, TOEIC, TEPS는 인터넷 기반 시험으로 컴퓨터를 통해 말하기 시험이 진행된다. 이들 시험 모두 화면의 문제를 보고 헤드셋을 사용하여 직접 음성 답안을 녹음하고 녹음된 파일은 훈련된 채점자에게 전달되어 평가된다. 2016년에 수능 영어를 대체할 예정인 국가영어능력평가시험 NEAT(National English Ability Test)도 위의 세 시험과 유사한 방식으로 채점이 이루어지며 차이점은 평가 결과의 신뢰 및 편차에 대한 우려로 원어민은 채점자에 포함시키지 않고 있다. 또한 NEAT는 수능영어로 대체될 경우 대규모 수험자들로 인하여 채점자 확보의 어려움 및 비용을 고려하여 사람과 함께 컴퓨터 채점을 병행하는 것에 대해 논의 중이다 (2011 PKETA International Conference). 마지막으로 사람이 관여하지 않고 음성인식 기술을 적용하여 전적으로 컴퓨터 자동 채점만을 행하는 PhonePass가 있는데 이 시험은 시험 당일에 결과를 알려 주는 등의 탁월한 실용성으로 인해 빠른 시간에 많은 수험자를 평가하기에 용이하여 많은 기관에서 활용되고 있다. 요약하면, 현재 사용되는 말하기 시험의 채점 방식은 직접 인터뷰를 통한 채점, 컴퓨터를 통하여 녹음된 파일을 채점, 그리고 컴퓨터 자동채점 방식으로 크게 3가지로 나뉠 수 있다. 직접 말하기 평가는 시험의 타당성을 높이는 역할을 하지만 채점자의 주관성이 개입되기 때문에 채점이 일관되지 못하게 변화하거나 편향되는 경향이 있을 수 있어서 언어능력을 공정하게 측정하지 못할 가능성이 항상 존재한다 (최인철, 2000; 신동일, 2001). 그러므로 다른 채점방식 및 환경이 채점자의 채점에 어떠한 영향을 주는지 알아보는 것은 수험자의 언어능력에 대한 지표로서 채점자에 의해 부여된 점수가 정당히 해석될 수 있는가를 조사하는 것으로서 곧 그 시험의 타당성 검사와 연결된다. 그리고 인간에 의한 채점과 컴퓨터 자동채점과의 비교는 각 시험을 통해 부여된 점수의 바른 의미 해석을 도울 것이므로 반드시 필요한 연구라 본다. 또한 채점자 특성에 따라 평가 적용기준, 즉 구인에 대한 정의가 다르게 되고(Weigle, 1994), 자신의 내부적인 평가 영역에 의해 채점이 되어서 (Charney, 1984; 이영식, 2000) 채점성향(채점자 엄격성과 일관성)에 차이가 있을 수 있으며 수험자의 점수에 결정적인 영향을 끼치게 될 수 있다. 채점자 특성이 수험자의 능력과는 무관하게 점수에 영향을 주게 되면 결국에는 그 시험의 구인타당도(construct validity)에도 영향을 주게 되므로 말하기 시험의 타당성을 높이기 위해서는 채점자의 점수가 얼마나 공정하고 신뢰할 만한가에 달려있다고 본다. 채점자 특성의 영향을 줄이기 위해서는 모든 학생이 동일한 채점자에게 평가를 받는 것인데 대규모 수험자 집단일 경우에는 현실적으로 불가능하므로 여러 다른 채점자가 수험자들을 평가하게 될 수 밖에 없다. 인터뷰와 컴퓨터 시험상에서의 채점자 신뢰성과 편향성은 어떠하며 차이점은 있는지 그리고 채점자들은 원어민/비원어민, 성별, 연령등에서 다른 특성을 가지고 있는데 이러한 특성들이 각 시험에서의 채점자의 평가 신뢰성과 엄격성에 있어 어떠한 영향을 주는지 비교하여 조사하고자 한다. 또한 이러한 결과와 컴퓨터 자동 채점과의 연관성과 차이점은 무엇인지 그리고 마지막으로 채점자들의 각 시험 유형에 관한 인식 및 태도는 어떠한지 알아봅으로서 향후 말하기 시험의 점수 해석에 있어서 시사점을 제공하고자 한다. 연구를 위하여 다음의 연구문제를 설정하였다.
(1) 인터뷰와 컴퓨터 시험상에서의 채점자 신뢰성과 편향성은 어떠한가? (2) 인터뷰와 컴퓨터 시험상에서의 원어민/비원어민, 성별, 연령에 따른 채점자 신뢰성과 편향성에는 차이점이 있는가? (3) 인터뷰와 컴퓨터 시험상에서의 채점자간 평가와 폰패스의 컴퓨터 채점 간에 차이점은 있는가? (4) 각 평가 유형에 대한 채점자의 인식 및 태도는 어떠한가?
기대효과
현재 한국의 말하기 평가는 컴퓨터를 기반으로 하는 평가가 일반화 되고 있는 추세이다. 자연스러운 대화 상황이 연출되지 않는다는 점에서 비난을 받아오고 있지만 인터뷰 시험의 비 실용성으로 인하여 대규모의 수험자를 대상으로 하는 말하기 평가는 현재 또는 향후 대 ...
현재 한국의 말하기 평가는 컴퓨터를 기반으로 하는 평가가 일반화 되고 있는 추세이다. 자연스러운 대화 상황이 연출되지 않는다는 점에서 비난을 받아오고 있지만 인터뷰 시험의 비 실용성으로 인하여 대규모의 수험자를 대상으로 하는 말하기 평가는 현재 또는 향후 대부분이 실용성과 경제성이 높은 컴퓨터 구술시험으로 치러질 것으로 예상된다. 하지만 소규모 수험자 집단을 대상으로 하는 인터뷰 시험과 채점의 용이성으로 인해 폰 패스와 같은 음성인식을 이용한 컴퓨터 채점도 계속적으로 실행될 것으로 예상된다. 그러므로 본 연구의 다른 시험방식에 따른 채점 환경의 변화가 채점자의 신뢰성과 편향성에 미치는 영향과 채점자의 특성이 각 시험에서의 이들의 신뢰성과 편향성 등에 미치는 영향과 그 차이에 관한 정보는 궁극적으로는 각 시험을 통해 부여된 점수가 수험자의 언어 능력을 충분히 말해주는가에 대한 대답이 될 것이므로 시험의 타당성에 관한 정보를 제공하게 될 것이며 향후 관련 연구자, 평가자, 교육자에게는 채점자 훈련뿐만 아니라 시험의 개발 및 향상에 활용될 수 있는 매우 유용한 정보가 될 것으로 본다.
연구요약
본 연구는 구술 인터뷰(oral interview)와 컴퓨터 구술시험(computerized oral test)상에서의 채점자간 신뢰성(inter-rater reliability), 채점자내 신뢰성 또는 일관성(intera-rater reliability), 그리고 편향성(bias)을 조사한다. 그리고 채점자의 특성(e.g., 원어민/ ...
본 연구는 구술 인터뷰(oral interview)와 컴퓨터 구술시험(computerized oral test)상에서의 채점자간 신뢰성(inter-rater reliability), 채점자내 신뢰성 또는 일관성(intera-rater reliability), 그리고 편향성(bias)을 조사한다. 그리고 채점자의 특성(e.g., 원어민/비원어민, 성별, 연령)에 따라 채점자의 신뢰성과 편향성에는 어떠한 차이가 있는지 면밀히 알아보고 각 시험의 채점자 채점과 폰 패스(PhonePass)의 컴퓨터 자동 채점과의 연관성과 차이점은 무엇인지 조사하고, 마지막으로 채점자들의 각 시험 유형에 관한 인식 및 태도는 어떠한지 알아보고자 한다. 자료 수집을 위하여 영어능력, 학년, 성별이 다양이 분포된 21명의 한국대학생을 선정하여 3가지 시험(구술 인터뷰, 컴퓨터 구술시험, 폰 패스)을 치르게 하고 각 시험상에서의 수행능력을 원어민/비원어민, 성별, 연령이 다양한 24명의 채점자가 채점토록한다. 채점 후에 채점자들은 평가 타당성, 신뢰성, 채점 편리성, 정의적 측면에 관한 설문지를 작성하고 그 중 소수는 설문지상에서 드러나지 않았던 각 평가 도구에 나타나는 인식과 태도를 심층인터뷰를 통하여 심도있게 조사한다. 수집된 자료는 정량(quantitative) 및 정성(qualitative)적 자료 수집을 통하여 분석하는 통합적 연구 방법(mixed method design)을 사용한다. 채점자 신뢰성과 편향성은 FACETS(Linacre, 1989)을 이용한 다국면 래쉬 모델(Multi-faceted Rasch model)을 사용한다. 채점자 인식 설문지를 통해 수집된 자료는 SPSS version 16.0을 이용하여 chi-square test, Wilcoxon test, Kruskal-Wallis test, correlation test 그리고 crosstabulations을 실시한다. 그리고 채점자들을 대상으로 하는 심층인터뷰를 통한 정성적 자료는 정성적 분석에 효과적인 NVivo 프로그램을 사용한다. 연구결과는 궁극적으로는 각 시험의 타당성과 신뢰성에 관한 정보를 제공하므로써 관련 연구자, 평가자, 교육자에게 많은 시사점을 제공할 것으로 본다.
한글키워드
다국면 Rasch 모형, 채점자, 신뢰성, 편향성, 구술 인터뷰, 컴퓨터 구술시험, 폰 패스
본 연구의 목적은 인터뷰와 컴퓨터 구술 시험상에서의 채점자 신뢰성은 어떠하며 차이점은 있는지, 그리고 채점자 특성은 각 시험에서의 채점자의 신뢰성과 편향성에 있어 어떠한 영향을 끼치는지, 마지막으로 인터뷰, 컴퓨터 구술시험의 채점 결과와 컴퓨터 자동 채점 결 ...
본 연구의 목적은 인터뷰와 컴퓨터 구술 시험상에서의 채점자 신뢰성은 어떠하며 차이점은 있는지, 그리고 채점자 특성은 각 시험에서의 채점자의 신뢰성과 편향성에 있어 어떠한 영향을 끼치는지, 마지막으로 인터뷰, 컴퓨터 구술시험의 채점 결과와 컴퓨터 자동 채점 결과와의 차이점은 무엇인지 조사하였다. 연구를 위하여 21명의 한국 대학생과 다양한 특성을 가진 18명의 채점자에게서 자료를 수집하였다. 연구 결과는 다음과 같다: 첫째, 채점자간 신뢰성은 인터뷰, 컴퓨터 시험 모두에서 유의한 차이를 보였지만, 채점자내 신뢰성은 컴퓨터 시험 채점시가 인터뷰 채점시 보다는 일관성이 다소 부족했다. 둘째, 각 특성별 채점자 그룹에서 엄격성의 차이를 보이긴 했지만, 한국인/원어민 그룹을 제외하고는 특성의 차이로 보기는 힘들었다. 원어민 그룹이 좀 더 관대한 점수를 부여하는 경향이 있었다. 셋째, 몇 채점자 그룹이 ‘발음’, ‘응집력’에서 채점 편향성을 나타내었지만 채점자 특성에 의한 것이라기 보다는 ‘응집력’과 ‘발음’의 평가 기준표가 채점자에 따라 달리 해석되어서 때로는 너무 엄격하게 또는 관대하게 채점하는 것으로 보였다. 넷째, 인터뷰, 컴퓨터 시험과 버슨트 채점의 비교 조사에서 세 시험의 평가 항목 간에는 어떠한 유의한 평균의 차이도 찾아볼 수 없었으며, 버슨트와 인터뷰의 ‘발음’을 제외하고는 버슨트와 인터뷰, 컴퓨터 시험 모두가 의미있는 상관관계를 보였다. 특히 컴퓨터 시험과의 상관관계는 더욱 높았다. 다섯째, 버슨트와는 여러 채점자 특성 중에서는 한국인, 전공자 채점자 그룹의 인터뷰, 컴퓨터 시험의 결과와 가장 비슷하였고, 또한 두 시험 중에서는 컴퓨터 시험이 인터뷰보다 좀 더 밀접한 관련성을 보였다.
영문
The purpose of this study was to investigate inter- and intra- rater reliability in an interview and a computerized oral test. It was also examined whether rater characteristics influence on their reliability and biases, and finally the scores awarded ...
The purpose of this study was to investigate inter- and intra- rater reliability in an interview and a computerized oral test. It was also examined whether rater characteristics influence on their reliability and biases, and finally the scores awarded by raters on the interview and the computerized oral test were compared with those of Versant test using computer automated rating system. For the study, the data from 21 university students and 18 raters with various characteristics were collected. The findings from the study were as follows: First, significantly different rater severity existed in each test but each rater consistently graded on both tests suggesting low inter-rater reliability and high intra-rater reliability with higher intra-reliability in the computerized oral test than the interview; Secondly, English native speakers rated the students more severely than nonnative speakers; Thirdly, 'pronunciation' and 'cohesion', were interpreted inconsistently by the raters leading particular groups of raters to grade the students unexpectedly severely or leniently in those items; Fourthly, there existed a positive correlation among the scores of the Versant, the interview, and the computerized oral test, indicating that the scores of human beings and computers are strongly related; Lastly, the scores given by the Korean and the English major raters (in particular, on the computerized oral test) were most strongly correlated with those of the Versant.
연구결과보고서
초록
본 연구의 목적은 인터뷰와 컴퓨터 구술 시험상에서의 채점자 신뢰성은 어떠하며 차이점은 있는지, 그리고 채점자 특성은 각 시험에서의 채점자의 신뢰성과 편향성에 있어 어떠한 영향을 끼치는지, 마지막으로 인터뷰, 컴퓨터 구술시험의 채점 결과와 컴퓨터 자동 채점 결 ...
본 연구의 목적은 인터뷰와 컴퓨터 구술 시험상에서의 채점자 신뢰성은 어떠하며 차이점은 있는지, 그리고 채점자 특성은 각 시험에서의 채점자의 신뢰성과 편향성에 있어 어떠한 영향을 끼치는지, 마지막으로 인터뷰, 컴퓨터 구술시험의 채점 결과와 컴퓨터 자동 채점 결과와의 차이점은 무엇인지 조사하였다. 연구를 위하여 21명의 한국 대학생과 다양한 특성을 가진 18명의 채점자에게서 자료를 수집하였다. 연구 결과는 다음과 같다: 첫째, 채점자간 신뢰성은 인터뷰, 컴퓨터 시험 모두에서 유의한 차이를 보였지만, 채점자내 신뢰성은 컴퓨터 시험 채점시가 인터뷰 채점시 보다는 일관성이 다소 부족했다. 둘째, 각 특성별 채점자 그룹에서 엄격성의 차이를 보이긴 했지만, 한국인/원어민 그룹을 제외하고는 특성의 차이로 보기는 힘들었다. 원어민 그룹이 좀 더 관대한 점수를 부여하는 경향이 있었다. 셋째, 몇 채점자 그룹이 ‘발음’, ‘응집력’에서 채점 편향성을 나타내었지만 채점자 특성에 의한 것이라기 보다는 ‘응집력’과 ‘발음’의 평가 기준표가 채점자에 따라 달리 해석되어서 때로는 너무 엄격하게 또는 관대하게 채점하는 것으로 보였다. 넷째, 인터뷰, 컴퓨터 시험과 버슨트 채점의 비교 조사에서 세 시험의 평가 항목 간에는 어떠한 유의한 평균의 차이도 찾아볼 수 없었으며, 버슨트와 인터뷰의 ‘발음’을 제외하고는 버슨트와 인터뷰, 컴퓨터 시험 모두가 의미있는 상관관계를 보였다. 특히 컴퓨터 시험과의 상관관계는 더욱 높았다. 다섯째, 버슨트와는 여러 채점자 특성 중에서는 한국인, 전공자 채점자 그룹의 인터뷰, 컴퓨터 시험의 결과와 가장 비슷하였고, 또한 두 시험 중에서는 컴퓨터 시험이 인터뷰보다 좀 더 밀접한 관련성을 보였다.
연구결과 및 활용방안
본 연구의 결과는 다음과 같다. 1. 첫째, 채점자간 신뢰성은 인터뷰, 컴퓨터 시험 모두에서 유의한 차이를 보였지만, 채점자내 신뢰성은 컴퓨터 시험 채점시가 인터뷰 채점시 보다는 일관성이 다소 부족했다. 2. 각 특성별 채점자 그룹에서 엄격성의 차이를 보이긴 했지 ...
본 연구의 결과는 다음과 같다. 1. 첫째, 채점자간 신뢰성은 인터뷰, 컴퓨터 시험 모두에서 유의한 차이를 보였지만, 채점자내 신뢰성은 컴퓨터 시험 채점시가 인터뷰 채점시 보다는 일관성이 다소 부족했다. 2. 각 특성별 채점자 그룹에서 엄격성의 차이를 보이긴 했지만, 한국인/원어민 그룹을 제외하고는 특성의 차이로 보기는 힘들었다. 원어민 그룹이 좀 더 관대한 점수를 부여하는 경향이 있었다. 3. 편향분석에서는 30대, 박사(과정), 석사과정 채점자 그룹이 ‘응집력’ 또는 ‘발음’에서 편향적으로 관대하거나 또는 엄격한 점수를 주었음을 발견할 수 있었다. 컴퓨터 채점시에도 박사과정, 석사과정 채점자 그룹은 ‘발음’, ‘응집력’에서 편향적으로 관대 또는 엄격한 점수를 부여했음을 알 수 있었다. 이러한 결과는 채점자 특성에 따른 채점 편향성이라기 보다는 평가항목 ‘응집력’과 ‘발음’의 평가 기준표가 채점자에 따라 달리 해석되어서 때로는 너무 엄격하게 또는 관대하게 채점되는 것으로 보였다. 4. 인터뷰, 컴퓨터 시험과 버슨트 채점의 비교 조사에서 세 시험의 평가 항목 간에는 어떠한 유의한 평균의 차이도 찾아볼 수 없었으며, 버슨트와 인터뷰의 ‘발음’을 제외하고는 버슨트와 인터뷰, 컴퓨터 시험 모두가 의미있는 상관관계를 보였다. 특히 컴퓨터 시험과의 상관관계는 더욱 높았다. 5. 버슨트와는 여러 채점자 특성 중에서는 한국인, 전공자 채점자 그룹의 인터뷰, 컴퓨터 시험의 결과와 가장 비슷하였고, 또한 두 시험 중에서는 컴퓨터 시험이 인터뷰보다 좀 더 밀접한 관련성을 보였다.
본 연구의 결과를 발표함으로써 다른 시험방식에 따른 채점 환경의 변화가 채점자의 신뢰성에 미치는 영향과 채점자의 특성이 각 시험에서의 이들의 신뢰성과 편향성 등에 미치는 영향과 그 차이에 관한 정보는 궁극적으로는 각 시험을 통해 부여된 점수가 수험자의 언어 능력을 충분히 말해주는가에 대한 해답이 될 것이므로 시험의 타당성에 관한 정보를 공유하게 될 것이며 향후 관련 연구자, 평가자, 교육자에게는 채점자 훈련뿐만 아니라 시험의 개발 및 향상에 활용될 수 있는 매우 유용한 정보를 제공하는 결국을 낳을 것으로 본다.