首页 -> 2008年第3期
高考作文评分“趋中倾向”探因
作者:娄庆华
一、什么是趋中倾向
“趋中倾向就是既不打高分,也不打低分,评出的分数高度集中在中部偏上的狭小区间内。”这里说的“趋中倾向”不同于一般考试学里的专业术语“集中趋势”,在一些研究文章中经常出现两者的混用现象。“集中趋势指标描述分布中代表平均值或最典型值的点。最常见的集中趋势指标是平均数、中数和众数。”相对于单篇文章多人评分会出现评分摆动幅度过大的现象,趋中倾向则是评卷员所评分数总体呈现评分摆动幅度过小的现象。趋中倾向在各省的选拔性考试作文阅卷中是普通存在的,从表1中的调查结果可见一斑。
在倪文锦先生的调查中,2004年之前的数据显示,使用传统手工作文阅卷产生的趋中倾向程度,2004年的数据显示使用网上阅卷产生的趋中倾向程度,两者比较,可见网上阅卷产生的趋中倾向明显比传统手工阅卷严重。
二、为什么说趋中倾向是评分误差的表现
趋中倾向的存在也是高考作文评分误差存在的一个明证。我们之所以作这样的判断,是基于教育心理与统计的研究结果作出的。根据大规模调查统计显示,人的身高、体重、脉搏、肺活量、智力均服从正态分布,学生的学习成绩就水平性考试结果而言,可以认为服从正态分布。正态分布亦称“常态分布”、“高斯分布”,是一种连续型随机变量的概率分布,是“随机变量及随机变量函数的一种重要的、应用最多的分布”,是一种应用极为广泛、极为重要的概率分布。正态曲线是一条钟形的数学曲线(见图1)。
正态分布中,有68%的数集中在平均数上下1个标准内,有99.73%的数集中在平均数上下3个标准差内,如果采用五等分法,则每等人数占总人数的相应百分比分别为7、24、38、24、7。高考是一种典型的大规模水平考试,其成绩应符合正态分布的要求,高考作文成绩作为一个分值较大、独立性较强的主观题,其成绩也应符合正态分布的要求。但据表l中的调查显示,中间档成绩考生所占比率数要远远大于正态分布中相同区间内所应占比率数。比如,在倪文锦先生2004年的调查中,根据正态分布规律,3档作为共5档中的中间档应占总人数38%,实际上却占了总人数的84%。人们经常说,高考作文拉不开分数,就是这种趋中倾向造成的。以上调查数据告诉我们,高考作文阅卷存在严重的集体性误差,不是个别评卷员的专业素质不高和把握评分标准不准确所能造成的,我们应从评卷员以外去寻找造成趋中倾向的原因。
三、造成趋中倾向的原因
1、评分监测机制的缺陷
(1)专家效标的缺失
专家效标由于其权威性,可以起到控制整体阅卷情况,以免出现整体偏差的作用,意义重大。但就我们所见,目前还没有关于大规模考试中或某一次高考作文改卷中什么样的平均分、标准差、分值分布最好之类的研究,真正的专家效标研究还未展开。在高考作文阅卷实践中,专家除了一般阅卷管理外,主要处理一些特殊试卷(0分卷、满分卷和评分误差较大的作文卷),在整体控制上主要是通过抽查监控的方法来实现。专家组的复查作用主要还是针对评卷员个体的,无法对整个评卷员的控制发挥作用,所以像有的专家说的,他感觉自己就像战场上医护人员能从火线上救下几个就救下几个了。我们认为,专家组的这种作用是有限的,专家组控制高考作文评分误差的作用应主要体现在整体控制上。现在的评卷研究和评卷实践似乎对专家组整体效标的作用不够重视。换言之,专家组在作文评卷实践中的作用还没有充分发挥出来。
当专家效标没有作为控制个体评卷员评分时,是什么在控制个体评卷员评分呢?是全体评卷员所评分擞及其相关效标,即以全体评卷员所评作文分数的平均分、标准差、评分曲线为效标。而趋中倾向恰恰是评卷员集体造成的误差的表现,如果以全体评卷员所评分数及其相关效标来规范个别评卷员的评分会迫使他(她)也朝着“中间”方向评分。打个比方,如果以不正常的标准来衡量正常,那么正常也就成了“不正常”,只有变得不正常才“正常”。据此,我们可以推测,趋中倾向程度在高考作文改卷的各天中是逐日增加的。
(2)评分淘汰机制的缺陷
在高考作文评分过程中,当两个评卷员对同一篇文章的评分差值超过一定数量时,就要交给第三个评卷员评。在最后得到的三个分数中,取最接近的两个分数求平均分即为该文的最后得分,这意味着三人中一个人的评分被淘汰了。这“一定数量”的评分差值叫误差控制阈值,有的省定为8分。那么,实践中哪些分数容易被淘汰呢?打高分或低分容易与别人的评分差距过大,会使自己所评的试卷成为无效卷。有个小组长的话透露出为什么高分和低分易被淘汰,他说:“你想给他高分,他反而得了低分;你想给他低分,他反而得了高分。”怎么理解呢?比如,你很欣赏一篇文章,给它打了58分,而第二个人打了46分,第三个人打了50分,那么按照现在的评分规则,你的评分成为无效分,该生的最后得分是(46+50)/2=48分;而如果你第一次打53分,那么该生的最后得分应是(53+50)/2=51.5分,比你给他打58分时多出3.5分;打低分的情况正好与之相反。现在的网上阅卷,无效卷数量是小组长们认为的衡量一个评卷员评分水平的一个重要指标,无效卷数量多被认为是评分标准没有掌握好,评分水平低。所以如果自己的评分被淘汰不仅意味着个人的意见得不到尊重,还会被认为是评分水平低,于是评分淘汰机制在实践中会迫使评卷员倾向于打保险分。打保险分就是既不敢给好作文打高分,也不敢给差作文打低分,一般在平均分上下(40~45)打分,是高考作文评分产生趋中倾向的原因之一。
2、高考作文评分标准的局限
常模参照测验和标准参照测验对区分学生差异的要求是不同的。前者要求最大限度地区分一个群体内学生的水平差异,当试卷难度(指通过率)在0.5时区分能力最好。后者只要求在某一个点或几个点(比如合格与不合格、合格与优秀之间的分界点)上要求有较大的区分能力,其他并不作要求。高考作为选拔考试是常模参照性质的,所以高考作文评分应体现常模参照测验的性质和特点。而实际上高考作文评分最后却体现出很强的一般标准参照测验评分的特点:优秀和不合格的少,合格的点了大部分,即大部分人的分数集中一个较窄的分数段内,呈趋中倾向。这和高考作文评分标准的局限性有密切的关系。
[2]