首页 -> 2008年第3期
高考作文评分“趋中倾向”探因
作者:娄庆华
现在高考作文评分所使用的评分标准是描述式评定标准量表。这种量表“除常模参照评定外,凡标准参照评定,等级评定也好,分数评定也好,综合评定也好,分解评定也好,都需要这种量表来统一标准”。也就是说,现在我们使用的评分标准只适用于标准参照评分,与高考常模参照测验的性质是相违的。这个论断也得到了实践证明。首先是各省所定基准分体现的难度系数(一般是0.7)不符合常模参照评分的要求(难度系数0.5)。基准分是管理者预设的作文题最终的平均得分,现在高考作文的基准分一般是41、42分(满分60分)。如果将基准分所在等级作为评分的中间等级的话,那么必然导致各等级的给分范围不一样,比中间等级低之等级的给分范围会很大,反之则小,见表2。
可以说,基准分的确定决定了高考作文得分的分布不可能是标准正态的,往往会呈负偏态。可见,基准分的作用类似通常所说的合格分。其次,各省比较作文平均分高低,将基准分拔高,体现出管理者对评分标准的理解是标准参照性质的。现在各省市好像都有这种倾向:为了提高各自省的语文高考平均分以拥有或维护文化大省的名声,或为了让考生在被录取时分数显得“好看点”,或为了保护广大教师和学生学语文的信心,主观要求作文的平均分要高一点,所以把基准分定高点。特别是在试卷前半部分得分比较低的时候,这种要求就更强烈,要求提高的幅度就更大。有的省将基准分定为43、44分(表2),有的省甚至可能更高。我们知道,常模参照评分所得的分数是个相对分数,不反映学业水平的高下;标准参照评分所得的分数是个绝对分数,能反映学习者所达到的学业水平。各省比较高考作文平均分目的是比较各省的作文教学水平,就是把高考作文评分理解成标准参照评分。同时,基准分的拔高意味着比中间等级高的等级评分范围的缩小,而最高级别的分数评卷员往往不敢打,就更容易使分数集中在一个狭小的范围内。第三,来自一线中学的评卷员习惯于使用评分标准进行标准参照评分。中学平时的作文测试改卷一般采用标准参照进行评分,这样有利于发挥测试的诊断、激励和促进学生发展的功能。我国教师多年的打分习惯是60分(满分为100分)为及格分,那么作文的及格分就为36分(满分60分)。高考作文评卷员大部分是来自一线的高中教师,他们原来的作文评分习惯成了一种强大的心理因素,干扰高考作文评分标准的执行,使高考作文的分数36分以下的很少。现在各省高考作文分数大部分集中在40~50(满分60分)分这么个狭窄的范围内。
到这里我们会发现一个很有意思的现象:如果从标准参照评分的角度来看,使用描述式评定标准量表使分数集中在较小的范围内,但这还并不能说是“误差”——趋中倾向。而从常模参照评分的角度看就是误差——趋中倾向的表现。事实恰恰就是如此,我们按标准参照评分的规则来做事,却从常模参照评分的角度看所得的结果;或者反过来说,我们希望得到常模参照评分的分数分布,却按标准参照评分的规则来做事。
(2)高考作文评分样本卷的局限
描述式评定标准量表很抽象,容易造成理解的模糊性和不一致性。为了弥补不足,每年高考阅卷,专家组成员都会为每一个评分等级选几篇样卷。这种做法汲取了样本式参照量表的一些长处——具体、形象、直观,但并没有改变现有评分的标准参照性质。现在的高考作文评分样卷都是作文评卷专家组根据自身对评分标准的理解,在一定样本范围内选取各等级的典型样本,用的是绝对标准(指以课程标准中的目标为参照标准)。真正样本式参照量表要求专家组各自对一定数量的样本卷按水平排序,求得每篇平均排序成绩再排序,再根据正态分布规律选取各等级的样卷,用的是相对标准。用相对标准选出的每一等级的样卷,我们能知道它是占总数百分之几文章的代表,所以根据样卷来评分能在控制趋中倾向上发挥作用。而用绝对标准选出来的每一等级的样卷,应该说有一定的代表性、典型性,但它具体能代表多少份额,应该代表多少份额都是未知的,所以现在所用的高考作文评分样卷在控制趋中倾向上并没有起到作用。
四、小结
造成高考作文评分趋中倾向的原因或许还有:因为时间紧、任务重,为赶速度而打保险分;可能有的评卷员缺少责任心,随意打保险分,搞人机对抗等等,我们认为这些都不是根本的。根据所掌握的有限资料,我们认为高考作文评分的趋中倾向根本上是因为评分监测机制的缺陷和高考作文评分标准的局限造成的,这两点都是外在于评卷员个人的。进一步的研究,需要得到每年高考作文评分抽样数据才能进行。在此呼吁各省高考管理者,每年向全社会公布各年高考各题的得分抽样原始数据(可以隐去学校、学生姓名和地址等敏感信息),供研究者使用,以有利于推动我国考试研究的发展。
[1]