首页 -> 2006年第9期

内容效度:一个不容忽视的问题

作者:赵德成




  一、内容效度及其重要意义
  
  内容效度是教育测量学中的一个重要概念。它是衡量测验与评价质量的重要指标。要理解它的内涵与重要意义,得先从开展测验与评价的目的说起。
  通常来说,我们开展测验与评价的核心目的是考查学生实现预期学习目标的程度。但是,学生的学习目标涉及知识与技能、学科共通能力、情感态度与价值观等多个领域,每个领域又包含十分广泛的内容,即便是一次学科专项测验,要测量的任务也是一个相当大的范围。所以,我们通常无法对某一范围或领域中的所有内容和任务进行考查,只能从中抽取一个有代表性的样本去评价学生,然后依据学生在样本上的表现推测其发展状况,做出有关解释与决策。在测验中,题目样本对所要评价内容范围的代表程度反映了内容效度的高低。从测量学角度来说,内容效度指的就是测验题目有效测量了特定目标并从整体上反映了所要测量领域的程度。
  题目样本的代表性越好,内容效度越高;反之,题目样本的代表性越不充分,内容效度则越低。我们可以结合语文学科来做进一步的分析。新课标已明确规定,语文学习包括识字与写字、阅读、写作、口语交际和综合性学习等方面,这几个大的学习领域及其具体的学习要求就是语文评价的内容范围。作为一个完整的语文评价,只有评价任务或测验题目均匀地取自整个内容范围,具有充分的代表性,才能真实、有效地反映学生学习的实际状况。而如果题目仅选自少数领域,或者有些题目根本没有落在评价范围之内,评价方案的内容效度就不够理想。
  高内容效度是良好测验与评价最重要的特征之一。从某种意义上来讲,内容效度比其他几个测量学指标更重要。拿语文学科来说,如果没有依照课程标准明确要评价内容的范围,或者范围明确了但没有找到能充分代表这一范围的合适样本,简而言之,就是说一套评价方案或测验题目的内容效度不理想,那么它就无法准确反映学生在语文学习方面的成就水平,也无法细致诊断学生在语文学习方面存在的优势与问题,而依据学生分数所做的解释、推论和决策也不会合理和有效。这样的测验或评价,即使精心施测与客观评分,且实际获得的信度、难度和区分度指标都可以接受,也不能被认为是好的测验。所以,在测验与评价实践中,我们要有意收集有关证据,重视内容效度的分析和审查。
  
  二、当前语文测验与评价实践中常见的内容效度问题
  
  内容效度分析与审查最常用的方法是专家审查,通常由多个学科专家或评价专家对测验题目与所涉及内容范围的符合程度进行判断。具体程序是先明确测验所涉及的内容范围,也就是测验要测量什么,然后对测验题目是否属于这一范围、能否测量到要评价的特质、影响测验成绩的无关因素是什么、能否从整体上有效代表评价范围,以及各种内容和类型的题目比例是否适当等做出评判与分析。严格来说,在较大范围内统一使用的高利害学业成就测验(如初中毕业生学业考试),必须经过专家审查和改进之后才能正式投入使用。
  采用专家审查方法,我们对近年来语文单元测验、期末语文评价以及初中毕业生语文学业水平考试进行分析,发现在内容效度方面存在一些不容忽视的重要问题。几种典型的情况分别是:
  
  1.题目样本取自评价范围中的局部领域
  语文课程旨在全面提高学生的语文素养。如前文所述,新课程实施以后的语文学习主要包括识字与写字、阅读、写作、口语交际和综合性学习等领域。那么,终结性评价意义上的期末语文评价,应该全面评估学生在各个领域中的发展与变化,选取能代表整个评价范围的题目样本。但实际上,不少地区仍然固守传统的命题取向,片面强调那些容易通过纸笔方式测量的知识与技能,题目集中在少数领域,而对那些重要却难以客观评价的特质或领域,如语文课程中的口语交际与综合性学习领域,却很少涉及。有些教师反映,他们在新课程实施之初以饱满的热情参与到教学改革之中,教师角色以及学生的学习方式发生了很多积极的改变,学生的口语交际能力和综合应用能力也有了比较明显的提高,但到了学年末,地区性统考却只考知识与技能,甚至按照旧的教学大纲来命题,“逼”得他们只好走回头路。
  
  2.有的题目超出了语文学习的评价范围
  在评价范围内命题,是保证测验与评价内容效度的基本要求。这与传统命题实践中所强调的“不超纲”是一个意思。但在综合性学习受到广泛重视的背景下,有些测验题目却超出了语文学习的评价范围。比如,某地区在中考阅读题中,让学生阅读《走近纳米技术》之后,回答这样一个问题:“纳米技术广泛的应用前景就连想象力极强的人也无法全部想到。请结合对本文内容的理解,联系生活实际,发挥联想和想象,设计一个运用纳米技术的科技小制作。”与此类似,另一个地区在中考阅读题中,让学生阅读有关材料后回答:“要使建筑物防震,除文章介绍的方法外,还可有其他许多方法,请发挥你的想象力,为建筑抗震房屋想一个办法。”设计运用纳米技术的科技小制作和设计抗震房屋都是创造发明,虽然体现了课改精神,但所考察的内容却是非语文的。这无形中降低了语文评价的内容效度,我们不能由分数准确推论学生语文学习情况。换句话说,就是如果学生得分高,我们不能简单说他们语文学习效果好;而如果学生得分低,我们也不能简单说他们语文学习得不好。
  
  3.测验题目不能有效测量要评价的特质
  有些地区和学校在语文测验中关注了新课程十分重视却难以评价的某些特质,加强了题目的开放性、综合性与实践性,但所创设的情境却不能有效证明学生在所测特质上的成就水平。如,某市期末语文测验中有这样一道评价口语交际能力的题目:“我们每个人都有自己心底的秘密,今天晚上回家后,请你和你的父母说说你心底的秘密。你会如何说呢?请你把它写下来。”姑且不说让学生与父母说自己心底的秘密合不合适,题中要求学生将想说的话写下来,而不是真正与父母进行交流,实际上能测量到的主要是写作能力,而不是口语交际能力,内容效度十分不良。应该说,题目不能有效测量所要评价特质的情况,在综合性学习、审美情趣、情感态度等方面的评价中都不同程度地存在。探索新课程所强调的各种素质与能力的评价,从方向上值得提倡,但如果要评价的特质实际上根本没有评价到,内容效度不理想,不仅不能发挥积极的导向作用,还可能误导我们的学生与教师,使我们离教育目标越来越远。
  
  4.题目形式更新导致内容效度下降
  有些教师在评价改革中提出要革新测验题目形式,增加选择性和趣味性,使学生在轻松、愉快的氛围中参加考试,既乐学,又乐考。但这种努力如果处理得不好,可能反而导致内容效度的下降。比如,很多实验区在语文期末测验中采用如下的题目形式:“本学期,我们一共学习了8首古诗,你最喜欢其中的哪一首呢?请你把它写下来。”学生实际默写下来的古诗,未必是他真正喜欢的那一首;再说,如果学生喜欢其中的多首或一首也不喜欢,又如何作答呢?通过这道题,我们并不能对学生古诗文学习成果形成准确、可靠的评判。学生答对了这道题,我们却不能就此下结论:他们的古诗文学习达到了课程标准的要求。如果教师在其他内容领域也这样评价学生,杜撰一个夸张点的例子:“本学期我们学习了300多个生词,你最喜欢哪几个呢,请写出5个。”恐怕我们曾经引以为豪的语文“双基”会受到意想不到的冲击。
  
  5.某些无关因素也在影响题目的内容效度
  学生在测验作答中通常需要多种知识、经验与能力。如果某些经验与能力不是测验意图评价的重点,但对学生测验结果却构成重大影响,这就会降低测验的内容效度。比如,某市中考语文考试出了这样一题:在让学生阅读完一段关于母亲的散文之后,问学生“你们是否意识到,我们的母亲已经人到中年,请你写一段文字,说说母亲人到中年后发生的变化”。学生母亲是否健在、学生是否与母亲长期生活在一起、母亲的实际年龄、学生与母亲的真实情感等很多与写作能力无关的因素,可能会引发学生的情绪困扰,影响学生的回答,导致内容效度下降。心理学研究已经发现,在成就测验中,指导语含混不清、测验时间不够、题目编排不合理、答案有规律、评分标准主观性大等许多因素,都可能在不同程度上阻止测验发挥应有作用,降低测验结果解释的效度。
  

[2]