首页 -> 2008年第5期

表现评价的理论与实践

作者:武明明 张海霞




   “表现评价”是相对于心理与教育测验的主流——正式评价(即标准化正式测验)的一种评价方式,它针对“正式评价”的偏失而设计,与其他如变通性评价(alternative assessment)、真实评价(authentic assessment)、档案评价(portfolio assessment)等被统称为“另类评价”或“非正式评价”,其英文为performance assessment。
  所谓表现评价就是在学生完成一系列任务(如实验、辩论、调查等)的过程中,通过观察、记录和分析学生在各项学习活动中的表现,对学生的参与意识、合作精神、实验操作技能、探究能力、分析问题的思路、知识的理解和应用水平以及表达交流技能等进行多方位评价的一种评价方法[1]。
  表现评价有七方面的特点:1.评价问题情境的真实性。2.评价内容的开放性、综合性、多层面性。3.评价标准的预先公开性。4.评价的主观性。5.评价的互助性。6.评价目的多样性。7.评价主体多元化。
  
  一、表现评价的程式及应用
  
  表现评价因其评价内容的间接测量性、开放性及学习行为的多元性(智力的、思维的、技能的……)而不可能像标准化测验一样有一个严格的实施方法、步骤,笔者将结合现已取得成功的澳大利亚维多利亚州高考表现性评价的运用对其基本程式进行概括。
  澳大利亚维多利亚州高中实行毕业证书制度,和我国的高中教育有所不同的是学生可在43个学习领域和科目中自由选择六门并用后两年时间修完。大部分科目分为四个单元,每单元用一个学期,高校根据这些科目成绩自主录取学生,主要依据两方面:一方面是教师在平时教学过程中实行的校本评价项目,测量学生运用先前所获得的知识解决新异问题或完成特定任务的能力,一般由教师在平时的教学中根据维多利亚州课程评估委员会颁布的标准对科目的第三、第四单元进行评价并以50%的比重计入高考总分,其形式主要包括书面报告、作文、演说、操作、实验、口头报告、讨论等;另一方面是终结性毕业统考,和我国高考制度相似,占50%权重。现以英语为例,简要介绍其具体实施方法。
  英语分四个单元,后两个单元进行校本评价并计入高考总分,每个单元分两个项目,仅以第三单元项目一为例详细说明:
  内容:要求学生完成本单元后能论述三篇及以上当前澳大利亚大众媒体文章涵盖的思想观点、体验和问题。文章可由教师或学生在国家、州或地方电台、电视节目、印刷体或电子版报纸、杂志等范围内进行选择。学生需完成以下两项任务:
  任务一:对某个问题进行书面分析并提出自己的观点。任务应在两个星期内用240~300分钟完成,字数为1000~1400字,方式不限。如,学生可呈现200~300字的媒体文章分析和一篇400~500字的简明观点论述,也可对三篇媒体文章进行400~500字的整体分析和一篇600~800字的观点论证文章。评价标准:(1)对所选文章主体内容的了解与运用;(2)对文章思想观点进行适当有效的探索;(3)文章组织结构的连贯性与有效性;(4)对英语习俗的运用。
  任务二:用分析和说明的方式对所选一篇原文进行拓展性书面解释,或对所选的一篇或以上原文进行有创造性的书面回答,或对所选的两篇或以上文章涉及的问题进行比较。任务应在一个星期内用120~150分钟时间完成,字数为600~800字。评价标准同任务一[2]。
  由以上实例可将表现评价的基本程式总结如下:
  首先,设计合适的评价任务。要考虑到评价内容的特点、学生的文化背景等因素,设计适当的情境,采用适当的任务完成形式,如口头表述、创作作品、做实验或调查等。实例中澳大利亚是英语国家,学生英语水平较好,英语学科属应用性、工具性学科,所以设计为不限情境的创作作品的形式。
  其次,确定教学目标及评估标准。根据教学需要达到的效果及涉及的多元性学习行为(如实例中涉及学生智力的、思维的、检索能力、有效选择能力等的活动),制定都能有所反映的评价标准并公开。值得注意的是,制定评价标准时应考虑几个方面的因素:一是要保持评价时学生处于平常学习的真实情境;二是要考虑各方面可能造成的不公平因素,如学生的语言、文化背景、家庭经济背景、个人不同的学习方式等,尽可能做到公平;三是评价的目的不仅是要甄别学生或评比,更重要的是在评价过程中培养学生的创造、实践能力、不同的思维方式等科学精神及健康的情感、积极的态度、科学的价值观等人文精神;四是制定出来的标准必须具有可操作性和可行性,但不宜过分细化,否则易造成学生机械针对标准而采取相应的“对策”,难以达到预期评价效果。
  第三,进行表现评价。按照已经确定的目标和标准进行表现评价,最主要的工作是尽量全面地搜集信息,根据信息对学生作出评价并搜集学生的自评和互评结果。在这个过程中需要注意的是:1、搜集信息的全面性。搜集的信息要全面,甚至包括没有涉及操作目标的其他信息,因为表现评价的资料应能够表明学生完成所有操作目标的过程且可到最后分析的时候对评价目标进行支持。没有足够的评价信息,教师对学生的评价易出现错误或偏差;2、在评价过程中教师应避免选择使用过多过细的标准,如前所述,这会导致僵化的评价而不能真实反映学生多方面的学习情况;3、教师要避免对学生的偏见及各种心理效应,尽量做到客观、公平、公正。
  
  二、对表现评价的评析
  
  任何一个评价方法在发挥自身长处的同时都存在着局限性,正如标准化测验一直被教育界诟病但仍因其优势被广泛使用一样,表现评价虽能在标准化测验的不足方面充分展现优势,但也不可避免地在其他方面存在劣势,我们不能要求它是一个完美的评价方式,但我们可以在客观地认识它的优势和不足的情况下在应用中扬长避短。
  1.评价标准
  教学评价是一种测量活动,根据教育测量学的理论,判断评价方式的优劣所依据的标准应有四项:信度、效度、可操作性和“不偏倚”(absence-of-bias)。
  信度指评价结果的可靠程度。如:同一个人用同一种评价方法去评价同一教学现象,每次所得的结果应基本相同,可通过时间、内容和人来测定其可靠性。
  效度是指评价的有效程度,即真实性和准确性程度,是某一评价实际上能够评出所想要评价东西的程度。
  可操作性是指评价实施时操作上的难易和时间、空间等的限制程度。一个好的评价方式应有较少的时间、空间等条件限制且易于操作。
  “不偏倚”是指评价结果不因被评价者性别、民族、语言、文化背景、家庭经济背景、学习方式等的不同而有所偏差,也就是公平问题。好的评价方式应该让被评价者和评价者都感到公平。一般在论及教学评价方式时,大多用前三者,很少将“不偏倚”也作为标准来考虑。现代社会是一个多元社会,在经济、政治、文化层面上都表现出多元化趋势,在各种因素影响下必然会存在很多在教育中处境不利的学生,在教学评价时应尽量减少对他们的生活和健全发展上的负面影响[3]。
  2.评析
  (1)信度。由于表现评价关注的主要是学生推理能力的发展、完成任务时知识技能及情感的运用过程等多层面的包含大量非智力因素的内容,这些内容大多具有间接测量性,表现评价又不能像心理研究时那样控制各种条件因素进行实验,而要放在真实的情境中,加上评价本身标准设定不容易一致、评价人员不可避免的主观因素影响,相对于标准化测验来说表现评价的信度不易保证。但这些具有高度不确定性的主观因素可以尽量控制。如通过多人同时观察和增加观察次数来降低评价人员的主观影响;通过事先预测评商定一个统一的评价标准;将表现评价与标准化测验结合起来评价。
  

[2]