首页 -> 2008年第5期
PISA:数学素养测试题的设计和研发过程
作者:苏洪雨
一、 测试范围和格式
在PISA2003中,测试了四个领域的内容,数学是主要的领域,阅读、科学和问题解决内容较少。学生在数学方面的成就测试使用85道测试题,在210分钟完成;这比2000年以阅读为主的测试所用的时间要少,当时是270分钟。问题解决测试19道题,阅读28道题,科学评价35题,每个附属领域60分钟。这167道题从一个较大的题库(大约300道)选出,题库里的题目在各国试验中心一年前已经测试过。
PISA在2003的形式是笔试。题目包括多项选择,简答题,拓展题。多项选择是要求学生选择最适合的答案,或者对于复杂的呈现多种选择,学生从几种可能的回答选择其一(真或假,对或错,等);简答题包括封闭题和开放题,例如数学中的填上一个数字,或者文字,短语等属于封闭题。短答题和封闭题类似,但是可能更为广泛。开放题要求更多的书写,演示计算,熟练地进行说明或者判断。PISA联盟建议在一些常常使用计算器的国家可以使用计算器。国家测试中心根据国家实际标准决定是否提供计算器。题库中的题目不需要计算器,但是一些题目的解答步骤中使用计算器可以方便计算。在开发数学题目中,试题开发者特别留心,确保题目适合不使用计算器的国家。
二、 试题设计
这167道主要研究的题目分为13个题组(7个数学题组,其他领域各2个),要求学生在30分钟完成每个题组。题目分成13个小册子,每个小册子根据表1中分配,由4组构成:M1到M7表示数学组,R1到R2表示阅读组,S1到S2表示科学组,PS1到PS2表示问题解决组。每个小册子中的题组在4个可能的位置准确地出现一次。因此,每个题目出现在4个测试小册子。这样循环的设计可以应用标准测试技术处理学生回答的数据,从而估计题目难度和学生能力。
除了上述两个小时测试的小册子,还有一个特殊的一小时测试小册子,称之为UH册子,为一些有特殊需要的学生准备的。UH册子要稍微薄一些,其中的题目很适合特殊教育需要的学生。这种册子包括7道数学题,6道阅读题,8道科学题以及5道问题解决题。
表1:试题组成
三、 试题研发
一份完整的PISA试题包括一些促进因素的材料,一个或者多个问题,以及对每个问题回答的编码向导。这些编码向导包含了一系列的回答类型,每一类都有自己的得分代码,各种回答的描述指派到每一个代码,以及为每一类进行的简单回答。
PISA 2003测试题的另一个特征是发展了PISA2000和承继了相关的双位代码,这可以用来指引分数和回答代码。这些双位代码容许保留认知过程和知识之间大不相同的反应和回答。例如,如果使用一个代数方法或者试误方法来得到正确答案,学生使用其中一种方法解题可以得到一个“1”,他所使用的方法将反应在第二个数位上。通过第一个数位表明得分,第二个表明方法,双位代码得到不同的问题解决方法。
数学试题的研发由一个或者多个试题研发中心团队开发,如澳洲的ACER,荷兰的CITO,日本的NIER。问题解决试题由ACER,CITO和Leeds大学进行研发。在每个中心,由专业试题研发者编写研发试题。另外,由国家或个体提交的试题分配到相关的试题研发中心,为研发工作服务。
接下来是试题研发中的步骤,包括研发试题研发团队中心关注的原始题目,以及由国家提交到各个团队中心的试题。我们以线性描述这些步骤,但实际上是通过经常循环的方式探讨的(如表2)。
试题库:试题研发中心开发了总共达512道数学题目,从而适合循环使用,给国家中心得到反馈。同时,这些题目也被认真地考虑包含在PISA 2003研究的测试工具中。进一步的从PISA 2000中保留20道题,可以作为关联性的题目使用。
表2:试题研发步骤
在2001年的9月,为2002年实地试验使用的题目从题库中选出。一个由数学讨论组和数学专家组共同组成的会议在荷兰的奈梅亨(Nijmegen)召开,开始着手选题程序。参与者评估试题,把每一道题目分配到实地试验题库中,同时确定哪些题目从题库中剔除。试题协会认真考虑国家试题反馈中心、数学论坛、三个专家组和国家项目管理者(NPM)会议的建议。试题研发协会对推荐选出的试题进行进一步的提炼,这对相关的试题框架要求是必要的。试题协会最终为实地试验选出了217道数学题目。题目的选择如下面的表格。
表3: 数学实地测试题(按能力分支的试题格式分类)
表4:数学实地测试题(按能力分支的内容分类)
表5: 数学实地测试题(按试题格式的内容分类)
数学试题分配到14个组,每个组代表30分钟测试,同样的,问题解决试题有4组题目,科学试题2组,然后,根据实地试点测试把这些题组分配到试题册中,每个试题册包括四个组(如表1)。
所有最终确定的试题模板交付给专业编辑,由他们进行检查。这有助于发现其中的语法矛盾和其他文本设计的不合理,确保最终正式结果的质量。
经过实地测试,对试题回答数据进行广泛的分析。这些分析包括分析标准(试题适合性、试题区分度、试题难度、错误分析,能力和知识点双列相关分析,试题和国家相互影响等)。根据这些评判性的测量特征,确定实地测试题的比例,从而作为修订试题库的依据,而试题库将作为主要的研究来考虑。
在对选择的试题进行总体研究,以及对编码、质询等研究进行培训之后,试题就可以制定出来,最终就可以进行大规模的测试了。
参考文献
[1] OECD Assessing Scientific. PISA 2003 Technical Report. http://www.pisa.oecd.org/pages/.
(责任编辑刘永庆)