首页 -> 2007年第3期
计算机自适应考试及题库建设
作者:李向民
随着认知科学、语言测试理论的发展以及测试手段和方式的不断更新,现代语言测试已经从过去对测试结果的关注逐渐深入到测试的过程,测试的结果应该能够反映出测试者之间细微的个体差异。计算机化考试,包括正在进行中的美国ETS组织的托福和GRE计算机化考试(CBT—Computer-based Test),也正是在利用先进的技术手段,使大规模的测试更加科学规范,更具有效率。从理论发展来看,计算机考试经历了以下几个过程。
1.认知心理学对传统测试理论的重新认识。随着英语教学及认知心理学研究的深入与发展,传统的测试理论也表现出它们的局限性。传统的测试主要是以取得考试成绩为目标,它感兴趣的是每一个考生的行为,也被称为教育心理测量模型。经典测试理论、单参数Rasch模型以及项目反应理论(IRT-Item Response Theory)都属于教育心理测量模型。这个模型主要是用来确定一个考生在量表中特定的位置,以考查考生是否完成特定的教学要求或达到一定的专业水平。斯诺认为,这种模型的主要问题在于:第一,测试的项目不一定在心理上站得住脚,一个模型的好坏主要看它能否很好地描述某种实验性数据,而不是看它是否符合心理的合格性。第二,这些模型的一些假设,如项目的局部独立性,项目难度的单维性和认知心理学的实验结果不一致。第三,这些模型把项目和分数看成是不可企及的“黑箱”,因此一个考试是否考了它要考的内容,即考试是否有效,成了需要反复论证的问题。
认知信息模型(CIP—Cognitive Information Processing Model)试图解释人类认知系统的内部机制,以图打破心理测量模型的黑箱。CIP模型具有以下特点:第一,了解对项目作出反应的过程,而不仅仅限于反应结果本身。第二,CIP模型测得的分数应反映出考生的处理技能、策略、知识结构以及反应时间,因此,对于CIP模型来言,一个分数所对应的是一个或几个不同的能力。第三,CIP模型复杂程度不一,简单的模型只有一两个反映不同处理阶段的功能参数。复杂的模型是一些用来分析更为复杂过程的数学模型,实际上是一种计算机模拟。
2.计算机考试的依据——项目反应理论的发展。项目反应理论(IRT—Item Response Theory)是对传统测试理论的发展,它被广泛地用来分析在测试中得到的题目反应数据,将题目放在同一个量表上,这样题目便不会因难度不同和考生不同而受到影响。
经典测试理论一般把测试中回答正确的题目数量当作测试分数,而这种测试分数应当可以没有误差地评估学生的能力。这种不可观察到的能力被称作学生的真分数。经典测试理论一般被用在传统的测试形式下,即所有学生参加相同的测试形式,或是参加近似的测试形式。它的局限性主要表现在以下几个方面:首先,因为其描述题目的统计数字取决于采用这些题目的学生群体状况,并且描述学生成绩的测试分数取决于学生得到的题目的状况,因此,经典测试理论不能提供一个模型来表明单个学生在单个问题上的具体表现。其次,经典测试理论认为,测量的误差对所有学生来讲都是同样可变的。
项目反应理论是通过一系列的数学模型来描述在什么样的概率上对一个题目将会出现某个特殊的水平的反应。它有三种基本形式:三参数逻辑斯特(3PL)模型,双参数逻辑斯特(2PL)模型,单参数逻辑斯特(1PL)模型。分别适用于不同考生参加的考试。三参数逻辑斯特模型要求测试者在一千人以上。双参数逻辑斯特模型要求有两百到四百位测试者,而单参数逻辑斯特模型只要求有一、两百位考生便可进行。通过对题目难度、能力量度及其标准误差的计算,可以算出所有能力不同的考生答对不同难度的题目的概率,也可以预测能力不同的考生答对题目的可能性。
3.计算机自适应考试的运作模式。计算机化的自适应考试(CAT—Computer Adaptive Test)应用一种特定的题目选择系统从计算机化的自适应考试题库中提取考题。这样,每一个考生的考题都会与他人有所不同。在考生答完题后,发给考生的题目被立即评判,以确认并且重新修正考生的能力。根据修正后的对学生水平和能力的评估,计算机自适应考试的题目选择规则系统所选择的下一个题目将更符合考生的水平。(如图示)
计算机化自适应考试题目选择规则系统
在处理考生题目以确定考生水平的过程中,项目反应理论的运算程序被编入计算机程序。运用此程序,考生的能力被按不同的层次精确地测量出来,然后提供给考生的下一个题目将会是难度相当也即与其水平相适应的题目。这么复杂的程序运算过程只有计算机才能完成。由于提供给考生的项目难度与之水平相适应,达到测试目的所需要的题目数量和考生完成测试所需的时间都会大大减少。
计算机自适应考试还具有一些其他优势,如能力不同的考生在测试过程中虽然在测试中完成的题目有所不同,但他们的能力具有可比性。其次,测试的公平性能够较好地体现出来,因为每个考生在测试中所遇到的项目不同,可大幅减少测试过程中的作弊行为。
二、计算机化考试的优势
1.更高效率。计算机化考试可使用先进的测试模式,如自适应考试,使测试更有效。使用这种模式进行测试,能够使考试形式更加灵活,时间更短,效率更高。
2.更具个性化和人性化。计算机化考试能使考生的考试日程安排更灵活。与群体测试不同,计算机化考试是个体化考试。因此,每个考生可以自由地预约考试时间,更具个性化和人性化。
3.更便于组织和协调。由于采用电子方式传输材料,分发材料所需的人力减少,或者说有了一个更直接的传输通道,因此,更加便于组织和协调。
4.结果更具有信度和效度。计算机化考试使我们能够设计出更复杂、更真实的测量方法,测量考生的学习效果与能力。
计算机化考试的这些优势,使其能够灵活地反映当代英语教学的新特点。
20世纪七八十年代,西方的外语教学逐渐由语法翻译法、听说法等传统的教学方法向交际法转变。英国专家威尔金斯提出了从功能和意念角度给语言下定义,并讨论制定一个交际性教学大纲。威尔金斯分析了学习者语言交际所需理解和表达的意义,把它分为两类,即意念层次的意义和交际功能层次的意义。威尔金斯的观点和见解见1976年出版的《意念大纲》。其后,不少语言学家发表文章和专著研究交际法。交际法的目的在于培养学生的交际能力,要求学生不但要掌握语言结构,而且要懂得在适当的社会场合使用这些结构和应用语言。在课堂上,老师应设计出交际场景,指导学生在交际中灵活学习使用语言。对课堂教学的评估分为两种:非正式性评估,老师提出建议和指导,让学生进行交流、形式不拘;正式性评估一般要求尽量创造一个真实的交际环境,采取交互式的测试方式。因此,计算机化考试更能全面地反映和体现交际法教学的特点和结果。
三、计算机化考试的原则
1.体现科学性的原则。题库的建设必须有相关的合理的理论依据为指导,才能体现它的科学性。经典测试理论是计算机化测试的基础和出发点,而自适应测试为计算机化测试提供了更加易于操作的规范。因此,在题库的框架设计之初,就应该体现这种原则,为以后的试题归档、模拟测试、修改和应用打下良好的基础,保证题库的质量。
2.体现综合性的原则。计算机化题库的建立和应用,涉及到软件的研发,试题的筛选,考试的模拟、调整,考生的组织等程序,需要大量的人力物力投入,因此,充分发挥计算机化考试的作用,最大限度地满足各种考试、各种层次的考生的需要,充分利用和发挥计算机化考试的优势,是一个从一开始就要全面考虑的问题,如果没有考虑到这种多样化、分层次的需要,就不能充分发挥其作用,计算机化考试的优势也难以发挥。
3.体现实用性原则。计算机化测试题库应该包括测试应试者的语言知识和语言能力两个方面。语言知识主要包括语音、词汇、语法等方面的知识;语言能力主要指听、说、读、写、译等技能。这两部分的结果应该是对测试者的水平的全面考查和分析结果。英语测试应该针对不同的学生和不同的内容,全面地、客观地反映出学生的真实状况。
通过对计算机化考试的理论分析,我们可以看到,现代语言测试的重点已经转向对被测试者个体交际能力的评估上来。这也与现代外语教学强调学生自主式学习、交际能力的培养相适应。因此,计算机化考试和题库建设也应着眼于针对学生个体能力的真实反映上来,以便能够适应这种趋势,利用现代化的手段分析考生对题目的反应,使测试更加科学和公平,具有更高的信度和效度。
(责任编辑 关燕云)