再谈我们自己收集材料所进行的实证性研究。我同吴一安教授主持过两项全国性的调查,一项是1987年的“全国英语教育抽样调查”(以下简称“抽样调查”),另一项是1990年的“全国英语本科学生素质调查”(以下简称“素质调查”),两个调查报告均获得了优秀科研成果奖,后结集为《中国英语教育研究》,于2000年由外语教学与研究出版社出版。这两个项目所涉及的被试师生之多、覆盖地域之广、研究变量之复杂,在世界外语教学界恐怕也是位居前列的。这么宏大的项目之所以能做成,原因之一是有原国家教育委员会(现为教育部)的支持:我们拿着“上方宝剑”(国家教委的红头文件)到全国各地,所以得到了各校的配合。当时的国家教委(现为教育部)高教司司长蒋妙瑞和外语处处长杨勋很有科研意识和前瞻眼光,亲自过问了抽样调查,结项时来听了调查报告。素质调查得到了英国文化委员会的资助和技术支持。当时的主任官员Ian Seaton十分重视科研,看到了这个项目的潜在意义,还为此决定派我到英国去考察3个月。他的关照给我很大的信心。但是即便如此,我们在项目的实施过程中仍然遇到了不少意想不到的困难。例如,我们要抽某学校的35名学生参加13项测试,为期5天。系主任却对我们说,抽人可以,但不能打乱正常的教学秩序,考试一律在晚上进行。我们解释说,每一门测试都是在全国统一时间进行的,出现时间差异恐怕会漏题。再说,其他学校都是早晨8点进行测试,你们晚上8点进行,将来如果分数出现很大差异,你们自己负责。经过交涉,英语系同意了,但他们管不了马列主义课程和其他公共课,所以我们又不得不把教务长请来。教务长说,其他课都好说,马列主义课雷打不动。我们又宣讲了一遍此次研究的重要性,以及保证高质量数据的必要性。尽管我们费尽唇舌,教务长仍然表示自己不能做主不让学生上马列主义课。最后,我们不得不把校长请出来。这一次,我们没费太多唇舌,校长当场拍板,35名学生首先保证参加我们的测试,落掉什么课,以后再抽时间补上。再如,我们每到一个学校都是按计划好的人数比例在系里的学生名单上随机抽样,因为只有经过随机抽样得到的被试群体才具有广泛的代表性。而在某所学校,系领导为了表现一下自己学校的水平,硬要把他们挑选出来的优秀学生塞给我们。我们又得从科研的客观性、真实性、代表性、严肃性讲起,耐心说服系里的领导,最后他们高高兴兴地按我们随机抽样的名单进行了测试。坚持科研的公认原则是保证科研质量的关键。我们在本校抽样时,随机抽到了一个两个月没有上课的学生。班主任再三向我们说明情况,强烈要求免除该学生的被试资格。我们明明知道,一个落后的学生可以把北外的平均分数拉低好几分。但是我们坚持认为,科研就是科研,因此最终也没有调换自己学校的被试。在说服各系领导配合我们实施科研项目时,我们无形中宣传了科研的原则与思想,其实就是普及了科研的基本知识。同时,在多次面临这样的选择时,我们都坚持了科研规范,使我们能够问心无愧地面对最后的数据。
这两项大调查的特点是被试人数多,变量多,为时较长,参加者是一个有组织的团队。学习一门外语所涉及的因素和变量是很多的。如果说第一次的抽样调查关心的是外部学习环境的话,第二次的素质调查则关心的是学习者的内部因素。因为所涉及的因素众多,对研究队伍提出了较高的要求。首先,这个研究小组的知识结构要合理。比如,要有人熟悉总体设计;要有人确定所调查的变量,而且这些变量的测量工具也需要有人来设计,实施预测并进行修改;要有专人负责实施细节;要有人会使用统计软件处理数据;最后,还要有人写调查报告。我们那个科研小组有懂理论语言学的,有懂应用语言学的,有熟悉科研方法的,有擅长语言测试的,还有人会计算机。我们当时感觉比较弱的是心理测试、人格测试和语言学能(language aptitude)测试。这些方面的知识我们只好从头学起。一方面我们派人到北京师范大学心理所学人格测试和心理测试,另一方面我还专门去英国学习了3个月,求教于几位研究个体差异(individual difference)和语言测试的专家,并将我们的设想讲给他们听,征求他们的意见。最后,我们确定有4种测量工具是我们无法设计,必须要买现成的,它们分别是:智力测验、16种人格特征测验、镶嵌图形测验和语言学能测验。在最后的统计阶段,我们也遇到不少困难,特别是在多元回归分析方面。所幸的是,Seaton先生给我们请来了著名的统计学家东尼·伍兹和测试专家阿瑟·休斯,保证了我们的数据分析质量。这个研究小组在完成这两个项目的过程中得到了极大的锻炼,从中学到的东西为我们终生受用。直到现在,每当回忆起那几年所走过的艰苦道路时,都非常留恋那个小组的团队精神,为科研的奉献精神,不为名不为利的纯朴作风,干活时一丝不苟的那种书生意气。我们之间也有过不同意见,也有过争论,但是没有人记仇,更没有因为争论而影响工作。当年参加过这个项目的学生中,现在有不少已经当了老师。他们常有人告诉我,他们后来对科研的兴趣,都与参与那个项目的经历有关。可见,那个项目在一些学生的心里播下了科研的种子。
大型实证性研究设计起来很需要工夫。上面提到的两项大调查,从方案的初稿到定稿,不知道经过了多少次的修改。其中,关键的有两条:一是确认要调查的变量;二是设计或找到测量这些变量的可靠工具。确认变量需要读大量的文献,因为只有找准变量,研究变量之间的关系才有意义。例如,在全国英语教育调查中,我们确定了7个变量;教师队伍素质、课程教学质量、学生水平测试成绩、教学管理水平、图书资料和电教设备、科研情况和毕业生质量。即使在今天看来,这7个变量也算是找得比较准的。然而,我们最初的理想没有能够完全实现。由于追踪毕业生的工作情况实在是费时费力,又不能得到用人单位的完全配合,所以在项目的实施过程中,我们不得不放弃毕业生质量这两个变量。剩下的几个大的变量,要分解为具体指标才能操作。例如,教师队伍素质就被分解为年龄结构、职称结构、学历结构、专业结构和外籍教师聘用情况等5个方面。水平测试成绩一项只包括一次笔试(词汇、语法、阅读和写作),在当时是没有办法的选择。虽然我们清楚地知道语言水平(proficiency)一定要包括听、说、读、写等多项技能,而且测试题目应尽量接近生活中的语言使用的情形,但由于时间和经费的限制,我们却不得不放弃了听力和口语测试。除了测试和调查问卷等工具外,我们还召开了多次教师和学生的座谈会。这部分定性分析的材料十分宝贵,因为我们听到不少肺腑之言。由于我们是带着“上方宝剑”去调查的,有些边远地区的师生把我们当成了“中央派来的大干部”,以为他们反映的情况可以“直通中央”。座谈会上所表现出来的事业心、进取心、责任心和求知欲给我们调查小组的成员上了生动的一课。相比之下,素质调查的设计要复杂得多。我们总共研究了18个变量和13种因素。独立变量17个,其中有3个认知变量、5种人格特征、5个社会心理变量和4种语言学习策略。在13种因素中,有3种是关于调查对象的人口统计学特征的,5种是有关其教育背景的,还有5种是关于其家庭背景的。应该说,这个设计稍微“野心勃勃”了一点。但是,这是我们在参考了众多学习者的个性差异研究之后筛选出来的变量和因素。有关这些变量对外语学习成绩的影响,国外的调查众说纷纭,我们很想验证一下它们对中国人英语学习的影响,因此,一个都不愿意放弃。我们为此付出了艰苦的努力,当然也得到了令人满意的调查结果。应该说,所有付出都是值得的。
关于工具的设计,我想特别强调的是,测量工具的可靠性决定着数据的可靠性,也就决定着结论的信度。这里,我想谈三点体会。第一,不要想当然地认为,自己的测量工具都是可靠的。在素质调查中,我们的“阅读理解测试”就经过了多次修改。在此之前,我们以为,设计阅读测试是我们的强项。然而,出乎我们意料的是,阅读测试的第一稿和第二稿在测试之后却表现出很低的信度和效度。原本认为最难设计的口语测试,却从一开始就比较令人满意。第二,自己设计的工具一定要事先试用,算出数据,加以修改。必要时,要再次试用或多次试用,最后达到令人满意的程度,方可用于主体研究。像16PF这样的人格特征测试,是许多专家经过多年的研究而逐渐发展成形的。我们自己设计一种测量工具,只试用几次就正式使用,本来就已经够大胆的了。千万不要再嫌麻烦,草草设计一份问卷就以为大事大吉了。只要你试用一次,把得到的结果逐项解释一遍,你就会发现,某项的回答不是你所希望的,某项的回答无法解释或属多余信息等诸如此类的问题。当然,试用之前,请一位懂行的专家帮忙看一遍,也是十分有益的。第三,对于那些自己不能设计的工具,可以去买现成的,然后再学会使用,学会解释结果,并负责保密。显然,并非所有的测量工具我们都能自己设计。像社会心理测试和语言学能测试都是很难自行开发的,因此只能“借用”。当然在借用时,要特别注意该工具是否适合自己的被试群体。例如,在素质调查中测量智力时,我们曾用过Wechsler的“成人智力测试”(WAIS),但是在试测时却发现此测试过于简单,不适合我们的被试群体,因而在正式调查中,我们放弃了该测试,只用了Raven的“标准推理测试”(SPM)。再比如,在语言学能测试中,我们采用了Carroll的“现代语言学能测试”(MLAT)。但因为它是英文版,其可靠性不免受被试英语水平的影响;熟练掌握英语的人,其MLAT得分自然会高(假设其他条件相同),但他的英语学能未必很高。反之亦然。出于上述原因,我们预料到,MLAT得分与英语学习成绩的相关系数比实际情况要高一些,所以在解释测试结果时我们必须要持审慎态度。