首页 -> 2007年第2期

运用语音识别技术干预写作困难学生的研究

作者:胡来林



  摘要 在美国,从语音识别技术的模拟系统LWP开始,到真正的语音识别系统,研究者都对其辅助写作困难学生写作的有效性进行了研究。结果表明:用LWP技术支持写作困难学生口述作文,明显优于传统的口述和笔述方式;而用语音识别技术来辅助学习困难学生口述作文,由于受技术的限制,其有效性并不十分确定。但随着技术的进步,语音识别系统完全可以成为辅助写作困难学生口述作文的技术工具。美国这方面的研究成果,非常值得我们借鉴。
  关键词 语音识别 干预 写作困难学生
  分类号 B842.3
  
  1 引言
  
  写作困难(Writing Disabilities,WD)是学习困难(Learning Disabilities,LD)学生的主要表现之一[1]。由于写作困难的复杂性,至今写作困难没有严格的定义,因此,对写作困难儿童的界定,往往根据伯瑞托和斯卡达玛利亚(Bereiter&Scardamalia)儿童写作模型中构思、转译和修改三个环节中的表现来确定。与正常学生相比,写作困难学生表现为[2]:很少有构思或计划活动,存在产生与组织观念方面的困难;在转译过程中,存在表达观念上的困难,他们写的内容非常少。同时,受转译过程中诸多机械要求(书写、标点、语法)的影响,使其所写文章包含较多书写、标点错误,手写字迹潦草,用词缺乏变化,句子结构较简单,不连贯等;在文章修改阶段,他们主要是修改一些表面的错误(如标点、错字等),较少做内容结构层面的修改。另外,写作困难学生还有一种惧怕写作的心理,他们通常对写作缺乏兴趣。
  当学生有写作困难时,很可能会引发其它学业的失败。因而,国内外心理与教育学者都十分注重该问题的研究,提出了多种解决策略。其中,口语与书面语言优势互借策略被认为是对低年级和写作困难学生较为有效的一种策略[3]。因为这种策略,一方面可以帮助学生绕过写作过程中低水平加工的困难;另一方面,学生在写作过程中可以充分利用作文的外部视觉特征,即作文的上下文情境。口语与书面语言优势互借策略在实施上有多种方式:口述后笔述、向成人口述、录音口述与回放笔述、LWP(Listening Word Processor,听词加工器或模拟声音识别系统)等方式。九十年代以来,随着多媒体和人工智能技术的迅速发展,国外,尤其是美国,出现了语音识别技术支持下的口述作文方式的研究,并取得了积极的成果[4]。但目前这方面的研究,在我国还是空白,因此,本文将对这种新的口述作文方式的发展状况和研究成果做一个梳理,以期对我国开展此项研究提供借鉴。
  
  2 LWP系统对写作困难学生口述作文的支持
  
  在真正的语音识别系统出现之前,研究者们就已经创造出了一种模拟的语音识别系统,即LWP系统。LWP系统实际上是一种实验装置,使用方法是:学生和打字员用纸板隔开,由学生口述,打字员输入,学生通过看屏幕上的内容来了解已经说过的话[5]。利用LWP进行口述作文,既能充分发挥口述的好处,又能享有笔述优势。
  作文心理学研究表明,口述作文虽然具有信息量较多,可以绕过作文低水平加工这一优势,但却缺乏笔述写作方式的严谨性、条理性和表达的细腻性等。为了充分发挥口述与笔述的各自的优势,许多研究者做了大量的实验,其中,莱威与兰斯代尔(Levy &Ransdell)非常成功地在有关口述作文的实验中,使用了LWP系统[6]。在莱威与兰斯代尔集中做的五个关于口语与书面语互借的系列实验中,实验三和四是关于年轻作者用LWP的实验。这两个实验基本相同,只是被试不同,实验三用的是正常能力的学生30名,而实验四用的是写作困难的学生15名。该实验假设认为:LWP能给年轻者提供一个具有口述与笔述两者优势的作文方式,这些优势会导致作文质量的改善;LWP的优势在低水平写作者(低年级学生和写作困难学生)中会表现更为突出。理由是,使用LWP系统后,学生就不会被笔述中的低水平加工和口述中的经常监控作文进展的需要所困扰,就可以提供较多的工作记忆空间给高水平加工,而这一点,对低水平作者来说,作用会更为显著。
  实验三和实验四的方法是:实验前要求被试先接受一对一的训练(口述、LWP),让他们熟悉作文设计,然后要求每名学生写三篇作文,即笔述方式、口述方式和LWP方式。实验所得的结论是:LWP作文优于其他两种形式的作文,特别是对写作困难学生有特殊的好处,口述优于笔述,LWP优于口述。用LWP模式产生的口述作文更加接近于手写的作文;与口述作文相比,手写和LWP条件下写成的作文长度要短一些但质量更高。原因是:由于LWP借助了笔述的优势,给作者提供了文章的可视记录,作者就不再需要集中工作记忆去保持作文进展表征的形式,而口述又能绕过作文的低水平加工的需要,所以他们能把注意力转移到高水平加工上去。
  莱威与兰斯代尔所做的实验五是前计划加LWP对年轻人的效应。其研究假设是,如果将计划性口述与LWP两个具有显著优势的作文策略合二为一,就会产生优势相加的效果。从而使前计划加LWP成为优于计划性口述与LWP的最好的作文方式。实验结果显示:计划性口述,LWP与计划加LWP三者效果一样好,即实验五中的假设并没有得到证实。分析其原因:一是认为可能LWP已经达到了最高层次,再加上什么也不会更好了,这种解释显然不太让人满意;另一种解释是,如果写作时既具有外部视觉表征又无需注意低水平加工,即认知负荷的两个源头均被减轻,就像LWP能提供的,这时,前创作计划的优势就可能会被文章创作方式本身提供的优势所掩盖。
  上述三个实验清楚地表明:LWP支持下的作文方式优于口述和笔述两种形式的作文,特别是对写作困难生有特殊好处。但LWP支持下的作文方式存在的缺陷也是十分明显的,就是在学生写作时需要有专门的打字员来输入,这显然效率太低,应用很困难。
  
  3 语音识别技术对写作困难学生口述作文的支持
  
  自二十世纪五十年代以来,随着多媒体技术的迅速发展和人工智能技术的进步,真正的语音识别系统得以实现。语音识别技术(Voice Recognition)就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,转换后的文本可以直接显示在屏幕上,并可被字处理软件编辑[7]。语音识别过程包括:预处理、特征提取、训练部分、模式库、模式匹配五个关键部分。其中,预处理部分包括语音信号的采样、去除设备、环境引起的噪声影响等,并涉及语音识别基元(语音识别基元是指能够辨别出来的最小语音单位,一般指音节。)的选择和端点检测等关键性问题;特征提取是模式识别的关键,其作用是从语音信号波形中提取一组或几组能够描述语音信号特征的参数;训练部分和模式库部分是一个不可分割的整体,训练是建立模式库的必备过程,在识别之前进行,通常是让不同类型的讲话人多次重复相同的语音发音,系统从这些原始的语音样本中去除冗余,保留关键数据并按一定规则对数据加以分类,从而形成作为语音识别判断标准的语意等;模式匹配部分是整个系统的核心,其作用是根据语音按照相应的准则求取待测语音特征参数和语音信息与模式库中相应模板之间的测度,从而形成系统认为最佳的识别输出。语音识别系统支持下的口述作文,只要对着计算机话筒口述,就可以实时地将写作者的语言转换成屏幕上可编辑的文字。因此,语音识别技术可以充分结合口述与笔述的各自优势来进行写作。
  

[2] [3]