首页 -> 2007年第7期

听障学生唇读语音识别编码方式的实验研究

作者:雷江华 熊 琪 张军华 梅艳红



  摘要 本研究探讨了听障学生唇读语音识别中不同编码方式和音素可见性的影响。结果表明,编码方式和音素识别可见性之交互作用在正确率和反应时上皆无显著差异,音素可见性在听障学生唇读语音识别过程中作用明显。听障学生运用三种编码方式唇读语音识别效果相当,但加工速度存在差异,差异主要来源于手指语编码与口型运动编码的识别。
  关键词 听障学生 唇读 语音识别 编码方式 音素
  分类号 G762
  
  1 引言
  
  唇读是指“聋人利用视觉信息,感知言语的一种特殊方式和技能,看话人通过观察说话人的口唇发音动作、肌肉活动及面部表情,形成连续的视知觉,并与头脑中储存的词语表象相比较和联系,进而理解说话者的内容。”[1]我国著名聋教育家洪雪立曾说过:“看话是通过观察说话时对方嘴巴的动作,来了解他说话的语言技能。它和人类的其它技能一样有它客观内在的规律。人们对它的认识、发现和利用是经过长时期的经验和逐步发展起来的。它不仅是聋哑儿童对人交际的最方便的方法和他们学习语言最基本的步骤,而且又是决定教师语言教学成败的关键。”[2]
  尽管相关的实验研究发现,听障学生能通过唇读进行语音识别且受到音素可见性程度的限制[3,4],但是对于听障学生如何运用头脑中储存的表象来进行唇读语音识别尚存歧见,其中主要有三种代表性的观点:(1)听障学生是利用语音编码来进行唇读语音识别的,他们的语音编码主要是视觉驱动的,即从视觉(唇读)输入获取语音代码[5],从而利用视觉口形运动形成的语音编码进行唇读汉字语音识别。(2)听障学生主要利用口形运动编码来进行唇读语音识别,Van Uden, Antoine M.指出,没有听觉参与的情况下,听觉障碍儿童的言语感知控制可能仅仅通过心理表象来进行,即聋童是通过口形的视觉表象来进行模型匹配以识别语音的[6]。张宁生指出:“字音对于听觉障碍儿童来说已非本来意义上的听觉刺激,通常他们不会有字音的听觉表象。对于字音的感知是利用视觉对老师读字时的口形的观察,以及用手去感知老师或自己读字时的声带振动、气流等。因此,字音已变成视——动觉刺激,字音在听觉障碍儿童头脑中的表象乃是视觉或动觉,或视——动觉联合的表象。此处动觉表象的成份包括用手触摸发音器官活动获得的振动觉和儿童自己发音动作的动觉反馈。”[7](3)听障学生运用了一个中间调节视听通道信息的一般表征,将视觉信息与听觉信息共同的特征联系起来,例如Massaro提出的感知模糊推理模型[8](Fuzzy Logic Model of Perception,简称FLMP)便是如此。据此,本文试图对听障学生运用语音编码、口形运动编码和手指语编码等三种编码方式唇读语音识别的效果进行比较研究,以明晰不同编码方式在听障学生唇读汉字语音识别中的作用。
  
  2 方法
  
  2.1 被试
  随机选取武汉某聋校听障学生20名作为被试。其中,男生6人,女生14人;年龄的平均数与标准差为16.55±2.31,听力损失程度为一级聋(大于90分的16人,听力损失为二级聋(听力损失介于70至90分贝之间)的4人。19名听障学生的家长听力正常,其中11名听障学生未接受早期学前口语训练,2名听障学生接受了1年的学前口语训练,4名听障学生接受了2年的学前口语训练,2名听障学生接受了3年学前口语训练;1名听障学生的家长听力损失,该听障学生未接受学前口语训练。20名被试中的18名听障学生在小学阶段皆就读于口语教学为主手语教学为辅的班级,其中1名被试现在就读于口语教学班为主手语教学为辅的班级,听力损失程度为一级聋,教师评价其看话能力好;17名被试现在就读于手语教学为主口语教学为辅的班级,其中一级聋的15人,二级聋的2人,教师评价其看话能力好的1人,看话能力一般的16人。20名被试中的另外2名听障学生在小学阶段接受的是普通学校的口语教学,现在就读于聋校的手语教学为主口语教学为辅的班级,听力损失程度为二级聋,教师评价其看话能力一般。被试智力正常,视力正常,除了听觉障碍以外无其它障碍。
  
  2.2 实验设计与材料
  采用2×3两因素被试内实验设计,其中编码方式有三个水平:口形运动编码、语音编码和手指语编码;音素水平:声母和单韵母。
  实验材料中的全部汉字选自全日制九年义务教育全国统编教材小学语文课本第1-2册和聋校第1-2册教材。实验材料分为两组:单韵母测试组和声母测试组。每组实验材料包括6个目标识别因素,每个目标识别音素提供6个单字识别口形。在目标因素中,目标单韵母中分别含有“/a/、/o/、/e/、/i/、/u/、/ü/”,目标声母中分别含有“/b/、/z/、/t/、/ch/、/q/、/k/”。实验材料的口形由一名普通话水平达到国家普通话甲级标准的女性教师通过朗读提供,经由索尼摄像机录制并剪辑而成。
  
  2.3 实验程序
  实验在586计算机上进行,实验程序采用AUTHORWARE软件编制而成。
  实验开始前,主试帮助被试打开测试软件,并帮助被试填写显示器中央要求被试填写的个人信息。个人信息填写完整并且正确,点击“确定”按钮,进入测试阶段。
  测试过程中测试材料以随机的方式呈现并施测。每组测试之前首先分别提供了指导语与示例操作,被试认真阅读指导语并确定已经掌握了操作规则后,进入练习阶段。练习熟练以后正式进入实验。例如,声母测试组的指导语为:请你注意看屏幕上左边讲话者所读汉字的口形,然后回答这个口形是否包含有屏幕上右边声母的发音,如果含有这个声母的发音,就用鼠标点击按钮“有”,如果没有这个声母的发音,就用鼠标点击按钮“无”。例如,现在给出的第一个汉字“普”的口形,其中含有声母“/p/”的发音,用鼠标点击按钮“有”即可;屏幕上显示的第二个汉字“不”的口形,其中不含有声母“/p/”口形,用鼠标点击按钮“无”即可。依此类推。
  测试结束后,计算机软件程序自动记录单韵母、声母识别的平均正确率与平均反应时,运用SPSS12.0软件系统进行统计分析。
  
  3 结果
  
  表1呈现了聋生在不同编码方式下唇读汉字口形识别单韵母、声母的平均正确率、反应时的平均数与标准差。
  
  3.1 三种不同编码方式唇读语音识别正确率结果分析
  听障学生运用三种编码方式唇读语音识别在正确率上的多元方差分析表明,编码方式与音素水平之间的交互作用不显著 (F (2,38) =1.968,P=0.154)(见图1)。编码方式之间的主效应不显著(F(2,38) =0.539, P=0.588);音素水平之间的主效应显著(F (1,19) =66.655, P=0.000)。
  
  3.2 三种不同编码方式唇读语音识别反应时结果分析
  听障学生运用三种不同编码方式唇读语音识别反应时的方差分析表明:编码方式与音素交互作用无显著差异(F (2,38) =0.180, P=0.836)。音素之间的主效应差异显著(F(1,19) =35.452,P=0.000)。编码方式之间的主效应作用显著(F (2,38) =4.453,P=0.018),通过事后检验发现,差异来源于手指语编码与口形运动编码的识别(F (1,19) =13.295, P=0.002),口形运动编码与语音编码、语音编码与手指语编码之间无显著差异(F (1,19) =0.744,P=0.399;F (1,19) =2.986, P=0.100 )。
  

[2]