首页 -> 2007年第1期

辞书质量技术保障系统的研发与应用

作者:乐嘉民




  辞书的出版具有很多的特殊要求,除了政治性、思想性、知识性、学术性、艺术性要求,收词和条目的科学性这些质量指标外,还有辞书结构性方面的严格要求,相当量的工作还要放在参见系统落实、交叉条目的处理、专有名词等的审定及统一,以及词目表和索引等必备附件的制作上。编辑在加工稿件时,需要花费较多的精力来处理这些问题,并且由于受辞书出书周期的限制,以及人工复核的费时费力,往往有所疏漏。为了确保辞书出版的质量及进度要求,除了领导重视、编辑增强责任心外,还亟待以创新精神研发和应用辞书质量技术保障系统。
  辞书质量技术保障系统的核心,就是将书稿的电子文档或辞书排版的数字化文件,转换成相应的书稿数据库。这些数据库文件应达到数据交换平台的一致性、数据的规整性、非纯文本数据的可视性、数据的可检索性以及数据的可迁移性等方面的要求。关于数据的可检索性,至少应包含下列功能:
  (1)能对指定的字符串进行全文检索。用户可以根据需要选择某一个字段,输入关键词进行单项全文检索;也可以选择一个或两个字段进行“与”(AND)、“或”(OR)布尔检索。
  (2)检索结果能高亮显示。
  (3)能定位检索结果。检索第一个字符串后再检索另一个字符串,之后能重新定位到第一个字符串(直接定位,而非通过检索得到位置),然后再进行其他检索。
  (4)可同时打开多个浏览(检索)程序窗口,在任意窗口中都能进行全文检索和定位。
  (5)检索结果应能显示条目所在正文的校样中的页码。
  (6)检索结果可另存数据库文件和XML文件。
  (7)对需要“参见”、“见”、“即”、“详”等的条目自动建立超链接。
  此外,辞书质量技术保障系统还需要建立一些复核数据库,如历史纪年数据库,现代汉语异形词规范数据库,中国古今地名数据库,国名数据库,外国人人名数据库,机构、组织数据库,审定名词数据库,统一用语数据库,等等。
  利用辞书质量技术保障系统,编辑在处理书稿时既可以大大减轻复核工作量,又可以准确而毫不疏漏地进行核查工作。在上海辞书出版社,该系统投入应用的主要方面包括:参见系统,交叉处理,历史纪年,现代汉语异形词规范,中国古今地名,国名,外国人人名,机构、组织,审定名词,统一用语,词目表,索引等。以下就辞书质量技术保障系统的主要设计及使用简述如下。
  
  (一)关于参见系统
  
  参见系统是辞书的重要组成部分,利用参见系统可以减少不必要的释文重复,提高辞书的信息熵值。参见系统主要包括以下八个方面:主条和参见条、释文中带*号的词语需要参见他条、为补充释文信息量而需要参见他条、详细内容需要参见他条、有对称关系的条目、有从属关系的条目、同类条目和参见插图。在辞书编撰中,凡是需要参见的主条或是相对应的条目,都必须收入,而且还要有呼应,否则就是参见落空,而参见落空是典型的辞书质量事故。
  例如,参见条“围绝经期”的释文为:即“更年期”。也就是说,“围绝经期”是“更年期”的别称,它具体的释文可以查阅“更年期”条,因此在该辞书中就必须收入“更年期”主条。此外,书中除了必须收入“更年期”条及其所含的释文外,它的别称项中还要有“亦称‘围绝经期’”,以对参见条作出呼应。否则读者看了释文还是不明白,为何“围绝经期”就是“更年期”。
  过去,这项工作都是人工查核,编辑需要花费很多时间来翻查、核对,有时还会疏漏。现在,利用辞书质量技术保障系统数据库的超链接功能,凡见到:即“××”、见“××”、详“××”、与“××”相对、“××”的对称、参见“××”等,计算机就可以自动查核到“××”主条或相应的条目。编辑据此就可以识别,这些条目是否符合参见系统的质量要求,对没有收入的要补收条目,没有呼应的作出呼应处理。有些可以不用核查主条释文,也就是说,对不需要呼应的条目,如:参见“××”等,只要辞书中收入该被参见条即可,辞书质量技术保障系统就可以自动审核通过。同时,计算机会忠实地执行人的指令,依条查核,不会疏漏任何需要查核的条目。
  
  (二)关于交叉处理
  
  在新闻出版总署2004年公布的19种不合格辞书中,有不少辞书没有做交叉处理的工作。例如,在被查处的某会计类辞书中,出现了很多编排在不同分支学科下,但词目名相同,且释文内容也相同或相类似的条目,即同名同实的明交叉条目,有的甚至是四交叉。大家都知道,要编纂一部高质量的辞书,条目的交叉处理需要花费较多的时间和精力,但即使这样,还有可能会留下一些问题,给读者带来疑惑,给辞书质量留下隐患。尤其是对异名同实条的处理,难度更大。
  以前,对交叉条目的处理方法主要是通过自查、协查、编排等方法来进行。
  1.自查
  多用于中小型辞书。在以分支学科为单元的稿件中,审读者在审读每一条条目时,都要带着是否需要交叉处理的疑问,经常在其他分支学科的稿件中翻查可能需要交叉的条目,并将这类条目抽出后集中在一起进行交叉审读,然后再归入原位。
  2.协查
  多用于大中型辞书。由于大中型辞书篇幅大、审读者多,故在审稿初期,不可能将所有的稿件集中在少数审读者手中,因此,凡有疑问及想到的可能交叉的问题,主要是请别人协助查核,一般都填写“交叉条目通知单”。“交叉条目通知单”的项目包括本条词目名,作者(或编辑)名,可能与本条交叉的学科及词目名,需要交叉的问题等。这是大兵团作战,既费周折,又容易疏漏。
  3.通过编排查找
  专科辞典大多是按学科分类编排的,因此通过词目笔画索引等,可以找到同名同实的明交叉条目;而由于英译的关系,有些中文名不同而英文名却相同的词目,通过词目英汉对照索引还可以找到一些异名同实的暗交叉条目,但较多的异名同实条仍然难以找到。何况不少辞书中,并不设词目英汉对照索引,因此也就无法利用这种方法来查找了。
  这些方法虽然能解决一些问题,但需要耗费大量的时间和人力,而且由于编辑的责任心和能力的局限,还会留下质量隐患。
  现在,可以利用辞书质量技术保障系统数据库的超链接功能来处理交叉问题。例如,系统可以将同名条目自动地检索并进行列表,让编辑来识别这些条目是同名同实还是同名异实。如果是同名同实,就进行释文的归并和调整,并将一条作为正条,另一条作为参见条,分别归在两个专业;如果是同名异实,就仍然保留各自的释文,分列在两个专业中。
  再如,释文中凡有“亦称”、“全称”、“简称”、“俗称”或“旧称”等的别称介绍,利用全文检索功能,系统就会自动地将这条条目与书中收有此别称的条目进行超链接,编辑只要用鼠标点击该词目就可以同时看到该条目和收有条目中别称专条的释文(以“围绝经期”条目为例,参见图1)。如果没有诠释,只是作为参见条(如:即“××”),就可以通过核查;如果该别称具有完整的释文,而且与正条的相同或相类似,那就是异名同实的暗交叉条,就需要进行相应的处理。
  
  利用辞书质量技术保障系统,编辑可以方便自如地、基本不疏漏地解决这些交叉问题。此外,还可以很方便地对有对称关系的条目、有从属关系的条目、同类条目等成组相关条目进行释文及体例的检查、核对和处理,进行各专业条目数的统计及编排等。
  
  (三)关于审定名词
  
  按照图书质量的有关规定,凡是图书中涉及自然科学方面的名词,应使用自然科学名词审定委员会的审定名词。这方面的质量问题在较多的图书中均有存在。例如,有不少新出的图书中,有关化合物条目的学名中仍在使用一些已废弃不用的字,如“叉”、“撑”、“逐”、“替”、“芑”等,而这些字,早在1980年就已由全国自然科学名词审定委员会宣布废止不用,其中有的还是在1975年以前就已宣布不用。又如,一些已被全国自然科学名词审定委员会宣布不应使用的名词术语如“捏和机”(应为“捏合机”)、“容量分析”(应为“滴定分析”)、“矽肺”(应为“硅肺”)、“机能”(应为“功能”)、“比容”(应为“比体积”)等还经常出现在书中。为了避免产生这些问题,可以通过查阅有关的标准和资料,将那些已废弃不能使用的字和术语等,整理后录入复核数据库;也可以将资深编辑的经验积累,化作数字化资料录入复核数据库。通过计算机对辞书进行全文检索,并由编辑比对复核数据库识别、纠正。
  

[2]