首页 -> 2008年第1期

我国第一个“法律语言语料库”的建设及其思考

作者:宋北平

的部门法属性,或实体法与程序法属性,似属多余,因为它们已经在库内划分为不同的库区,在检索栏目完全体现出来了;如果标注语料是否符合法律语言规范,虽然很有意义,但尚未研究出是否规范的结果前是不可能标注出来的。在对标注的内容没有研究清楚之前,研究如何标注未免过于超前。既然现行其它语料库的为语言学研究而进行的分析、标注由于几乎无益于法律研究而最终将被从法律的角度进行的分析、标注所取代,因此,本语料库在没有研究出如何从服务于法律实践的目的出发进行分析、标注的情况下,宁愿不予标注,任其成为生语料库。
  
  2.5 语料库的检索设计
  本库的检索设计从语言和法律两方面考虑。由于利用语料库研究法律,首先且必须通过语言进行,所以,本库首先考虑如何从语言层面进行检索。
  2.5.1 语言层面的检索设计
  1)词在法律语言研究中,基本单位不是字而是词。词组是词的延伸。与词即可设置同样的检索模式。
  2)单句。句子可以认为是表达完整意义的语言单位,在法律语言中,句子的作用显得尤为重要,所以。句子也被设计为检索单位。由于计算机对句子的识别不可能从意义上进行,所以,句子的检索只能以句号为标志。即一个句号包括的文字即为一个句子检索单位,而不论其为什么性质、意义的句子。
  3)复句和多句。鉴于单句和复句在表达意义上的差别,而且一个句子的意义难免受到前后句子意义的影响,因而在研究本句的时候,往往需要研究其前后的句子,所以,以本句为中心,还设计了可以分别检索其前后一句、二句和三句的三种模式。这种模式还可以满足研究复句的需要。
  4)意群和段落。由于不少的情况下,三个句号未必能够覆盖一个意群,而段落也不乏研究的需要,所以也设计了段落为检索单位的模式,将意群的检索包含其中了。
  5)篇章。由于篇章也同样可能需要研究,所以设计了以整篇文件为检索单位的模式。
  2.5.2 法律层面的检索设计
  1)部门法。部门法究竟如何划分,法学界本来就有争论。通常是分得越细争论越大。例如,商法独立为一个部门法还是包含在民法内更恰当,至今争论不休。为了避免这些争论,也为了划分库区时对有些语料难以分别的问题,在划分部门法时采取了“宜粗不宜细”的原则,适用“四分法”,即“刑事”、“民事”、“行政”、“国际”四个部门法。宪法包含在行政法中,商法包含在民法中,计分四个子库。由于汉语、外语法律语言之间转换最频繁是英汉之间,所以特设了“英语法律语言语料子库”,与四个部门法子库并列,便于法律研究中比较、参照和借鉴。
  2)效力级别。为了能够比较研究不同效力层级之间的法律语言,或同一层级之间的法律语言,因而按照法律的效力级别不同而设计了检索模式。由于不同效力级别和同级别的法律语言分别属于“纵”“横”两种空间,因而不能并置于同一个库区之内,所以,二者不能同时检索,必须前后分别检索。这种模式必须在“部门法模式”展开后才能执行。
  3)时代特征。为了研究法律语言在不同时代的特征。以及先后年代的因革损益关系,因而设计了按年代检索的模式。该模式可在“部门法模式”或“效力层级模式”展开后执行。
  
  3.法律语言语料库的意义与价值
  
  3.1 促使法律界对法律语言的研究树立信心
  我国传统的语言学研究方法,大概可分为两种。其一是“主观”的方法:研究者通过内心的“自省”而“制造”出例句——当然,这种制造是研究者在对语言生活观察、比较的基础上进行,然后对其进行分析、研究。其二是“客观”的方法:收集语言生活中的实例——法律语言研究者则提出法律实践中的例句,进行分析研究。法律界对第一种方法的怀疑是:法律实践中的语言是这样的吗?对第二种方法的怀疑是:研究者的有限例句能代表法律实际中所有同样的情形吗?
  由于语料库提供的实例全部是法律实践中真实语言材料的复现,尤其是,就全国有效的法律语料而言,本库穷尽了一个研究样例的全部同样的语言材料,没有遗漏的可能,而这一部分恰恰又是法律语言的核心内容,因而,法律界对这种语料库语言学的研究方法不会也没有理由和必要质疑。可以认为,法律语料库能够成为法律界对法律语言研究树立信心的物质基础。
  
  3.2 彻底解决法律语言研究的瓶颈
  发端于语言学界的法律语言研究,进入本世纪以来。不仅出现廖美珍这样的已经深刻地认识到了法律语言研究对法律意义,因而深入中美两国法庭采集鲜活语料的语言学者,更有少数具有语言学背景而从事法律职业的研究者,进入到这个领域,认同、支持法律语言的研究是通过剖析语言解决法律问题的思想。更警醒人的是,经常就我国语言文字方面与外国对话的教育部语言司司长、著名语言学家李宇明教授明确指出:法律问题其实就是语言问题!学界在这些认识趋同的时候,却猛然发现,我国语言学界传统的以卡片记录材料的研究手段无法满足法律语言研究的需要,国内几个单位借鉴欧美经验已经建成的通用语料库,对法律语言的研究几乎没有帮助。电子数据的法律语料库的缺失,成为制约我国法律语言研究的瓶颈。
  
  3.3法律语言规范化研究必不可少的工具
  法律语言规范化的路径,第一步是建立标准的、规范的“法律语言库”,以“词”为基本元素,以“句子”为基本单位,使用者可以便捷地查出其需要的规范的法律语言材料,分辨出不规范的材料;第二步是研究出标准的“法律语言语法规则”,法律语言的使用者,以该规则为框架,以规范的语言库中的语言为材料,就可以构筑规范的法律语言。
  然而,无论是法律语言库的研究,还是法律语言语法规则的研究,如果没有法律语料库为基础,都不可能进行全面的比较研究。以点代面,没有全面占有材料,这种本身就“不规范”的研究方法,便不可能得出某个法律语言的“元素”或“单位”是否规范的结论。因此,没有法律语料库,要进行法律语言规范化研究,是难以想象的。
  
  3.4 为法律实务界、法学界、语言学界和法律语言学界共同研究法律语言提供了一个交流、对话的平台
  正如专家们一致认为的,虽然本库语料庞大,内容丰富,但仅仅做了基本的加工,也可认为是生语料库。要想本库发挥更强大的功能,就需要进一步的分析、标注。虽然可以肯定的是,现在通用语料库的加工方法基本不适用于法律语料库,但法律语料库的加工技术却离不开语言学界现有的技术基础。而究竟如何分析、标注,才能很好地服务于法律语言的研究需求,需要法律实务界、法学界和法律语言学界的共同研究和探讨。本语料库至少为以上四个学界的专家提供了一个共同研究的结合点。

[1] [2]