首页 理论教育 汉语语料检索中正则表达式的应用

汉语语料检索中正则表达式的应用

时间:2022-04-07 理论教育 版权反馈
【摘要】:语言符号按先后关系有序排列,这种线性是语言的基本特征。本章探讨正则表达式在用于汉语语料检索时需要明确的问题,分析汉语元字符使用的特殊性并提出反映汉语词汇和语法特点的表达式编写方法,并以实例展示了正则表达式在汉语语料检索时的使用效果。本章探讨的是正则表达式在汉语检索上的用途,为语言和语言对比提供精确的提取和分析工具。

语言符号按先后关系有序排列,这种线性(linearity)是语言的基本特征。根据这一特征,我们可以使用各种型式(pattern)来匹配字符串或者有序排列的间隔字符。如果型式使用了元代码,并以公式的形式使用,那就是符合代码规则的表达形式,故称正则表达式(regular expression,常写作regex或regexp)。正则表达式广泛应用于编程时的文本编辑,或内嵌在许多脚本语言里。正则表达式能充分描述检索的条件,实现语言数据的多重条件检索和精确提取。本章探讨正则表达式在用于汉语语料检索时需要明确的问题,分析汉语元字符使用的特殊性并提出反映汉语词汇和语法特点的表达式编写方法,并以实例展示了正则表达式在汉语语料检索时的使用效果。

正则表达式可以用来执行多种语言计算工作,包括言语、音系和形态处理,还有句法分析。Ushioda et al.(1993)和Eckle-Kohler(1999)都使用过正则表达式(借助POS)来识别语言框架类型,或使用正则表达式识别线性语块型式(linear chunk patterns)。正则表达式在检索英语语料上的用途已有较详细的介绍,也有辅助编写程序(具体内容见梁茂成、李文中、许家金,2010:65 69)。本章探讨的是正则表达式在汉语检索上的用途,为语言和语言对比提供精确的提取和分析工具。目前,大多数在线语料库都不支持正则表达式检索,但一些语料检索软件如Antconc(单语、免费软件)和Paraconc(多语翻译语料对齐和检索、收费软件)允许使用正则表达式。限于篇幅,本章只谈在Antconc 3.2.2w中使用正则表达式检索汉语的问题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈