首页 理论教育 检索系统支持的历时平行语料检索方式

检索系统支持的历时平行语料检索方式

时间:2022-04-07 理论教育 版权反馈
【摘要】:为提高检索的效率和针对性,本检索系统充分利用篇头元数据和元字符,实现了中英文多重复合检索。功能区中的前两行为检索条件对话框。这些设置可满足不同的检索要求和研究需要。“词性”是指可选择显示英汉语语料的词性标注信息,缺省状态下不显示词性。正则表达式检索英汉翻译历时语料库在线检索系统使用的元字符基于Oracle数据库提供的元字符。

为提高检索的效率和针对性,本检索系统充分利用篇头元数据和元字符,实现了中英文多重复合检索。在利用篇头方面,主要涉及文本的属性、著译者和时间信息,这样就能有效地将语料文本中的篇头信息用作检索条件。功能区中的前两行为检索条件对话框。缺省状态下满足所有隐藏的检索条件,如文类包含文学和非文学。如果选择文学,则可以选择更多的限制条件如文体和体裁。

2.4.1 灵活确定时段

空白状态下,时段处于缺省状态,包含1910至2010年的全部年份。如果检索某个时间段的语料,直接在对话框中填入四位数的年份即可,从左往右填写时段。如:

需注意,如果只检索某一年份的语料,则需要重复年份,如检索1921年的语料时按下面的方式填写:

2.4.2 多重检索条件的使用:语言特征信息

本检索平台为双语语料的检索提供了精确检索、双语对齐信息和比较灵活的语料呈现方式。这些设置可满足不同的检索要求和研究需要。详细内容如下:

“英文”和“中文”字符右边的对话框是要搜索的关键词,人工键入。

“区分大小写”功能只对英语有效。

“对齐”是指对齐单位的大小,缺省状态下选择“句级”;如果需要更大的语境,可以点选“段级”。“句级”是指最小的对齐单位,主要是句对句,故名“句级”。但也可以是多个句子对应多个句子。

“词性”是指可选择显示英汉语语料的词性标注信息,缺省状态下不显示词性。

“来源”指可以选择显示源文的标题和作者,以及译文的标题和译者,缺省状态下不显示这些信息。

“显示数量”指当前屏幕显示的条数,缺省状态下100条。如果一个索引行中关键词出现多次,呈现的索引条数会相应减少。比如,若we的检索结果是2条,但we在一个索引行中出现2次,则索引条数为1。尽管如此,这种呈现并不影响统计结果。

2.4.3 数据显示

为满足研究需要,检索平台使用篇头元数据中的<SIZE>,计算并显示符合前两行所设检索条件的语料规模,英语以词(word)计数,汉语以字(character)计数。

该数据是对满足给定条件下(不仅仅包括检索词本身)的样本语料字符数之和。比如,某一样本没有检索词,但能满足其他条件,这时也一并计入。该数值的设置可以为相对频率、似然率、搭配强度等分析提供可动态变化的库容数据。

2.4.4 元字符检索

通配符检索

本检索平台支持通配符检索,支持使用的通配符如表2-4所示:

表2-4 英汉双语历时语料检索平台辅助检索的可用通配符

通配符在检索时通常不能有效地区分词标点符号和空格,故用途有限。所以本检索平台提供了正则表达式检索。

正则表达式检索

英汉翻译历时语料库在线检索系统使用的元字符基于Oracle数据库提供的元字符。Oracle提供的元字符很多,这里只介绍和英汉语言特征相关的元字符使用,如表2-5所示:

表2-5 ORACLE使用的正则表达式(REGULAREXPRESSION)

(续表)

同时,该检索平台还可以实现英汉语关键词同时检索。如下面的例示中,将英语purpose和汉语“目的”带着词性使用正则表达式同时检索。

正则表达式可以通过POS线索检索可能的句法结构,如使用正则表达式“\S+/C\S+[0-9]+that/\S+[0-9]+”可以检索到下面的双语数据,其中就含有英语的so that,such that,provided that等结构信息:

其他检索方式

使用正则表达式能够精确地提取具有汉语独有特征的数据,如汉语里的双声和叠韵等字符组合形式。根据本检索平台,可以使用的检索方式至少有下面几种。

表达式“(\S)(\S)\2(\S)”可以匹配汉语的组合形式如:大吃大喝、美轮美奂;如:

(续表)

同样,表达式“(\S)(\S)(\S)\4”可以匹配汉语的组合形式如:时时刻刻、断断续续;而表达式“刚+”可以匹配汉语的组合形式如:刚、刚刚、刚才。

此外,还可以根据特定语言项目在句子中的位置来检索特定的语言项目的使用状况,如表达式“\S+/y\S+/\S+\Z”匹配在句末出现的语气词。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈