首页 理论教育 等同关系识别

等同关系识别

时间:2022-02-27 理论教育 版权反馈
【摘要】:5.4.1 等同关系识别识别词汇的同义关系,使一个概念采用一个语词表达,实现对不同词形、相同含义的词进行控制。其中选中的词作为正式叙词,其他作为非正式叙词,在传统叙词表中,等同关系的词汇通常采用“用”、“代”两种参照符号表示。经过以上途径自动获取的同义词,由人工审核并确定其中一个为正式叙词,其他作为非正式叙词或入口词。②优先选用电子政务通用叙词表中的正式叙词作为财税叙词表的正式词。
等同关系识别_自然语言叙词表自动构建研究

5.4.1 等同关系识别

识别词汇的同义关系(包括同义词和准同义词),使一个概念采用一个语词表达,实现对不同词形、相同含义的词进行控制。其中选中的词作为正式叙词,其他作为非正式叙词,在传统叙词表中,等同关系的词汇通常采用“用”、“代”两种参照符号表示。

(1)同义词种类[13]

在信息表示和信息检索领域中,同义词的概念并不考虑其感情色彩和语气,主要是指在信息检索中一个或多个能够相互替换、表达相同概念的词或词组。主要有以下几种情况:

①语义同义词。如“买卖”与“交易”。

②学名与俗名。如“计算机”与“电脑”。

③新称与旧称。如“农业税”与“田赋”、“公粮”;又如2006年5月11日,国务院公布《中华人民共和国烟叶税暂行条例》,开征“烟叶税”取代原“烟叶特产农业税”。

④全称与简称。如“个人所得税”与“个税”。

⑤不同译名。如“CTAIS”可译为“中国税收征管信息系统”与“税收管理信息系统”。

⑥部分近义词。如“征收”与“征税”。

⑦部分对应词。如“倾销”与“反倾销”。

⑧部分上下位词。如“个人所得税”与“个体工商业户所得税”。

(2)同义词识别方法

同义词控制目的在于把表达同一主题概念的文献集中在同一标识下,应尽量完备收录同义词。采用单一的同义词识别方法很难识别出所有同义词,为了收全财税方面的同义词,本文结合使用以下两种方法。

①模式匹配方法[14]

词汇的释义特征:通常使用同义词、准同义词以及上下位词进行释义。在《中国税务辞典》中,汇集了财政税务领域的术语、概念和相应注释。从定义中分析和提取同义词定义模式,如“亦称…”,“也称…”,“简称…”,“…的简称”,“俗称…”等等,可以从中提取常用的财税领域同义词。如“出口产品退税”(简称出口退税)是指对出口产品退还其在国内生产和流通环节实际缴纳的产品税、增值税、营业税和特别消费税。对于这类定义类型,可以归纳总结模式:

<Prefix>“词汇”

简称|也称|又称|亦称|也叫|俗称|以下简称

<Postfix>左括号+同义词+右括号

通过编辑正则表达式表示该模式:

“(\u0022|\u201c)(?<a1>[\u4e00-\u9fa5]{2,10})(\u0022|\u201d)[(|(](简称|简称:|也称|也称:|又称|亦称|也叫|俗称|以下简称)(\u0022|\u201c)(?<a2>[\u4e00-\u9fa5]{2,15})(\u0022|\u201d)[)|)]”,从而提取出同义词“出口产品退税”和“出口退税”。本系统采用了陆勇硕士论文系统《基于模式的同义词识别》方法,在此不再详述。

②词面相似度方法[15]

词面相似度计算方法把语词根据词素词典转换为词素串,通过词素串之间的相似比较计算语词之间的相似度。在计算“进出口税收管理”和“涉外税收管理”的相似度时,首先将两词切分成词素,“进出口税收管理”切分为“进出口”、“税收”和“管理”;“涉外税收管理”切分为“涉外”、“税收”和“管理”。根据汉语词汇重心后移原理分配权重,计算两词中相同词素所占比例:

img39

二者的相似度为

 Simi(“进出口税收管理”,“涉外税收管理”)=img40=83%

这种方法简单快捷,可以识别具有字面相似特点的同义词和准同义词,但是对于字面不相似的同义词就无能为力了。同时这种只考虑字面而未深入语义的同义词识别方法,准确率较低,因此本文设置较高的阈值过滤掉部分低相似度的词汇,减轻人工进一步审核的负担。

另外,现有词表中已经存在的等同关系可以直接收录。在识别等级关系时,考虑到有些词汇在检索时可以互相替代,可以作同义词处理。例如“个人所得税”中的“个人”包括了个体工商户、个人独资企业、参加工作的个人等,一般检索者不会使用“个体工商业户所得税”去检索,而直接用“个人所得税”,所以直接把“个体工商业户所得税”作为“个人所得税”的同义词入口处理。

(3)同义词人工判定规则

本文考虑到网络应用环境特点,正式主题词的选取打破常规叙词表选取书面词汇的标准,以词频作为判断标准,选取词频最高的词汇作为正式主题词,其他为入口词。例如:对于简称,常规词表一般以全称作为正式主题词,简称为非正式主题词,而在财税表中,如果简称词频大于全称,则以简称为正式主题词,这种情况同样适用于外来翻译词。经过以上途径自动获取的同义词,由人工审核并确定其中一个为正式叙词,其他作为非正式叙词或入口词。人工判定时需要遵守以下规则:

①优先采用词频较高的词汇作为正式叙词。财税词表的用户不仅包括信息检索专家、政府机关用户,更主要的用户是想要了解相关信息的人民大众。传统叙词表应用于网络环境中需要改头换面,向符合普通用户的使用习惯发展,才能保障词表的生命力和活力。词频在一定程度上显示了用户的使用习惯和偏好,显示了词的通用性,是词表选词的首要依据。

②优先选用电子政务通用叙词表中的正式叙词作为财税叙词表的正式词。综合电子政务叙词表对财税领域叙词表具有规范统一的指导作用;财税领域叙词表是为了满足该领域的文献信息管理的要求而编制,收词时收录综合性电子政务词表中该领域全部词汇,并对其延伸和推广而成,从而保障它们之间的衔接和连续性,形成政务信息管理统一的标准。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈