首页 百科知识 第一轮分词的姓名分词

第一轮分词的姓名分词

时间:2022-09-17 百科知识 版权反馈
【摘要】:姓名本来可以作为专有名词在第一轮分词分出来,但是实际问题又没有这么简单,因为很多姓名就是一些词汇,它们属于双意义分词,本身很难分辨。由于汉语词汇三个字的较少,三个字以上的也较少,因此在第一轮词库的词汇被挑出后,三个字或三个字以上的姓名容易用这种方式挑出。一般汉语姓名为两字和三字,复姓有时用四字。在第一轮分词中很多专有名词,根本无规律可循,出现新专有名词,只能用学习法扩充到词库中。

姓名本来可以作为专有名词在第一轮分词分出来,但是实际问题又没有这么简单,因为很多姓名就是一些词汇,它们属于双意义分词,本身很难分辨。有些姓名比较怪癖,也很难分辨。把所有姓名都写入第一轮词库,几乎是不可能的。但是如果第一轮不能分出,它们又会对以后的分词带来很坏的影响。本段是第一轮分词的继续,它提供一些姓名的区分规律。

第一类规律,本语句或前后有语句与称谓相连接。

因此需要一个称谓词库,标号为2,其中各个词汇的标号分别为2-XX,依次排列。这些称谓有:同志、师傅、老师、先生、女士、将军、委员、委员长、主任、主席、总统、部长、司长、次长、处长、县长、书记……等。

这些称谓前面的字符串一般就是姓名,或者是姓。根据这些称谓信息,可以从本语句或前后语句分析出姓名,完成姓名分词。

在使用此方式时,要从前后一些语句检索称谓,稍微麻烦一些。

但是如果前后语句一直不出现称谓,这种分姓名方法无效。

第二类规律,是姓名经常以固定的字符串出现在本语句和前后语句中。如果一个三字的字符串或两字的字符串反复出现于各个语句中,就可能是姓名。少数民族或翻译姓名字数会超过三个。

由于汉语词汇三个字的较少,三个字以上的也较少,因此在第一轮词库的词汇被挑出后,三个字或三个字以上的姓名容易用这种方式挑出。

在操作时,此方式也需要前后检索多个语句,比较麻烦。

此方式不需要专门的词库,但是也需要从前后多个语句对可能为姓名的字符串,进行多次检索。对于两字的“非词汇字符串”,该方式比较有效,但是在头几轮分词中,不宜确定“非词汇字符串”,因此可以说对于两字姓名,此方式可用,但是效率不高。

第三类规律,是以姓氏为主向后检索字符串,确定姓名。

此方式需要一个姓氏库,标号为3。其中各个姓氏分别标号为3-XX,依次排列。姓氏库要尽可能多地收集姓氏。

一般汉语姓名为两字和三字,复姓有时用四字。因此此方式也较为有效,但是有些姓氏很怪,用此方式无效。少数民族和翻译姓名一般不用汉姓,此方式也无效。

此方式操作时,不必检索前后多个语句,较为简单。但是不能全部有效,可以为首选姓名分词的方式。

有一些特殊情况,三种方式都不能正确分出姓名。只能存疑。

在第一轮分词中很多专有名词,根本无规律可循,出现新专有名词,只能用学习法扩充到词库中。这就是第一轮分词一定要有学习分词阶段的原因。


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈