首页 百科知识 词素聚类方法

词素聚类方法

时间:2022-02-27 百科知识 版权反馈
【摘要】:本文采用按词素后方一致或前方一致聚类的方法,以辅助基于相似度矩阵的词聚类方法,尽量收全具有等级关系的词汇。表6-13 词素索引表当用户输入查询词汇时,系统首先按最大正向匹配算法切分该词汇,如果选中按“前方一致”查询方法,则提取第一位词素到词素索引表中去匹配,把匹配到的词素按其对应的词汇ID号从内核主题词表中提取各个主题词,并显示在文本框中,供用户查看。图6-9 词素聚类界面
词素聚类方法_自然语言叙词表自动构建研究

6.3 词素聚类方法

考察中文构词特点,含义相近的词汇在字面上往往含有相同的词素,具有等级关系的词汇含有相同词根的现象也很普遍。根据汉语字面成族特点,可以聚集部分等级关系词汇,这种方法简便易行,但无法识别不具备这一特点的等级关系词汇,同时聚集的词汇中也往往含有非等级词汇,所以该方法适用范围有限。本文采用按词素后方一致或前方一致聚类的方法,以辅助基于相似度矩阵的词聚类方法,尽量收全具有等级关系的词汇。

下文以“税收”、“税收管理”等词为例说明词素聚类的处理过程:

(1)根据同义词识别过程中制作的词素表,按最大正向匹配算法对内核表中的语词进行词素切分,同时记录每个词汇包含的所有词素。如表6-12所示,“税务登记表”一词能够切分成“税务”、“登记”和“表”三个词素。

表6-12 词素切分示例

img80

(2)提取所有词素,去重后按字顺排列,同时如表6-13所示,上例中第一位词素为“税务”的词汇有4个,最后一位词素为“税务”的词汇有一个。

表6-13 词素索引

img81

(3)当用户输入查询词汇时,系统首先按最大正向匹配算法切分该词汇,如果选中按“前方一致”查询方法,则提取第一位词素到词素索引表中去匹配,把匹配到的词素按其对应的词汇ID号从内核主题词表中提取各个主题词,并显示在文本框中,供用户查看(见图6-9)。

img82

图6-9 词素聚类界面

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈