首页 百科知识 介词分词后的歧义校验

介词分词后的歧义校验

时间:2022-09-17 百科知识 版权反馈
【摘要】:正是由于介词的数量较少,其分词后的歧义校验就会相对的较为容易。我拿全部介词和词典上容易出现的词汇粗比较了一遍,把它们分析出来应该有一个多星期的时间就够了。第一阶段是校验阶段,用比较检索操作对比以进行的分词和歧义分词库的词汇,发现歧义便删去原来的分词方式,换上合理的分词方式。部分介词词库、介词校验词库、配套时方词库、配套动词库。

介词虽然数量较少,但是很多词具有多义性,因此容易产生分词歧义。因此在第二轮分词后,要及时进行歧义校验。正是由于介词的数量较少,其分词后的歧义校验就会相对的较为容易。有些时候需要使用一些经验校验,也不会占用太多的存储空间和检索时间。

我拿全部介词和词典上容易出现的词汇粗比较了一遍,把它们分析出来应该有一个多星期的时间就够了。但是因为目前天气太热,我就不进行这项“体力劳动”了。只是简单交代一下就算了。

分词校验程序要设置一个歧义分词校验词库,里面保存可能发生歧义的词汇。

第一阶段是校验阶段,用比较检索操作对比以进行的分词和歧义分词库的词汇,发现歧义便删去原来的分词方式,换上合理的分词方式。

第二阶段时学习校验阶段,此阶段由人参与校验,把新学习的歧义词汇写入歧义分词库。

 以上过程我们已经重复多次,具体程序大同小异,就不再啰嗦了。

“第二轮分词——介词语群分词”又有了一些新想法,准备修改一下。

第一、词库改为四个部分:

部分介词词库、介词校验词库、配套时方词(时间词与方位词)库、配套动词库。这样可减去一个经验词库——介词与配套词词库。而以上这四个词库的词汇又可以不再收入总词典词库中,不会增加词库总容量。

第二、要把介词校验提到介词分词前进行,避免介词分词时错误操作,减少运行时间。

第三、增加对依据汉语特征进行汉语分词的思路交代,以宣示使用“多轮次分词法”的主旨思想。

 


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈