首页 百科知识 词库容量问题

词库容量问题

时间:2022-09-17 百科知识 版权反馈
【摘要】:而且我们实际上也可以把这些小词库联合在一起保存,只是把这些小词库标注为分库就可以了。但是我们坚持在每轮分词过程中进行歧义校验,就基本消除了产生歧义分词的可能。但是在校验词库中有“在情在理”一词,表示可能出现的歧义分词。

我们在每轮次分词时都建立一些词库,但是它不会增加总的分词所需词库的容量。这是因为我们在建立各轮次词库时规定,该词库的词汇不会被重复计入词典词库中,因此总的词典词库容量并没有增加,只是被分散保存了。

而且我们实际上也可以把这些小词库联合在一起保存,只是把这些小词库标注为分库就可以了。这样,当语言理解过程需要对全部词库检索时,还可以一个不落地检索全部词汇;而各轮次分词需要时,就只检索自己所需要的各个分词库。

 

 

 

 

  C、歧义校验问题。

  我们分轮次分词的词汇,都是经常在语句中使用频率很高的词汇。请注意,我们没有傻乎乎地使用什么词频统计,只是根据汉语的特点,就可以确定使用词频很高的词汇,这显示出我们依据汉语特征进行汉语分词的威力。

  而由于我们把各轮次分词的词汇限制到最少,因此也把产生歧义的可能限制到最少。词汇数量少、歧义少,这“两少”使得在各轮次中的歧义校验容易了很多。但是我们坚持在每轮分词过程中进行歧义校验,就基本消除了产生歧义分词的可能。

  这里我们根据“各轮次都是对虚词进行分词,而歧义是对虚词作用的破坏”这样一条原则,得出——“只要出现歧义,就都不再是标准的虚词”的结论。在每次虚词分词前,先消除歧义。这样就大大降低了歧义出现的可能性。

  例如:“在”是使用频率最高的介词,它还经常与方位词、时间词构成配套的介词结构。但是在校验词库中有“在情在理”一词,表示可能出现的歧义分词。如果在分词前的歧义校验时,发现语句中有这样一词,那它肯定不需要再进行虚词分词了(虚词特性已经被这个词汇的出现破坏了)。于是歧义迅速被排除,正确分词也立马产生了。

 

 

由于“多轮次分词”充分利用汉语的特点,因此它在消除分词歧义、不增大词库存储空间、减少程序检索消耗的时间上都有很大的益处。因此它的用途肯定会特别大。


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈