首页 百科知识 分词的麻烦在哪里

分词的麻烦在哪里

时间:2022-09-17 百科知识 版权反馈
【摘要】:目前,分词显而易见的麻烦是,由于汉字构成词汇的多组合性,由于一些词汇的多义性,分词不能正确完成。人们采用的了各种分词方式,来消除分词过程中出现的这些歧义现象。但是初步分词工作还是要做的,因此我们首先要解决的不是分词歧义这个麻烦,而是人们习惯的用完整的词典词库作为分词依据带来的麻烦。这就是初步分词时人们不得不面对的麻烦。相当于完成了语义识别的前期工作。

目前,分词显而易见的麻烦是,由于汉字构成词汇的多组合性,由于一些词汇的多义性,分词不能正确完成。人们采用的了各种分词方式,来消除分词过程中出现的这些歧义现象。

实际上,如果边分词、便理解词汇(语义识别),消除分词中的上述歧义并不难。但是初步分词工作还是要做的,因此我们首先要解决的不是分词歧义这个麻烦,而是人们习惯的用完整的词典词库作为分词依据带来的麻烦。

这个麻烦就是检索语句时间消耗太大的麻烦。

一个完整的词典词库,一般含词汇量会有十几万到几十万之巨。用完整的词典词库检索语句,就要用语句中的几个字符,在这样庞大的词库中去查找。我们知道,在这个查找之中,在词库头几个词汇中找到语句中的字符的几率很小,在词库最后词汇中找到语句中的字符的几率也较小。因此平均检索量可以在词库中间找到的几率为百分之五十来计算。

这意味着什么?意味着每检索一个语句的几个字符串,我们就要动用词库中的一半字符量来应付。而一个语句要反复多次的检索,一篇文章又有几百句,乃至几十万句语句要处理,检索消耗的时间可想而知。

而叫人们哭笑不得的是,付出这样大的时间代价,人们得到的仍然是一个分词不准确的语句。还要另做工作,使分词准确化。这就是初步分词时人们不得不面对的麻烦。

人们由于被分词歧义的困扰,总是用“计算机运行速度很快,这点时间消耗算不得什么”来掩饰这个麻烦。但是,这种高耗时的检索方式,会大大降低语言处理的效率,是不争的事实,是掩盖不掉的。

多轮次分词方式则是在尽量减少检索量的情况下,完成准确地、少歧义(还做不到无歧义)的分词。它表面上看手续麻烦一些,但是实际上引入了人在阅读时使用的技巧,实现快速的较准确地分词。而用完整的词典词库进行分词,简直就是在“傻分词”。

我们截止到第三轮分词,采用了大量小词库,有些词库的词汇仅仅十几个,大的词库也不过几千个词汇。用这样的小词库多次检索语句,显然时间消耗会比“用完整词库分词”要小得多。而且这些小词库的词汇都会从完整词典词库中扣除。并且,我们在用校验词库排除歧义的同时,还把相应的分词结果和词汇的情况标注在语句中。相当于完成了语义识别的前期工作。

因此表面上看去较为麻烦的“多轮次分词法”,实际上做了既瞻前又顾后的工作。

 


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈