首页 百科知识 尽量少去动用词典词库

尽量少去动用词典词库

时间:2022-09-17 百科知识 版权反馈
【摘要】:第一是使用完整的词典词库进行分词,由于由字到词汇的多组合性,由于词汇的多义性,不可能一下子完成无歧义分词。动用完整的词典词库,费事而且不能保证无误,不是合适的选择。第二是,使用含量十分大的词典词库,用它检索一定是一个耗时很长工作。为此,我们尽量把大的词典词库分成小的、具有不同性质、特征的各类词库。例如专用名词-成语词库、性名词库、方位介词词库、方向介词词库、部分助词词库、部分连词词库等。

截止到目前,我们做了三个轮次、多个阶段的分词。但是始终守着一个底线,那就是能不使用完整的词典词库,就一定不使用完整的词典词库。

这样做有两个原因:

第一是使用完整的词典词库进行分词,由于由字到词汇的多组合性,由于词汇的多义性,不可能一下子完成无歧义分词。即便阅读者是人,也会出现误读的现象。动用完整的词典词库,费事而且不能保证无误,不是合适的选择。

第二是,使用含量十分大的词典词库,用它检索一定是一个耗时很长工作。当然,计算机的运行速度越来越快,检索时间长可能不是问题。可是,考虑到每检索一个语句的词汇,就要用差不多整个词库的词汇(几万到几十万之巨)进行,其检索的时间开销还是不可小觑的。

为此,我们尽量把大的词典词库分成小的、具有不同性质、特征的各类词库。例如专用名词-成语词库、性名词库、方位介词词库、方向介词词库、部分助词词库、部分连词词库等。

 


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈