首页 百科知识 再谈“多轮次分词”的指导思想

再谈“多轮次分词”的指导思想

时间:2022-09-17 百科知识 版权反馈
【摘要】:我们之所以采用“多轮分词法”,就是要利用汉语不同于外语的一些特征,在每轮分词时,抓住一个(或一些)汉语的特征,进行分词。而不采用“多轮分词法”的分词,我们可以称之为整体分词,他们把语句中的字符平等地看待,企图遵循某个共同的标准去正确分词。因此会为整个分词工作带来极大的便利。用它们分轮次率先分词,也会使分词效率提高很多。

我们之所以采用“多轮分词法”,就是要利用汉语不同于外语的一些特征,在每轮分词时,抓住一个(或一些)汉语的特征,进行分词。这样我们在进入语法分析以前,在识别语义之前,在不懂得字符串总体含义的情况之下,就实现较为正确的分词。

而不采用“多轮分词法”的分词,我们可以称之为整体分词,他们把语句中的字符平等地看待,企图遵循某个共同的标准去正确分词。而对于语言来说,每个民族有每个民族语言的规律,有自己的特点,不可能有一个共同的标准。在无奈之下,他们不得不求助于计算,求助于概率统计。尽管他们也知道这样做准确率不会提高太多,但是他们还指望这会对他们有所裨益。

在第一轮分词以后,我们就依靠对汉语特征的认识,实现一些特殊的分词操作。

我们注意到很多歧义分词出现在一字(词)多用上,而这些多用字(词)又经常存在于一些虚词和其它词汇之间。因此我们每一个轮次,都以一些虚词为核心进行分词,它们词汇量少,语法特征鲜明,能够产生的歧义分词也不太多。因此会为整个分词工作带来极大的便利。

而且,有趣的是,我们用来作为核心词汇的这些词汇,又常常是词频最高的一些词汇,这不是我们“统计词频”统计出来的结果,而是我们根据汉语的语言特征得出的结论。用它们分轮次率先分词,也会使分词效率提高很多。

这里人们一定会提出很多疑问:例如多轮分词会不会增加检索的时间,使得分词程序运行很慢;例如没轮次分词都建立一些词库,会不会使总的词库容量很大很复杂;又比如,如何防止歧义分词的出现等。

我们先把这些问题交代清楚。

 


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈