首页 百科知识 介词加介词的合成词举例

介词加介词的合成词举例

时间:2022-09-17 百科知识 版权反馈
【摘要】:就形成“第二轮分词”介词分词。所以在第二轮分词中,我还依据各类介词的不同情况,分多次进行分词,以保证准确分词和消除歧义。“多轮分词法”是用增加分词轮次来实现经验的,因此基本不必增加经验库和对经验库的检索。有了这样的保证,我们才可能大胆的使用“多轮分词法”。

我们首先注意到介词虽然名为虚词,但是它在语句中的足迹并不“虚”,它是使用词频最高的词类之一。因此我们在第一轮分词以后,首先选择对介词进行分词作为第二轮分词。

其次,我们还注意到汉语的介词与外语的介词有所不同,例如俄语的介词干脆叫做前置词,表示该词只用于名词前。英语的介词有时也叫前置词,也是只放在名词的前面。

我们又看到,英语的很多介词在翻译成汉语时,往往使用一个配套结构的解释:例如在桌子上、在盒子里、在人群中间。

“配套”是一种前后词汇呼应的现象,两个词汇中间夹着一些字符串(可以不必理解它们是什么)构成一个语句中的意群(具有较为完整意思的一段字符串)。因此我们在分词中,找到这些配套的词汇,把它们和它们中间夹着的字符串一起分割出来,不会产生歧义分词。

我们从“配套”的特点出发,还可以发现另有一些介词,可以看成是与后面相应的动词相互配套,才能够表示一个完整的语义(意群)。例如从北京来、到哈尔滨去、沿河边走、冲着墙打,等。虽然从语法解释上,后面的动词不属于介词短语,但是没有配套的动词,介词短语的语义就不完整。

因此我根据汉语介词有配套现象的这个特征,把介词短语和后面动词的呼应,也看成是一种前后配套关系,只要找到介词和与之呼应的动词,不必管中间夹着的其它字符串是什么,分割出的整段字符串,都不会产生歧义。

还有一些介词,仅仅与后面的名词构成介词短语,没有其它配套关系,也可以把它们作为配套分割出来,也不会产生歧义。只是这种配套关系没有中间夹着的字符,又需要有相应的名词库支持,分词效率不会太高。

把这些想法纳入学习分词程序。就形成“第二轮分词”介词分词。注意,“多轮分词法”就是要利用汉语的各种特征,一个轮次一个轮次的处理分词,最大限度的消除歧义,因此不要急着把一切事情一次做完。

所以在第二轮分词中,我还依据各类介词(甚至各个介词)的不同情况,分多次进行分词,以保证准确分词和消除歧义。 

我们现在的做法,实际也是根据经验在完善分词。只不过我们是根据汉语特征,由虚词出发总结经验,而不是集中大量歧义语句,分析它们,总结经验。

但是,正因为我们是在把经验写进程序,因此必须小心翼翼的防止经验库的扩大,防止检索经验库的时间不断增加。

“多轮分词法”是用增加分词轮次来实现经验的,因此基本不必增加经验库和对经验库的检索。而分词轮次的增加,只增加对输入语句的检索次数,一个输入语句最长几十个字,再长就不是简单句了,因此“多轮分词法”不会过多的增加检索时间。有了这样的保证,我们才可能大胆的使用“多轮分词法”。

 


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈