首页 百科知识 与方位词搭配的介词的分词阶段

与方位词搭配的介词的分词阶段

时间:2022-09-17 百科知识 版权反馈
【摘要】:由于4号介词库与6号方位词库是标准搭配,无需对方位词库的词汇做歧义校验。因此此时已经确定前边的是介词,介词又不能单独使用,在后面一定会有与之搭配的词汇,构成一个无歧义分词的字符串。为了保证前面的工作对后面的语义分析有利,我主张把前面的结果在相应词汇进行标注。以后语义识别时,就可以根据标注知道它们的词类和在词库中的位置。

【词库介绍】这类介词只有“在、于、从、到、朝、向、往、沿着、处于、位于、置于、介于”这样几个,在这个阶段建立一个部分介词库,这个处所介词库标号为4。几个介词分别:4-1:在。4-2:于。4-3:从。4-4:到。4-5:朝。4-6:向。4-7:往。4-8:沿着。4-9:处于:4-10:位于:4-11:置于:4-12:介于。等。

在4号词库中,“在”是最常用的词汇,它作为介词又有多种用处,放在多轮次分词的首位,相当合适。

【操作程序】由处所介词库取出一个词汇,对语句进行检索,如果找不到相应词汇,继续取出下一个词汇,若词库词汇已经取尽,还没有检索到相应词汇,就进入B阶段分词。

如果找到一个词汇,就由此词汇向前进行歧义校验。如果前面校验无歧义,在由此词先后校验。前后均无歧义,便可确定此为处所介词。

如果发现是校验词库5中的词库,就按校验词库5中的词汇分词。

【词库介绍】下面是4号词库的校验词库,其词库标号为5。这是用于对多意处所介词进行歧义校验用的词汇库。

在4号词库的这些可能产生的歧义次会有这样几个类型:

第一类是前方歧义,如(以“在”为例):现在、实在、存在、何在、健在、永在、自在、犹在……等。

第二类是后方歧义,如(以“在”为例):在其位、在理、在岗、在位、在案、在场、在即、在行、在乎、在家、在逃、在望、在握、在野、在押、在意、在座……等。

第三类是双向歧义,如:

有一些词汇如(以“在”为例):“在情在理、在劫难逃、在天之灵,在所不辞、自由自在、清闲自在、悠游自在、音容犹在、无所不在、有约在先、命在朝夕、病在膏肓、大权在握、成竹在胸、近在咫尺、遥遥在望、历历在目、谋事在人、成事在人、志在千里、志在四方、乐在其中、迫在眉睫、物在人亡、言犹在耳、势在必行、如鲠在喉、昭昭在目、祸在旦夕、有言在先、项庄舞剑意在沛公、身在曹营心在汉、一年之计在于春、螳螂捕蝉黄雀在后、将在外君命有所不受、人在干天在看、兵在精而不在多”

它们都属于成语,应该在第一轮被分出,其词库标号为1,其本身标号为1-XX。此轮分词不需要再考虑。

在4号介词库的双字介词的歧义一般不会太多。

【操作程序】在用5号词库对4号介词库完成歧义校验后,如果确定为分词为4号词库中的介词,就由这个词起,向后检索,去找6号方位词库的方位词。由于4号介词库与6号方位词库是标准搭配,无需对方位词库的词汇做歧义校验。

【词库介绍】下面是与4号词库中介词配套的方位词词库,其词库标号为6。其中有方位词:6-1:上。6-2:下。6-3:前。6-4:后。6-5:左。6-6:右。6-7:里。6-8:外。6-9:中。6-10:6-11到6-19:边(边在后面,前面还可以和6-1到6-8合成为双字方位词)。6-20到6-28:面(面在后面,前面还可以和6-1到6-8合成为双字方位词)。6-28到6-29:间(间在后面,可以和6-9合成为双字方位词)。3-29:之处。

【操作程序】如果从6号方位词库找到配套词汇,就可以得到“由4号介词库起到6号方位词库止”的一组字符串,它们可以构成一段无歧义分词。

如果没有从6号方位词库找到搭配词汇,可以继续由7号配套动词里找搭配词汇。因此此时已经确定前边的是介词,介词又不能单独使用,在后面一定会有与之搭配的词汇,构成一个无歧义分词的字符串。 

注意,我们在前面两次提到“字符串”一词,因为我们在分词中除去得出前面的是介词,后面的是方位词以外,对于两者中间的字符并未进行分析,因此它们对于程序来说还只是一些字符串。

为了保证前面的工作对后面的语义分析有利,我主张把前面的结果在相应词汇进行标注。例如我们在找到4号词库的介词后,在这个词下面(或后面)标注为4-XX,在找到6号词库的方位词以后,也在该词汇下面(或后面)标注为6-XX。以后语义识别时,就可以根据标注知道它们的词类和在词库中的位置。



免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈