首页 百科知识 第一轮分词

第一轮分词

时间:2022-09-17 百科知识 版权反馈
【摘要】:为了保证第一轮分词程序中的“可扩展词库”的特性,仍然采用类似前面的“学习分词程序”,特别需要改变操作方式的地方,我会在谈到时,会特别声明。进入第一轮分词阶段后,“分词操作”先把指针指向分词表和输入语句,找不到匹配的词汇时,自动把该字按词汇分割,用空格隔开。这样的“第一轮分词”就只对专有名词和具有覆盖歧义的词汇(组)进行了分词,语句中其余的字转入第二轮分词程序中完成。

第一轮分词只对专有词汇和容易产生覆盖歧义的词汇进行分词,对于语句中其它的字则是一字一字的分隔开。它实际上是一个打乱按输入语句字序分词的规则,它可以做到直接跳向可能造成覆盖歧义的词汇,把它率先分出来,以免干扰以后的各轮次分词。

这轮分词,采用专门的分词库,分词库里的词汇会变得较少,对于加快检索都很有益。

由于第一轮分词只挑出专有名词和有覆盖歧义的词汇(组),对其它字不进行分词。因此这轮分词不会产生任何歧义。

这轮分词,采用专门的词库,分库的结构也有变化:

A:第一轮词库只含有专有词汇和具有覆盖歧义的词汇(组)。其余词汇不写入词库。

B、分词库内词汇按字数多少排列,字数多的排在前面,优先被检索。这样就保证检索不依输入语句字序进行,把是专有名词、成语和有覆盖歧义的词汇(组)优先挑出。这一点与最大匹配法有些类似。

C、分词库的每一个词条,共有四项,分别是词汇字符项、词汇词性项、词汇元词汇解释项指针、特殊注释项指针。“词汇词性项”指出词汇的词性,供语法分析时使用。“词汇元词汇解释指针”是语义分析时用的。“特殊注释项指针”是供检查特殊用处时用的。

注意:由于本词库只保存专有词汇和具有覆盖歧义的词汇(组),它们没有介、助、连、数量、语气、代等词性,只有副词、名词、形容词、动词几个词性。

为了保证第一轮分词程序中的“可扩展词库”的特性,仍然采用类似前面的“学习分词程序”,特别需要改变操作方式的地方,我会在谈到时,会特别声明。

A、由于大部分词汇又都不在词库中,因此一个语句大多数的字不会被分词,但是为了表明已经进行过第一轮分词,这些不被分词的字,要一个字一个字的隔开。

B、在检索中,找到语句与词库中匹配的词汇,把它们分割为一个字符串。

A、程序还是先进入分词阶段。进入第一轮分词阶段后,“分词操作”先把指针指向分词表和输入语句,找不到匹配的词汇时,自动把该字按词汇分割,用空格隔开。然后一一分词。分词结束后,仍给出失败信息,供操作者选择。

B、如果分词表为空,“分词操作”也能把字以一一分隔开,同时程序也会给出失败信息,供操作者选择。

C、如果操作者觉得对象语句已经满足“第一轮分词”规则,由一个特殊键选择进入下一个分词阶段。接收下一个语句。

D、如果有些字满足“第一轮分词”选择词汇的要求,但是没有被选择出来,显然是词库没有写入该词汇。由一个特殊键选择转入“学习词汇阶段”,

E、在进入学习词汇阶段后,按“第一轮分词”选择词汇的要求,把相应的词汇输入,存入词库,并按词库规格排列。

F、在学习词汇后,重新进入分词阶段,对原语句重新分词。 

这样的“第一轮分词”就只对专有名词和具有覆盖歧义的词汇(组)进行了分词,语句中其余的字转入第二轮分词程序中完成。 


免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈