首页 百科知识 文本分词技术概述

文本分词技术概述

时间:2022-02-27 百科知识 版权反馈
【摘要】:3.1 文本分词技术概述分词就是将连续的字序列按照一定的规范重新组合成词序列的过程[1]。中文文本自动分词成了中文信息处理中特有的基础性问题,句法分析、语句理解、自动文摘、自动分类和机器翻译等,也都少不了词的详细信息,这些技术的实现都是建立在分词的基础上的[2—8]。另外,中文分词系统还没有一个权威性分词词表和分词规范作为依据。中文分词是一种典型的序列标注问题。
文本分词技术概述_文本自动标引与自动分类研究

3.1 文本分词技术概述

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程[1]。中文信息处理中词平台以上的技术都要以“词”为基础,但汉语书面语不像西方拼音文字那样通过天然切分标志——空格分开的,而是在语句中以汉字为单位一个挨一个地连写,词与词之间没有明显的界限,进入计算机后是汉字字符序列,没有词的切分标志。因此,如果将句子中的“词”自动切分出来,即让计算机能够辨别哪几个汉字结合起来是一个词,让计算机将等间距排列的汉字字串序列按词分开,并打上切分标志,这就是中文文本自动分词问题。中文文本自动分词成了中文信息处理中特有的基础性问题,句法分析、语句理解、自动文摘、自动分类和机器翻译等,也都少不了词的详细信息,这些技术的实现都是建立在分词的基础上的[2—8]

词是最小的、能独立活动的、有意义的语言成分。汉语自动分词既是中文自然语言理解、机器翻译等中文信息处理过程中的一个基本步骤,也是目前中文信息处理中的一个技术难点。分词算法存在诸多困难,要将汉语文本的字序列切分成词的序列,即使确定了一个合适的分词标准,要实现这个标准也还存在算法方面的困难,如切分歧义、未登录词识别、分词与理解的先后等。无论哪一种分词系统或方法,均要求有较高的准确性、较快的运行效率、一定的通用性和适用性等。另外,中文分词系统还没有一个权威性分词词表和分词规范作为依据。

尽管中文分词存在着上述困难,学界经过多年的努力,通过博采众学科之长,创新了一些较为有效的方法。目前分词方法主要分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

(1)基于字符串匹配的分词方法

基于字符串匹配的分词方法又称为机械分词方法,它是按照一定的策略将待处理的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)[7]。按照采用的技术路线不同,这种基于字符串匹配的方法又有以下三类依据:按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的词数最小)等。另外,还可以将上述各种方法相互组合,形成新的方法。例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来,构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。

由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大基本问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是把机械分词作为一种初分手段,一般还需要通过利用各种其他的语言语义信息来进一步提高词语切分的准确率。

(2)基于理解的分词方法

通常的分析系统都力图在分词阶段消除所有歧义切分现象,而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的很小一部分。其基本思想就是:在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统性、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段[9]

(3)基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的汉字同时出现的次数越多,就越有可能构成一个词,因此字与字相邻共现的频率或概率能够较好地反映成词的可信度。我们可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。

以上这种基于统计的分词方法,只需对语料中的词组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。最经典的要数N-gram算法[10—11]。2005年,张雪英提出一种改进的N-gram方法即Gram-Keyword方法,采用GF/GL权重法,实现了单篇文献的N-gram文本表达[12]

另外,一些序列标注模型纷纷被用于解决序列的切分问题。中文分词是一种典型的序列标注问题。相关的序列标注模型包括隐马尔科夫模型[13]、条件随机场模型[14]等。

(4)国内相关的分词系统

国内比较具有代表性的自动分词系统,如北京航空航天大学计算机系CDWS分词系统,是我国第一个实用的自动分词系统;而后又开发出了CASS,山西大学计算机系研制的ABWS自动分词系统。北京师范大学现代教育研究所于1991年前后研制并实现了书面汉语自动分词专家系统,该系统首次将专家系统方法完整地引入到分词技术中。之后,又出现了一些新型系统,如清华大学SEG分词系统、清华大学SEGTAG系统、国家语委文字所应用句法分析技术的汉语自动分词系统、复旦分词系统、哈工大统计分词系统、杭州大学改进的MM分词系统、Microsoft Research汉语句法分析器中的自动分词系统、北大计算语言所分词系统、北大计算语言汉语文本分析系统、中国科学院计算技术研究所ICTCLAS分词系统等。

实际应用的统计分词系统,都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既能发挥匹配分词切分速度快、效率高的特点,同时又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈