层次分类原理

时间：2023-02-27 百科知识版权反馈

【摘要】：10．1　层次分类原理如本书第2章所述，多层分类是指多层类别关系下的分类问题。文献［3］～［5］文对中文文本的多层次文本分类进行了探索。文本分类系统，用文档和类别所表示成的空间向量之间的相似度，来表示两者之间的相似程度。如“住宅”这个特征项，在单层次分类时，有关房产的一些类别都是和“住宅”有关的，其对分类作用不大。每进行一次细分，都是在很小的类别范围内进行，因此，分类精度也较有保证。

层次分类原理_文本自动标引与自动分类研究

10．1　层次分类原理

如本书第2章所述，多层分类是指多层类别关系下的分类问题。多层分类中，类别关系的复杂和相互干扰以及不同类别层次间分类错误的传播都可能对分类器的准确性评估造成影响^［1—2］。文献［3］～［5］文对中文文本的多层次文本分类进行了探索。本章以向量空间模型为基础，进行文本分类算法的实验。

采用向量距离法进行分类，对于某个对象，分类器在进行类别匹配时，都要计算出一个数值来指示该对象属于该类别的相似程度。文本分类系统，用文档和类别所表示成的空间向量之间的相似度，来表示两者之间的相似程度。若相似度大于对应阈值，则分类成功。在进行特征提取时，一般的做法是，将所有文本类别都视为同一层次，提取出各类在同一层次条件下的特征向量，分类时，再计算待分类文档与各类中心向量的相似度，若满足阈值条件，则将其划分到相应的文档类。

采用以上方法，当文档类较少，并且文档类之间的区分度较大，亦即主题类别差异很大时，这种匹配策略能够较为有效地进行文档类的划分。但当文档类的数目较多，且存在两个类特征向量特别相近，其对应的文献又属于不同类别时，系统区分它们的能力严重依赖于训练文献集，而且能够起区分作用的一般是为数较少的一些特征项。在这种情况下，如果我们考虑类别体系的层次结构，则对应的文献又往往分别属于某一主题类的两个子类。此外，如果不考虑类别体系的层次结构，则对于存在相邻层次关系的类别，分类精度很难保证，并且在分类时需要进行所有文档类的匹配计算，运算量明显增大。

对此，我们在实验中也得到了验证。

其中，“工业”类和“化工”类等之间的区分度不明确，且分别归属于两个上层类目（分别是“重工业”和“石油化学工业”），所以导致它们之间的错分情况较为普遍，分类准确率也较低。

通过对分类系统的分析可知，一般的主题分类体系都有分层次的树状特征，这在以主题作为分类体系的一些商业网站中相当普遍，如Yahoo、Sohu等。归类文本也相应地可以根据分类体系划分为树状的多个层次（对于ChinaInfobank语料类，按照本书所采用的分类体系，具体分为2层），由内容相近的类组合成一个大类，内容相似的大类再组成更上一层的大类，如图10－1所示。