文本分类面临的主要问题

时间：2023-10-20 百科知识版权反馈

【摘要】：文本表示是文本分类的基础，因此，文本表示是否科学，直接决定文本分类质量的高低。文本表示存在的高维性和稀疏性，不仅使得文本分类的时间开销较大，而且会降低文本分类质量。关于新类别自动扩展问题的研究是一项有意义的研究工作。分类体系方面另一个重要的问题是多层次分类体系下的文本分类问题。通常所讨论的分类问题中，类别间是孤立的，认为它们之间没有相互联系，称之为单层分类。这些问题尚需进行深入研究。

文本分类面临的主要问题_文本自动标引与自动分类研究

2．2．4　文本分类面临的主要问题

（1）文本表示问题

文本表示是文本分类的基础，因此，文本表示是否科学，直接决定文本分类质量的高低。文本表示中存在同义词问题、语义孤立问题、词语表达能力差异问题。除此之外，文本表示中还存在如下几个问题：

①文本特征抽取问题。通常的中文文本分类是将文本切分后的词语作为特征，并且假设它们的出现概率是相互独立的。该假设与实际情况不相符。

②文本形式化问题。虽然文本可形式化表示为词汇的词形、词性及一些语法结构，但这样还是割裂了文本中原有的逻辑语义关系。

此外，文本通常被表示为向量空间模型，存在文本表示的高维性和稀疏性。文本表示存在的高维性和稀疏性，不仅使得文本分类的时间开销较大，而且会降低文本分类质量。

（2）训练集问题

利用机器学习方法进行文本分类，需要大量经过标注的训练集，但已标注的样本所能提供的信息有限；另一方面，容易获得（如通过互联网）的未标注样本数量相对于标注样本较多，且更加接近整个样本空间上的数据分布。提供尽可能多的标注样本需要艰苦而缓慢的手工劳动，制约了整个文本分类系统的构建，这就产生了一个标注瓶颈问题。因此，如何利用少量的已标注样本和大量未标注样本训练出一个好分类器，逐渐引起人们的关注^［107］。

另外，基于机器学习的文本自动分类系统，往往需要比较固定的训练集。由于新文献层出不穷，涉及的内容又千差万别，训练集中的文本不可能代表所有文献的主题内容。因此，新文本无法进行类别预测的情况时有发生。如果通过定期或者不定期地更新训练集，极易造成分类系统的不一致，而且需要大量的训练时间。新类别自动扩展可以屏蔽频繁维护训练集的问题，节省训练时间和保持分类系统的一致性^［108］。关于新类别自动扩展问题的研究是一项有意义的研究工作。

（3）分类体系问题

从理论上来说，合理的分类体系可以在一定程度上提高分类器的性能。例如，如果分类体系之间交叉重叠越少，训练集中各类别文本之间的差异就越大，类别和文本特征词之间的模糊性就越小。在该基础上训练得到的分类器就比较有利于新文本的分类^［108］。

分类体系方面另一个重要的问题是多层次分类体系下的文本分类问题。通常所讨论的分类问题中，类别间是孤立的，认为它们之间没有相互联系，称之为单层分类。而在类别较多且关系复杂的情况下，就需要更好的多层信息组织方式。多层分类是指多层类别关系下的分类问题。多层分类中，类别关系的复杂和相互干扰以及不同类别层次间分类错误的传播，都可能对分类器的准确性评估造成影响^{［107］［109］}。这些问题尚需进行深入研究。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈