首页 百科知识 自动标引存在的问题与研究展望

自动标引存在的问题与研究展望

时间:2022-02-27 百科知识 版权反馈
【摘要】:自动标引研究与应用展望从自动标引研究路线图可以看出,自动标引的研究主流方法为统计学习模型与语言知识的结合。因此,寻求更加理想的机器学习方法,并用于自动标引任务中,是今后自动标引研究的趋势之一。同时,自动标引的应用领域将不断扩展。
自动标引存在的问题与研究展望_文本自动标引与自动分类研究

2.1.5 自动标引存在的问题与研究展望

(1)自动标引存在的问题

自动标引中存在的问题包括标引数据集不平衡问题、标引代价敏感问题、标引数据标注瓶颈问题、标引颗粒度问题、标引关键词数问题、标引结果评价问题、标引系统实用化问题等七个方面的问题。下面分别对这七个问题进行说明。

①标引数据集不平衡问题

对于一个文本来说,通常标引关键词词数为3~5个,标引的关键词词数要远小于标引的非关键词词数。从自动分类角度来看,这个问题一般被称为分类数据集不平衡问题。在数据偏斜情况下,样本无法准确反映整个空间的数据分布,分类器易被大类淹没而忽略小类,分类不平衡问题是导致分类效果不理想的一个重要因素[50]

②标引代价敏感问题

在实际的关键词标引中,人们一般不希望将关键词误标为非关键词,一个关键词漏标的代价比将一个非关键词标为关键词的代价高。这个问题一般被称为代价敏感问题。

③标引数据标注瓶颈问题

机器学习算法需要大量标引样本,但已标引样本所能提供的信息有限。另一方面,容易获得的未标引样本数量相对于标引样本较多,且更接近整个样本空间上的数据分布。提供尽可能多的标引样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题[50]。因此如何用少量已标引样本和大量未标引样本训练出一个好分类器,逐渐引起人们的关注[50]

④标引颗粒度问题

一般说来,较专指的词适合作关键词,但专指度并不是越大越好。过于专指,不仅增加了自动标引的难度,而且,在实际应用中,比如信息检索中,由于该词过于专指,不被一般用户所接受,使得该词作为检索入口的概率就会减小。在文本聚类中,专指越多,则特征向量越容易稀疏,增加了聚类的难度。因此,应该根据应用的场合,进行专指度自适应式的关键词自动标引。

⑤标引关键词数问题

对标引的关键词数有限制。根据应用场合选择合适的数目。在信息检索中,关键词作为一个揭示文本主题的单位,标引的关键词数适合定在9个词以内。主要原因为:首先,根据“72”认知规则,“9”是一般用户不需要特别努力就能够记住的词条个数[51];其次,文献的关键词手工标引词一般为3~5个,最多小于10个。值得注意的是,在某些文件自动处理(如自动分类、自动聚类)应用中,为了增加特征数目,同时又不至于产生高维数据问题,一般将关键词数目控制在50个左右即可达到很好的特征选择效果[52]

⑥标引结果评价问题

传统的做法是对照人工标引的结果或者专家打分的方式,如863自动文摘测评中关于关键词提取的评估方法,这种方法比较主观,成本也比较高。因此,构建一个自动标引的通用评价模型,以减少自动标引的主观性,节省评价成本,是一项有意义的工作。

⑦标引系统实用化问题

绝大多数标引系统不是完全自动的,标引技术仍然处于实验阶段。正如十几年前Wellisch的比喻:“自动标引系统的研制在某种意义上恰似机械鸟的制造,经过20多年的试验,有些外貌开始像鸟,有些能够模仿几声鸟鸣,有些能扑打一番翅膀,但至今还没有一只会飞、会鸣”[53]。十多年过去了,标引系统的进一步实用化依然是人们追求的目标。

(2)自动标引研究与应用展望

从自动标引研究路线图可以看出,自动标引的研究主流方法为统计学习模型与语言知识(如词类、句法、语义、篇章结构等)的结合。今后的研究趋势主要存在如下四个方向:

①本体的自动构建,并用于自动赋词标引中

从自动标引的研究历史可以看出,绝大部分研究集中在抽词标引上面,图书情报、语言学、人工智能三个领域的研究者都对抽词标引进行了大量的研究与应用。由于资源的匮乏或词表造价昂贵,使得赋词标引研究与应用相对较少。即便如此,机器辅助编制词表的研究一直没有停止过,该研究成果可以直接用于赋词标引。近年来,随着本体学习的研究不断深入,本体有望自动或半自动地被构建,并且可用于自动赋词标引当中。基于本体的自动赋词方法是在概念层面上对文本进行标引,并能识别概念之间的关系,标引结果可以用于语义检索当中。

②多种标引方法的集成学习、更理想的机器学习方法的运用

标引是一项富有智能性的工作。我们可以借助认知理论对标引任务进行分析和理解[54]。自动标引模型,从最初依据启发式知识进行标引,发展到后来利用监督学习与非监督学习方法进行标引,都只是从一定程度上对标引行为进行拟合。目前还没有一种方法能完全能模拟并达到标引员的标引能力。多种模型或方法的集成,能在一定程度上提高自动标引的质量。多种标引模型或方法的集成学习要求每个标引模型标引结果存在差别,同时保证标引结果优于随机猜测的结果。因此,寻求更加理想的机器学习方法,并用于自动标引任务中,是今后自动标引研究的趋势之一。

③深层语言知识的获取及其在自动标引任务中的运用

自动标引主要依据候选对象的若干特征进行分析,将主题表达能力强的候选对象作为标引结果,如本章内容的标引结果为“自动标引、抽词标引、赋词标引”。在所使用的特征中,绝大部分是通过词法分析或少量的句法分析而来。随着深层语义分析和篇章分析研究的不断深入,这些研究成果可用于自动标引任务,提高标引质量。

④自动标引的应用领域将不断扩展

最初,自动标引被用来解决文献缺少关键词这一问题。自动标引发展到今天,应用早已超过这一范围,它已经被广泛用于文本检索、自动问答、文本知识发现(或称文本挖掘)等领域。今后,随着互联网海量数据规模的进一步扩大,“信息爆炸”问题将变得更加紧迫。对信息资源进行基于主题的自动标引,并进行后续的数据挖掘,不仅能解决高维数据计算问题,并且能从主题或语义层面上对信息资源进行揭示和控制。随着语义网的不断深入研究和应用,作为一个传统的研究课题,自动标引将不断被赋予新的含义和特定任务。同时,自动标引的应用领域将不断扩展。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈