首页 理论教育 分类知识库中存在分类错误现象

分类知识库中存在分类错误现象

时间:2022-02-27 理论教育 版权反馈
【摘要】:6.5.2 质量测评对本系统中所用的分类知识库进行抽样,将主题词与分类号的对应情况与《中分表》相比,来验证分类知识库的质量。从实验结果可以看出:在数量上,分类知识库比《中分表》多,分类知识库具有较好的文献保障,更新容易;在质量上,分类知识库用作文本自动标引和自动分类用知识库,具有很高的质量保证;此外,从功能上还可以看出,分类知识库较《中分表》应用更方便,扩充性强,可满足实际需要。
质量测评_文本自动标引与自动分类研究

6.5.2 质量测评

对本系统中所用的分类知识库进行抽样,将主题词分类号的对应情况与《中分表》相比,来验证分类知识库的质量。

本书从分类知识库中随机抽取400条记录,将记录的主题词、分类号字段与《中分表》进行比较,统计比较结果如表6-11所示。其中:

①完全相同:指该记录来自于《中分表》;

②基本相同:指该记录和《中分表》在分类号一致的情况下,主题词字段中的前两个词与《中分表》中的主题词相同或为同义词

③基本相关:指该记录和《中分表》在分类号一致的情况下,主题词字段中的前两个词与《中分表》中的主题词不相同或者不相似,但具有相关关系;

④错误:不具有以上关系的对应被认为是错误的,或称“不相关”。

img71

表6-11 分类知识库抽样统计结果表

img72

由表6-11可以看出,分类知识库与《中分表》相比,相关率高达98.25%,其中基本相同和基本相关记录占总记录数的93.25%,错误率仅为1.75%。此结果表明了Web挖掘分类用知识库具有很高的质量保证。

值得注意的是,基本相关的依据是分类知识库的主题词字段的前两个词与《中分表》比较的结果,而取前两个词的依据来自它们在字段的排序结果(见4.3.2节内容),因此,前面的方案对本部分的测试有一定的影响。若排序结果不当,则会“隐藏”掉主题表达能力强的主题词。

根据系统运行的结果(见本书第8章),采用分类知识库对随机抽取的网页的标引正确率接近80%,词表的编制速度快,开放性好,有着良好的文献保障,对新知识反映速度快,可以标引绝大多数经济类网页,但仍有一部分文本不能正确标引。标引错误的原因分析如下:

①语义相似度阈值过高

从网页中抽取的关键词串通过简单字面匹配在知识库中无法找到匹配记录,并且语义相似度计算无法达到设置的阈值,导致分类错误。例如对编号为HTSC_4的文本的提取结果为:

[配售+53][新股+51][投资者+15][体现+14][市场+14][含金量+10]|市场|F014.3

抽取出反映网页内容的“配售”、“新股”在知识库中没有与之匹配的记录,因此分配到了“市场”大类下。

②分类知识库中存在分类错误现象

这种现象在随着最小支持度阈值(min_sup)和最小置信度阈值的增大而愈加明显。例如编号为HTSC_4的文本的提取结果为:

[明显+11][宏观研究+10][市场研究+10][通货紧缩+8][经济+7]|通货紧缩|F723

抽取的主题词串在知识库中只找到了匹配的概念词“通货紧缩”,但知识库中存在错误记录“通货紧缩—F723”,因此将应属“F812.0”的网页错分在“F723”下。

③主题提取不准确导致分类错误

有些网页的title项不能很好地反映主题,在网页关键词抽取中,抽取到了主题表达能力较弱的关键词,致使无法找到正确的匹配记录。例如编号为HTSC_7的文本的提取结果为:

[财经+15][消息+10][汽车市场+9][轿车+7][中国市场+7]|市场—调查—中国|F723

该html文本的title项为《财经消息》,题名为《海外车商中国鏖战》,而权重方案中取title的权重为最大,使得主题表达能力较弱的关键词,如“财经”、“消息”等成为概念词串的一部分。

以上三个方面,与分类知识库相关的只有第二个方面,即分类知识库中存在分类错误现象。实际上,分类知识库来源于专业标引人员的标引结果,是一种标引经验的积累成果。如何从庞大的经验库中去伪存真、去粗取精,获得使用于自动分类的知识库,是一项比较有探索意义的课题。

本书系统化地说明了知识库的构建过程,说明了构建分类知识库的重要意义。

从实验结果可以看出:在数量上,分类知识库比《中分表》多,分类知识库具有较好的文献保障,更新容易;在质量上,分类知识库用作文本自动标引和自动分类用知识库,具有很高的质量保证;此外,从功能上还可以看出,分类知识库较《中分表》应用更方便,扩充性强,可满足实际需要。另一方面,对于分类知识库的质量控制还有待于进一步深入研究。在下一节中,我们就利用篇名知识库,进行了初步的研究,以期扩充分类知识库的功能,提高分类的效率和准确率。此外,通过对知识库进行人机结合审定的方式,也可以提高知识库的质量。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈