首页 百科知识 建立篇名库的必要性和可能性

建立篇名库的必要性和可能性

时间:2022-02-27 百科知识 版权反馈
【摘要】:6.6.2 建立篇名库的必要性和可能性建立篇名库的必要性单纯依据关键词-分类号对应表进行标引存在着如下问题:首先,仅仅依据关键词来表达文章的主题使得标引具有不完备性,作者撰写文章时会提供主要的关键词,但并不是每个作者都能给出正确的或完全的关键词,有时还会存在关键词与内容不相符的情况。
建立篇名库的必要性和可能性_文本自动标引与自动分类研究

6.6.2 建立篇名库的必要性和可能性

(1)建立篇名库的必要性

单纯依据关键词-分类号对应表(即分类知识库)进行标引存在着如下问题:

首先,仅仅依据关键词来表达文章的主题使得标引具有不完备性,作者撰写文章时会提供主要的关键词,但并不是每个作者都能给出正确的或完全的关键词,有时还会存在关键词与内容不相符的情况。标引经验数据库中的关键词字段很多时候也存在不完备性,不能确切地反映文章主要内容。

其次,从《中刊库》、《社科库》中获取关键词-分类号对应款目,存在一个关键词对应若干个分类号的情况,比如在MARC中,“经济”一词,对应的分类号有“F11”、“F112”、“F112.7”、“F1166”,…,“F-61”、“F-62”等,共达60多种,由于“经济”这一关键词在主题表达上的宽泛性,仅仅依据数理统计知识从数据库中发现与其对应的分类号,结果还不是非常理想,例如通过相关度测度,得到的分类号为:“F12-54”(对应篇名:中国经济年鉴)。

显然从关键词-分类号上的对应情况看来,“经济”这一关键词显得过于宽泛,但通过分类号与篇名的比较可以看出,分类号与篇名具有很好的相关性。

另外还如:分类号“F12-53”出现50次,各自对应50种不同的篇名。

由此可见,单纯地利用关键词-分类号对应关系有时不能很好地表达主题,而利用篇名-分类号可以很好地解决这一问题,可提高文章的主题表达能力,并可以增加大量检索入口。

(2)建立篇名库的可能性

通过分析题录库中关键词标引来源可看出:文献标引者标引文献时几乎是依据原作者提供的关键词和篇名两个部分,若原作者没有提供关键词,则标引者几乎是采用篇名中的关键词来进行标引,可见篇名作为标引源的重要性。如:“中文专题篇名文献——以图书馆学、情报学、档案学篇名数据库的建库方法为例”原作者没有提供关键词,标引者标引结果为:文献数据库、建库方法、中文、专题篇名、篇名数据库,标引的5个词中有4个是直接取自于篇名,只有“文献数据库”是标引者的组配结果。依据《中刊库》的标引质量的统计调查发现,《中刊库》平均每条记录含主题词4.12个,其中取自题名的占66.26%,只有33%左右的主题词是标引员自拟的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈