首页 百科知识 标引对象的界定

标引对象的界定

时间:2022-02-27 百科知识 版权反馈
【摘要】:2.1.2 标引对象的界定在对自动标引的研究做比较分析时,首先要明确自动标引的对象,即关于标引主体的问题。本书对主题的研究仅限于图书情报领域所研究的“主题”。主题词又称叙词,它是以概念为基础,从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组。术语、主题词、标引词包含关系图图2-2 信息描述的颗粒度需要指出的是,本书对自动标引中的标引对象界定为关键词、关键短语或主题词。
标引对象的界定_文本自动标引与自动分类研究

2.1.2 标引对象的界定

在对自动标引的研究做比较分析时,首先要明确自动标引的对象,即关于标引主体的问题。与自动标引比较相关的概念主要有标引词、主题词、关键短语、术语等,本节对这些概念作简要介绍。

标引词是指表示文献内容特征的词语,包括主题词、关键词、关键词短语(也称关键短语)等。在图书情报领域,关键词是指揭示文献主题的、有实质意义的语词,一般来源于文献的标题、摘要、正文等部分[5]。在图书情报界,主题是指能概括文献的主要内容、具有一定描述规则的规范化词语。在自然语言处理研究领域中的话题检测与跟踪(Topic Detection and Tracking)研究中,话题通常被定义为“由某些原因或条件引起的发生于特定时间和地点,并可能伴随某些必然结果的一个事件”[6]。在语言学界,与“主题”这一概念相关的概念还有“话题”。本书对主题的研究仅限于图书情报领域所研究的“主题”。主题词又称叙词,它是以概念为基础,从自然语言中优选出来,经过规范化处理的具有组配功能的动态性词或词组。在情报检索中,用它来描述文献和检索提问的主题内容。它是构成主题词表的最小词汇单元。主题词包括正式主题词和非正式主题词两种。正式主题词是规范化的、用于标引和检索的词或词组;非正式主题词是收在主题词表中,提供从非规范词指向规范词的检索入口的引导词。主题词或主题词集合是浓缩程度最高、含义最明确的替代文献形式[7]。关键短语是具有强文本表示功能的特征短语。所谓强文本表示功能,是指在文本表示时,能将文本的内容特征(例如领域类别、主题思想、中心意义等)鲜明地表达出来[8]。通常所说的短语范围很广,包括自由短语、固定短语和半固定短语三类[8]。术语是各门学科为确切表达本领域内的概念而创造和使用的专门词语[9]

可以看出,“关键词”概念比较模糊,有的关键词本身就是关键短语。图2-1给出术语、主题词和标引词的关系[10]。如图2-2所示,根据文本描述颗粒度不同,可将信息描述粗分为自然语言和控制词表两种方法,其中自然语言途径有全文、文摘、标题、关键短语、关键词等,控制词表途径有标题词、元词、分类款目、主题词等[11](略有改动)。

img3

术语、主题词、标引词包含关系图

img4

图2-2 信息描述的颗粒度

需要指出的是,本书对自动标引中的标引对象界定为关键词、关键短语或主题词。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈