首页 百科知识 标准对照库的生成

标准对照库的生成

时间:2022-02-27 百科知识 版权反馈
【摘要】:表4-14 标准库样例BZK-1中的部分数据来源是关键词标引,在生成过程中虽然进行过部分筛选,为了确保数据的准确性和规范化,必须对其中的部分标引词规范为正式叙词。BZK-1转换为正式的分类号—主题词对照数据库。
标准对照库的生成_情报检索语言的兼容转换

4.4.2 标准对照库的生成

经过上述处理,每个样本库中的每个标引词(串)都确定了一个分类号,并去掉了大部分通用词、外类词和错误记录。如果设计的分类表—叙词表转换系统仅仅用于机器辅助标引和检索,可以不再进行人工辅助筛选,允许一定错误记录存在,因为用户在标引和检索时,可以很容易作出判断。本实验从YBK1,YBK2,YBK3和YBK4四个数据库中共筛选出2 282条记录,组成新的对照数据库(简称BZK-1)。由于标引记录中有的采用关键词标引,可以采用《汉语主题词表》进行部分同义词规范。

如果要求对照库提高准确率、降低对应的差错率,可将BZK-1数据库按标引词排序,人工浏览差别,删除冗余记录和错误记录。筛选的优先级别(由高到低)规定为:

(1)专指度高的标引词,优先级别高。样例见表4-12。

表4-12 标准库筛选样例(1)

img99

(2)组配标引词与先组式标引词优选级别由标引词出现频次决定,标引词出现频次高,优先级别高。样例见表4-13。

表4-13 标准库筛选样例(2)

img100

本实验共选择出1 662条记录(包括标引词串),筛选率为1%。因为YBK库中包含大量非专业词汇,并且大多数非词汇出现频次较低。按筛选标准这些词汇被自动筛选掉,所以人工再选择花费的精力较少。标准库1(BZK-1)记录格式见表4-14。

表4-14 标准库样例

img101

BZK-1中的部分数据来源是关键词标引,在生成过程中虽然进行过部分筛选,为了确保数据的准确性和规范化,必须对其中的部分标引词规范为正式叙词。具体操作步骤如下:

(1)从《汉表》中抽取出与F83类有关的所有叙词和非叙词,生成《汉表》数据库(简称CT)。为便于查找与F83类有关叙词和非叙词,先根据《中国分类主题词表》第一卷中各个分类号所对应的主题词,在第二卷找到相应的款目,然后建转换成数据库格式。数据库结构如表4-15所示。

表4-15 《中国分类主题词表》的数据格式

img102

续表 4-15

img103

(2)将CT库中有用项和代项的叙词(非叙词)与标准库进行自动匹配,自动将非伤亡转换成正式叙词。部分未转换的关键词则自动上升为主题词,作为增补的自由词。

(3)将BZK-1中一条记录对应的多个主题词组合成主题词串格式。BZK-1转换为正式的分类号—主题词对照数据库。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈