首页 理论教育 美国主题标引探讨

美国主题标引探讨

时间:2022-03-10 理论教育 版权反馈
【摘要】:了解它的主题标引工作,找出它的优缺点,对提高我国图书标引质量、开发情报学和图书馆学文献资源是十分有益的。ISA的主题标引频率是指所用词的标引次数,是标引词实用性的体现。我国文摘刊物主题标引的平均深度一般均小于5. 33,而且差距较大,在这方面应向ISA学习。

美国ISA主题标引探讨

陆宗城 叶新明

主题标引是开发利用文献资源的重要手段。随着信息技术的发展,计算机存储文献题录、文摘乃至全文的速度大大提高。如何使情报用户能高效、准确和全面地检索到所需的文献信息,是当前必须研究的课题,对提高主题标引质量的探讨则无疑是极为重要的一环。因此,开展对具有国际影响的文摘数据库和文摘刊物主题标引的研究,并提出改进意见,就显得意义重大了。

美国《情报学文摘》(In formation Science Abstracts,简称ISA)是美国工业新闻社联机数据库(IFIOnline Database)的202号文档,它提供情报学与图书馆学领域内44个国家用22种语言发表在750多种期刊和其他出版物上的文章题录和文摘,并对所报导的文章一一作了主题标引,以利于用户检索。该文档现由普莱纳姆出版公司(Plenum Publishing Corporation)出版同名印刷型月刊,是一种闻名世界的权威性文摘刊物。了解它的主题标引工作,找出它的优缺点,对提高我国图书标引质量、开发情报学和图书馆学文献资源是十分有益的。

一、ISA的主题标引工具

ISA创刊于1966年,在1966—1983年间,ISA是用自由词标引文献的。1984年,ISA编制了一份《受控标引词表》(Controlled Identifiers List,简称《词表》),同年起用受控词及自由词标引文献。笔者在上述联机数据库的用户指南中发现,该词表的1988-02版本既不揭示任何词间关系,也没有索引,所收910个词(其中telemetry一词重复,实收909个),均按字顺编排,还不是严格意义上的叙词表。

现就《词表》启用后5年(1988—1992年)内ISA的文献主题标引情况作统计分析(见表1至表4)。

表1 受控词的年使用量及所占标引词总数的百分比

img2

从表1看,受控词的平均使用量仅占标引词年平均使用量的59.1%(1994年为59.3%),其余均为自由词。5年累计自由词更多,难免发生不规范现象,降低文献的检全率。

表2 受控词的年使用量及所占受控词总数(909个)的百分比

img3

从表2看,受控词表所收的词平均使用率为90. 5%,说明收词比较恰当。但有33个词在5年中从未使用;另有5年中年使用频率平均不超过1的受控词达77个。从词量控制和提高标引速度考虑,这110个词及另外一些标引频率也很低的词,似应从《词表》中剔除。

表3 《词表》中各受控词的分面统计

img4

从表3看,属主体面的受控词占总数的80%,这是正常现象,因为它们是检索的主要入口词。表中主体面的本专业包括情报学、图书馆学及计算机科学三门不可分的学科,以及其他专业所涉及的学科。值得注意的是:①时间面只有future一词,这是由于文献的时间因素一般隐含在文献的发表年代中,同时标引较为粗略;②位置面的词较少,是由于所收词只限于国名,各国的地区性词尚未收入之故。总的来说,《词表》收词虽不多,但ISA实际的标引用词却不受此限。例如1988年,除了使用824个受控词外,还使用了661个自由词。

表4 《词表》中各自由词的分面统计

img5

从表4可以看出,在1988年的661个自由词中,同《词表》的分面统计比较:①主体面的自由词所占百分比增加了2.9%,其中本专业词所占百分比增加了10.9%,这种情况主要反映了计算机科学的发展对情报学和图书馆学的影响;②位置面的词所占百分比增加了3.3%。这是由于论及国家、州和城市的文献增加了,而且逐年有所增长;③通用面和文献类型面所占的百分比分别减少了3%和3. 3%,这说明《词表》中这两方面收词较为丰富,文献类型面的词甚至已接近完备;④时间面虽只有historical aspects一词,但实际标引频率逐年递增。

二、ISA的主题标引深度及频率

ISA的主题标引深度是指每篇被摘文献的标引词数量,是ISA开发文献资源深度的体现。ISA的主题标引频率是指所用词的标引次数,是标引词实用性的体现。两者均与文摘数量和所用词的数量密切相关。现作如下统计分析(见表5至表7)。

表5 ISA的年主题标引深度

img6

从表5可以看出:①各年文摘量多寡不一。按ISA摘编文献的原则,核心期刊的文献全摘,其余文献选摘。因此,文摘量大体取决于各年发表文献的质量和摘入期刊的数量。②所用各标引词出现的年总频率的增减,大体与年文摘量同步。如1994年文摘量为8500篇,多于1988年,少于1992年。词的标引总频率为48006,也多于1988年,少于1992年。③文献主题标引平均深度从1989年起逐年递增,1994年为5. 65,也符合这种趋势。我国文摘刊物主题标引的平均深度一般均小于5. 33,而且差距较大,在这方面应向ISA学习。然而ISA作为联机数据库,它的平均标引深度应该按机检要求作进一步提高,一般要达到7。ISA作为书本式检索工具,若复印一份其年度主题索引,即可作类似于机检的组配对号检索,因此也有待于提高其主题标引深度。

表6 ISA标引词的年标引频率

img7

* 876个受控词的平均标引频率;** 1797个自由词的平均标引频率;***累计2673个标引词的平均标引频率。

从表6可以看出:①受控词与自由词的平均标引频率相去甚远。这说明《词表》所列受控词大多具有较大或极大的标引频率,作为标引和检索时的选词工具,《词表》选词是符合文献依据的。它富于科学性和实用性,值得借鉴。②自由词的年平均标引频率呈稳步上升的趋势,其中部分自由词的标引频率甚至已超过受控词的平均标引频率50。例如:1994年自由词标引频率较高的有:Internet(281)、neural networks(207)、historical aspects(152)、chemistry(146)、nonlinear systems(138)、object-oriented systems(135)、multimedia systems(101),而且自由词年平均标引频率在50以上的不在少数。③自由词的各年总平均标引频率为1. 7。

表7 ISA各标引词1988—1992年累计标引频率的分组统计

img8

低于1988年、1989年,更低于1990年、1991年、1992年,这是由于5年里新增自由词较多,自由词累计数量增加之故。由于自由词新增较多,以致影响到标引词频率的各年总平均。

《词表》现收词909个,标引文献的自由词累计1797个,共计标引词2706个。这些词的标引频率从0~3404不等,差距极大。从表7看:①标引频率最高的10个词,占各词标引频率总数的12. 65%,若加上标引频率次高的10个词,则占各词标引频率总数的19. 27%。②标引频率为0及1的词竟有1122个,占总词量的41. 46%,它们的标引频率却只占各词标引频率总数的0. 46%。

1994年实际用词共824个,它们的标引频率相差也很大,最高的达860。《词表》中有85个词标引频率为0,291个词标引频率为1,其中85. 6%集中在所用的自由词中,占到它的44. 1%。以上对标引词的年平均标引频率及累计标引频率的统计分析,都证明《词表》的增删工作已迫在眉睫。

三、ISA所用自由词的问题

ISA所用自由词为受控词的2. 05倍,其中问题很多。从书本式的ISA看,存在的问题主要有:

(一)缩合词五花八门

如:①不注明其全称的单纯缩合词,其中有常用的,因而可不注明其全称的,如AACR2、DIALOG、OCLC等;也有罕见的,应注明全称而未注的,如ABI/INFORM、GESCAN、V LSI等。②与其全称同时标引的缩合词,其中绝大多数是全称加注缩合词同缩合词加注全称两种词形互见,如DDX(digital data exchange)与digital data exchange(DDX);其次是只有缩合词加注全称的,如有DOS(disk operating systems),而无disk operating systems(DOS);也有的是只有全称加注缩合词,如有difference triangle sets(DTS),而无DTS(difference triangle sets)。③缩合词词形的不一致,如:metropolitan area networks(M AN),metropolitan area networks(M AN′S),加上两种词形的互见,甚至还有不带缩合词的metropolitan area networks,一个词竟化成了5种形式。

如:end user与end-users,non-printmedia与nonprintmedia,object oriented programming,object-oriented programming与object/oriented programming,还有New York[state]与New York(state),等等,都是因为用不用连字符或用什么标点符号而引起的概念相同而词形不一的情况。另外还有同一概念用不同的词语来标引的,例如:multiaccess systems与multiple access systems,还有Dewey Decimal Classcification与Dewey Decimal Classification(DDC),等等。

(三)印刷差错

(二)词形不一

如:databuses与databases(√),infometrics、inforetrics与informatrics(√),PA L(programmable array logic)与PLA′S(programmablelogic arrays)(√)等,都用来标引文献,而只有带(√)符号的才是正确的。最突出的例子是ISA1994年主题索引中的一段标引词(后面的数字是该词形的标引频率):

a)A TM(Asynchronous tranfer mode)Technology 1

b)A TM(asynchronous tranfer mode)1

c)A TM(asynchronous tranfer mode)Technology 21

d)A TM(asynchronous tranfer mode)Technology 1

e)A TM(asynchronous tranfer mode)Technology 16

f)A TM(asynchronous tranfer mode)Technology 1

说明:a、d和f为明显的印刷错误;c和e词形相同,重复而未归并;b可能漏掉Technology一词。

以上缩合词和非缩合词的不规范和印刷差错都会导致检全率的降低,必须加以纠正。

四、改进意见

ISA的主题标引有许多方面值得我国同行学习和参考,但作为情报学界具有国际影响的数据库和文摘刊物,在当前文献资源国际共享的要求日益迫切的情况下,其值得改进的地方还是不少的:

(一)关于主题标引工具

ISA1988年的受控标引词表是ISA数据库用户指南的构成部分,看来主要是供检索者选词之用的。为了提高选词效率和质量,建议:①仿美国《图书馆学与情报学文摘》(Library and In formation Abstracts,以下简称L ISA)的叙词表那样修订,并增编叙词的索引,至少需有范畴索引。②要大量增词。LISA叙词表1987年版收词已达6000个左右,而ISA1988—1992五年内实际使用的受控词及自由词累计2673个,至1994年累计也不过3300个。当然不是说全部自由词都转化为叙词,因为所用的自由词还必须规范化。③要适当删词。5年内没有标引频率,虽偶尔标引,此后又不再用来标引文献的受控词似应删除。此外还有一些专有名词,如人名、机构名、国名等,只要不存在异名和容易拼错的,均可酌情删除。删除了的词,今后均作为自由词标引,以控制词量。④酌情提高标引词的先组度。部分标引频率特高的标引词(下称高频词),有必要在前后加限定词,以提高其专指性,从而节省检索时间。但提高先组度应符合自然词序。例如:databases→bibliographic databases、full textdatabases,这样提高是好的;memory→memory(human)和memory(computer)则不妥,而Washington(DC)和Washington(state)则可。⑤为数据库编制高频词表。将标引频率最高的一批受控词,按它们的标引频率由高到低,从0起顺次编号,然后将这些词按字顺列表,这就是高频词表。可将此类表同时置于录入员和检索者案头,或显示在计算机屏幕上。以频率最高的10个词为例:

Algorithms     0    artificial intelligence  1

Communications   2    computer networks     3

computer programs  4    databases         5

models       6    patents          7

programming     8    software         9

同时赋予计算机从数码转换成标引词,也即检索词的功能。这样,标引或检索这些高频词时,都只需按1次键,从而节约了10倍以上的时间。由于这些词标引频率极高(1988—1992年合计达29676次),因而这么做的好处极大。按我们的统计,即使高频词增至100个,标引或检索一词,平均按键也不到2次。按抽样调查,每个标引词平均由14. 2个字母组成,因此每次节约时间达5. 5倍。

(二)关于主题标引质量

高质量的主题标引能充分开发文献资源,满足用户信息需求,而不致造成误检。ISA的主题标引是由专家与助手们一起完成的,其质量无疑是比较高的,但为了带动其他专业数据库和文摘刊物提高标引质量,我们建议:①从搞好文献在版主题标引着手。ISA可以要求摘及的各种出版物,特别是各种核心期刊在出版前搞好所发表的文献的主题标引工作。它们不仅要按机检要求适度地搞好每种(篇)文献的整体标引和分析标引,必要时还要像《新不列颠百科全书》那样,在标引词后注明索及内容的所在页码和具体位置。每篇文章的标引深度应规定在4~10之间,平均不低于7,专著按篇幅有相应的标引深度,特别要避免忽视缩合词的多义性和遗漏那些有检索意义的隐含主题因素。②狠抓在版主题标引的审改。ISA应对著者和出版社的主题标引作认真审核,并适当予以增、删、改,而且特别要注意那些自由词的词义和词形,使之成为准叙词。在它们达到一定的年平均标引频率时,即可连同它们的同义词等一起补入本专业叙词表。ISA每年应对摘及的各种出版物的主题标引质量作客观的评比,并公布评比结果,对名列前茅的要予以奖励。③竭力防止标引词的录入或打印错误。从1988—1992年及1994年的情况看,ISA的年度主题索引中发现了不少印刷错误,以致一个标引词的文献号分散著录于几个检索入口之中。那些错词在机检时无从找到,在手检时只有相邻的才可能找到,因而使前述提高标引质量的努力付诸东流。因此,文献检索前的这道工序必须严格把关。

参考文献

[1]Information Science Abstracts.Subject Index to Vol.23~27 and 29,1988—1992 and 1994,New York,Plennum.

[2]Information Science Abstract.Controlled IdentifiersList.IFI Online Database:User Guide,Feb.1988,New York,Plenum.

[3]L ISA Online User Manual.Thesaurus,2nd ed.Oxford,New Jersey,Learned Information,1987.

[4]《情报学叙词表》课题组:《情报学叙词表:范畴表(试用本)》,1994年。

[5]侯汉清、马张华:《主题法导论》,北京大学出版社1991年版。

[6]刘湘生:《主题法的理论与标引》,书目文献出版社1985年版。

[7]丘峰:《情报检索与主题词表》,书目文献出版社1985年版。

[8]侯汉清:《当代分类法主题法索引法研究》,书目文献出版社1993年版。

(原载《图书情报工作》1997年第4期)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈