5.5 自然语言叙词表的存储与显示
自然语言叙词表是为了提高网络检索效率而设计构建,根据其应用环境、使用对象、开发环境、算法设计等多方面的需求分析,经过逻辑设计组织其在数据库中的存储结构,包括内核主题词表及词间关系表,外壳关键词表以及关联概念空间表的数据结构,目的是方便网络信息检索系统调用和查询。
财税自然语言叙词表存储在ACCESS数据库中,为了方便管理和使用,把整个财税自然语言叙词表分成三个部分,以五个数据表分别存储。各组成部分及存储格式如以下各表所示,其中数据类型符号integer表示整型数据,string表示字符串型数据,single表示单精度数据。
(1)内核主题词部分
①内核字顺表:
表5-5 内核字顺表字段
②入口词表(同义词表):
表5-6 入口词表字段
③词间关系表:主要存储词间等级关系与相关关系。
表5-7 词间关系表字段
(2)外壳关键词部分
表5-8 外壳关键词词表字段
(3)关联概念空间
关联概念空间是联系内核主题词与外壳自然语言关键词之间的桥梁,同时也是内核主题词部分词间等级与相关关系自动构建的基础。
表5-9 关联概念空间表字段
其中,对于两词汇W1和W2无论是内核主题词还是外壳关键词,均按字顺排列,如果W1在前则term1=W1,term2=W2;否则term1=W2;term2=W1。
当用户使用自然语言叙词表时,并不明确其在数据库中的存储格式,需要以某种方式显示出来。自动构建系统设计了词表查询模块,能够支持单个词汇的查询显示和内核主题词的字顺表生成和导出功能。另外,自然语言叙词表也可以采用XML(可扩展标记语言)表示和存储,利用XML良好的数据存储格式、可扩展性、规范性和灵活性等特点,便于词表的管理和共享利用。同时也能采用语义网方式把词间关联显示给用户,如利用本体构建工具Protégé对自然语言叙词表进行可视化显示等[16]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。