首页 百科知识 受控词表互操作的显示及可视化

受控词表互操作的显示及可视化

时间:2022-02-27 百科知识 版权反馈
【摘要】:系统设计开发了“教育词库的构建和应用管理系统”,首先通过不同受控词表之间互操作的实现,完成教育词库的构建,然后将转换结果以界面形式显示给用户。词库数据以《中分表》为核心展开,进而显示其对应的其他词表的相关信息,如图4-9所示。
受控词表互操作的显示及可视化_受控词表的互操作研究

4.5 受控词表互操作的显示及可视化

通过采用各种不同的方法基本完成了分类语言、主题语言及受控词表和自然语言之间的转换,建立了分类兼容矩阵和主题兼容矩阵两个集成词库。但互操作结果以后台数据库形式存储,不方便用户查看和使用,需要通过一定的可视化界面将其显示给用户。

4.5.1 基于数据库的单机模式显示

为了方便、有效地利用词库中的词汇数据,必须将词库数据以一定的可视化界面显示给用户,首先采用的一种方式是单机模式的数据显示,根据需要读取后台数据库的数据,以系统界面的模式将结果返回给用户,供用户浏览和选择。系统设计开发了“教育词库的构建和应用管理系统”,首先通过不同受控词表之间互操作的实现,完成教育词库的构建,然后将转换结果以界面形式显示给用户。词库数据以《中分表》为核心展开,进而显示其对应的其他词表的相关信息,如图4-9所示。

首先,用户可以通过《中图法》类目以浏览的方式来查看兼容结果。基本思想是:将《中图法》类目以树形结构显示,通过点击任一类目,可以显示该类目对应的其他兼容分类表中的信息,包括《科图法》和DDC,显示其对应的分类号、类名及注释;另外通过《中图法》类目链接到其对应的《中分表》主题词或主题词串,然后再通过点击任一主题词,显示该词对应的其他兼容主题词表中的信息,包括《教词表》和《社科表》,显示该词对应的主题词、分类号、代、属、分、参等参照项内容。

系统还设计了检索功能,用户可以通过分类号、主题词进行检索,此处检索的是《中分表》中的分类号和主题词,匹配方式包括精确匹配、前方一致和任意一致三种,用户可根据需要进行选择。通过分类号检索,是在分类兼容矩阵中检索《中图法》分类号,结果返回该类号对应的《中图法》类号、类名、注释,对应《中分表》中的专指主题词和附属主题词,以及对应的《科图法》、DDC的分类号和类名。通过主题词检索,是在主题兼容矩阵中检索《中分表》主题词,结果返回《中分表》主题词、分类号、英译名,以及该词对应的《教词表》、《社科表》的主题词和分类号。通过以上两种方式,用户可以查看任意分类号或主题词的兼容结果。对于不熟悉《中分表》的用户来说,系统还加入了自然语言检索,即用户可以直接输入关键词进行查找,系统为其返回对应的《中分表》分类号或主题词,然后可以进一步查找其他兼容词表中的信息。

img76

图4-9 基于单机模式的数据可视化界面

4.5.2 基于XML的显示

对于本实验来说,已建立的教育词库包括“分类兼容矩阵”和“主题兼容矩阵”两部分,另外还有很多其他的词表数据。采用系统界面模式显示数据,需要多次读取数据库,并且数据不能一次完全显示,只能单条浏览、检索,不便于用户使用。所以为了使其更广泛、有效的得到利用,实现词库的信息交换和信息再利用,现将其转换为XML文档,进而可以在XML文档上进行数据浏览和使用。

(1)XML技术简介

XML是扩展标记语言(Extensible Markup Language)的简称,它是W3C为便于组织网页信息而创建的一组规范,目的是确保在通过网络进行交互合作时,具有良好的可靠性和互操作性9。XML的基本思想是:用标记表示数据的意义,即XML没有定义文件中数据出现的具体规范,而只是在数据中附加标记来表达数据的逻辑结构和含义。用户可以根据自己的需要自定义一套语义标记,来识别文档的信息内容,可以用它来表达各种类型的数据。

用XML文件来存储数据有很多好处。第一,XML允许各个组织和个人创建适合自己的标记,使得XML足够简单且易于阅读,同时又易于被应用程序处理。第二,XML可以实现异构数据库的管理和应用,即XML可以包含从多个数据源中取得的数据,使得原本处于不同平台和属于不同格式的文件数据可以放到一个统一的平台上10,这有利于资源的共享和充分利用。第三,它可以将结构、内容和表现相分离,从而使材料可以多次重复使用;1个XML源文档只写1次,却可以用多种不同的表现形式显示出来,如新闻发布、演示和Web页面等形式,充分提高了数据的使用率。

总之,XML具有良好的数据存储格式、可扩展性、规范性和灵活性等优点,可以方便的和应用程序交换数据,比传统数据库模型有更加强大的描述能力。因此受到了人们的普遍关注,应用日益广泛,目前已经成为网络上信息表达和数据交换的标准。

(2)数据库到XML的转换

关系数据库经过数十年的发展,在理论基础、查询语言、安全机制等方面具有很大的优势,而XML在数据自我描述能力,跨平台、可扩展性等方面又有自己的优势。所以把二者结合起来,使结构化数据和XML数据共存,从而便于应用程序更好地应用这两类数据。

XML是一种文件格式,没有规定与数据库的连接方法,需要用传统的方法连接数据库,进行数据库查询,然后将查询结果转化为XML格式。本系统利用VB编写程序,实现对数据库的连接和查询,结果直接保存生成XML文档。

①设计XML的文档描述格式,即生成XML文档的DTD。基本思想是:以《中图法》分类号为起始节点,类目为概念节点,然后依次显示该类目在其他分类法、主题法中的对应信息。具体XML格式参考ADL叙词协议格式,分为两种情况:一种是主题格式(subject.xml),即查询结果只显示类目在其他词表中的对应概念词;另一种是主题描述格式(subject_description.xml),是要具体显示各对应词表的详细信息,如分类表显示其对应分类号、类名、注释,主题词表显示对应主题词及其分类号、英译名、参照关系(代、属、分、参)等内容。下面分别列出了两种不同XML格式对应的DTD文档:

img77

img78

img79

②利用VB语言编写程序,对数据库数据进行查询,从“分类兼容矩阵”中读取数据,包括《中图法》分类号、类名、《中分表》主题词以及对应《科图法》、DDC、关键词串数据,然后再到“主题兼容矩阵”中查找《中分表》主题词,提取出该词对应的《教词表》、《社科表》数据。对于第二种XML格式文档,还要到各个词表进行查询,提取出每个词的详细信息。

③通过上述查询后,直接将结果保存为XML格式的文件,即可生成对应XML文档。将XML文档直接在Web浏览器上显示,如图4-10、图4-11所示结果片断。

img80

图4-10 subject.xml示例片断

img81

图4-11 subject_description.xml示例片断

对于本系统来说,采用XML文档格式存储显示数据有以下优势:

第一,XML文档可以采用编程来生成,即可以便捷地转换大批量的数据;

第二,XML文档是由数据库中的数据动态生成,当数据库被更新时,XML文档也随着更新;

第三,XML可以将所有数据库信息集成为一个XML文档提供给用户,然后用户可以以自己希望的形式显示数据,提高数据的使用率;

第四,通过XML作为中间层处理数据,可以更方便地实现Web应用,从而使词库得到进一步的推广和应用。

4.5.3 基于本体构建工具的可视化显示

基于XML格式存储和显示数据,虽然可以将词库数据进行整合,一次显示多条记录,但只能以树状层次结构展开,可读性差,不便于用户理解。本体的提出,正好弥补了这一不足,它可以将某个知识体系的信息资源进行结构化组织,反映词汇之间的语义关系,并且以图形化的界面形式提供给用户。

(1)本体简介

本体(ontology)的概念起源于哲学领域。近年来,人们将本体的概念引入人工智能、知识工程和图书情报理论,用以解决知识概念表示和知识组织体系方面的有关问题。关于本体的定义有很多种,国外学者Gruber,Borst Pim等提出,“本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明”。李景提出,本体是一个关于某些主题的、层次清晰的规范说明。它是一个已经得到公认的形式化的知识表示体系,它包含词表(或名称表、术语表),词表中的术语全是与某一专业领域相关的,词表中的逻辑声明全部是用来描述那些术语的含义和术语间关系的11。它包含有概念,又称为类(Concept,Class),属性(Property,Slot),实例(Instance),也称个体,声明(Statement),公理(Axiom),函数(Function)等几个基本要素。

(2)本体构建工具

本体构建工具,又称本体编辑工具,狭义的是指用于本体的构建、编辑、维护与开发的软件系统;广义是指用于本体—知识表示工程、本体库的开发乃至语义网基础构建的软件体系的总称。目前已有的本体构建工具有很多种,其中较为成熟、知名度较高、较为常用的有:DAMLImp(API)、KAON(包括OIModeller)、OilEd、Protégé、OntoEdit、、RDFAuthor和WebOnto等等12

Protégé(http://protege.stanford.edu)由斯坦福大学医学院的医学情报学研究组开发研制,是在Java环境下开发出来的。具有以下优势13:①具有图形化的用户界面;②对Unicode字符集输入的支持;③可以免费下载系统安装软件与插件;④支持DAML+OIL,以及W3C新近退出的OWL,可以用RDF、RDFS、OWL等本体表示语言在系统外对本体进行编辑和修改。

(3)基于本体构建工具的可视化显示

集成词库、XML文档都是以概念为核心的,目的都是为了解决语义中存在的同一概念有多种词汇表示和同一个词有多种含义(概念)的问题,而本体也是对一个共享概念的形式化的、显性的规范说明,可见其作用和原理是基本相同的。所以为了用户更好的浏览和使用词库数据,本系统利用Protégé构建工具,在已生成的XML文档的基础上,将分类兼容数据和主题兼容数据集合起来,将其词汇之间的语义关系以图形化形式显示给用户。

构建的基本过程:

①标记出概念类(classes),其中,《中分表》概念主题作为首级类,包括其分类号、类名词及主题词;子类包括类目对应的其他兼容分类法,以及主题词对应的其他兼容主题表。

②确定出属性(properties),包括类号和词之间的对应属性,对应的分类表、主题表属性,以及一些语义关系的相关概念属性,如用、代、属、分、参等等级概念和相关概念关系。

③加入实例(instances)。

采用这种方式显示数据,主要有以下几点好处:

①多种模式表现信息集合

本体可以描述事物的属性、关系和分类。可以利用词库中的不同语义关系多维度表示信息。如下图4-12所示,图中的任意一个节点都可以作为检索点,从不同的角度对词库信息进行多维度的揭示,把有语义联系的事物都连通起来。可以按照分类号、主题词、类名词、《科图法》、DDC、《教词表》、《社科表》等多途径对词库数据进行可视化显示和查询。

img82

图4-12 词库本体检索点示意图

②资源的整合

本体更加完善的实现了分类与主题的一体化,通过《中图法》分类号将不同分类表和主题表的信息资源有效、有序的整合起来,使得各种不同类型的词表成为本体的各个节点,实现对信息资源的结构化组织。

③知识导航和获取

本体整合了分类表、叙词表的功能,用领域置标语言全面描述了领域知识,再加上可视化语义工具的支持,集中表现了概念与概念、词表与词表之间的关系。利用本体专有的查询语言可以实现对各个知识点的查询。如图4-13所示,查询《中图法》分类号“G64”的相关信息,可以得到如下的信息:其对应的类名词是“高等教育”,该类目对应的《科图法》类目有“38.8/高等教育;38.803/高等教育理论”,对应的DDC类目有“378/高等教育;370.7124/高等教育;344.07684/高等教育”等;“G64”对应的主题词有“高等教育、本科、大专、高等师范教育、学位教育”等,而主题词“本科”对应的《教词表》主题词有“本科/EP4”,对应的《社科表》主题词有“本科/QE653;专科/QE652”等。

img83

图4-13 “G64”知识导航图

利用上述三种方式将集成词库数据显示给用户,供用户浏览、查找使用,但由于时间关系,基于本体构建工具的可视化显示未来得及开发,只做了部分实例。另外,还可以以其他多种方式来显示,其中,Web网页形式显示也是比较常用、便于用户使用的一种方式,可以直接基于数据库或以XML作为中间层处理数据,开发Web应用,从而使兼容数据得到进一步的共享和充分利用。希望在以后的研究中,基于本体构建工具或Web应用得到开发利用。

4.5.4 系统界面及使用说明

(1)系统主程序界面,如图4-14所示:

img84

图4-14 教育词库构建与管理应用系统主界面

各个菜单包括以下功能:

①在“文件”菜单下,包括“分类法兼容”和“主题法兼容”两个子菜单,点击分别显示分类法、主题法兼容界面,完成各种词表的兼容过程。

②在“结果”菜单下,包括“数据查看”和“XML格式”两个子菜单;点击分别转到“数据查看”、“XML格式”子窗体下,进而进行下一步的操作。

③在“系统”菜单下,包括“退出系统”子菜单,提醒用户是否确实要退出系统,选择“是”则退出系统,“否”继续停留在系统界面。

工具栏上的“分类法兼容、主题法兼容、数据查看、XML格式”四个按钮,分别转到相应窗体进行操作;而“科图法、杜威法、教词表、社科表”四个按钮分别实现各个词表到《中分表》的兼容功能。

(2)分类法兼容界面

分类法兼容界面主要功能是完成各分类法到《中图法》的兼容过程,包括《科图法》、DDC到《中图法》的全部兼容过程。界面如下图4-15所示:

img85

图4-15 分类法兼容界面

在“文件”菜单下包括“数据初始化”、“打开分类表”和“退出”三个子菜单,初始化的目的是为了删除、清空数据库中存在的原有数据,以便进行新的操作过程。此处根据复选框选中的词表,清空其“分类兼容矩阵”中的匹配数据,从而进行新的匹配。“打开分类表”子菜单,加载《中图法》类目在列表框中显示,包括其分类号和类名,“退出”子菜单返回到系统主界面。

首先在复选框下拉菜单中选择要兼容的词表,则对应词表内容在列表框中显示,可供选择的有“科图法”和“DDC分类法”,选择好后则可以点击不同的按钮完成不同的匹配过程。其中,“同现匹配”按钮实现《科图法》或DDC分类法到《中图法》的同现匹配过程,并将匹配结果直接在下方的网格中显示;“类名相似度”按钮计算兼容分类表中类名词之间相似度,提取阈值大于等于0.6的词作为对应词;“类目匹配”按钮是根据上述计算的类名词间的相似度,将其转换到对应的类目、类号间进行匹配,结果也在下方网格中显示;“整合去重”按钮是将两次匹配结果都转换到对应《中图法》类号下,完成《科图法》或DDC到《中图法》的类目转换;点击“查看结果”按钮,根据复选框中所选词表,在网格中显示该表和《中图法》的匹配信息。

(3)主题法兼容界面

主题法兼容界面主要功能是完成各主题法到《中分表》的兼容过程,包括《教词表》、《社科表》到《中分表》的兼容全过程。界面如图4-16所示。

在“文件”菜单下点击“加载中分表”子菜单,是将《中分表》主题词在列表框中显示,包括主题词和分类号,“退出”子菜单返回系统主界面。

在复选框下拉菜单中列出了可供选择的兼容词表,包括《教词表》和《社科表》,选中的对应词表内容在列表框中显示。然后点击界面上的不同按钮实现不同的兼容过程。其中,“自动匹配”按钮实现选中词表到《中分表》的基于结构的自动匹配过程,结果在下方的网格中显示。“叙词匹配”及“非叙词匹配”按钮分别完成基于同义词表的叙词和非叙词匹配转换过程,将相似度大于等于0.6的词作为同义词匹配,结果也在下方网格中显示。“整合去重”按钮是将上述匹配结果都加到对应《中分表》主题词下,完成主题词表到《中分表》的兼容。“查看结果”按钮是根据复选框中所选词表,在网格中显示该表和《中分表》主题词的匹配信息。

img86

图4-16 主题法兼容界面

(4)数据查看界面

通过上述匹配过程,实现了各个词表到《中分表》的兼容,即完成了以《中分表》为核心的教育词库的构建,下一步对结果进行查看。点击“结果”菜单下的“数据查看”子菜单转到“数据查看”窗体下,见图4-17所示。该窗体主要实现两个功能:一是以浏览方式显示匹配结果;二是以检索方式对结果集进行查询。

首先点击“文件”菜单下的“打开分类表”子菜单,完成《中图法》的加载,包括分类号和类名,将其以树型列表形式显示,用户可以浏览各个类目,根据自己的需要选择类目进行查看,并通过点击显示其对应的其他词表的信息。如果用户需要查找某个特定主题词或分类号的对应信息,则可以采用检索功能完成。检索功能分两种途径进行,可按主题词或分类号进行检索,匹配方式包括“精确匹配”、“前方一致”、“任意一致”,检索结果在网格中显示。

img87

图4-17 数据查看界面

另外,对于不熟悉《中分表》的用户,很难直接用分类号或主题词进行查找,他们更希望直接用自然语言进行检索,所以还设计了自然语言检索功能。用户可以从检索途径中选择“关键词”进行检索,系统将用户输入的关键词首先和分类号匹配,如果找到匹配结果则直接提供给用户对应的分类号,如果找不到,则再将关键词和主题词进行匹配,提供对应的或相关的主题词,从而使用户再进行下一步操作。

(5)XML格式界面

点击“结果”菜单下的“XML格式”子菜单转到“XML格式”窗体下,该窗体实现数据库文件到XML文档的转换。点击“格式转换”菜单下的“XML主题格式”和“XML主题描述格式”子菜单,分别动态实现数据库到XML文档的转换,生成相应的“subject.xml”和“subject_description.xml”两个XML文档。点击“查看”菜单下的两个子菜单,分别以web浏览器页面显示subject.xml和subject_description.xml的XML文档。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈