首页 百科知识 采集以丰富知识库

采集以丰富知识库

时间:2022-09-30 百科知识 版权反馈
【摘要】:知识获取是从各种知识源中获取各类知识存入知识库,主要是显性知识。自动采集主要有数据库检索、全文检索、网络爬虫以及数字化处理四种方式。知识需求文档应包括所需知识的主题、范围、来源及载体等内容。采集得到的知识不能直接存入知识库,需要进行筛选、加工和处理,包括格式化处理、分类及添加元数据等操作。

3.1.1 知识获取:采集以丰富知识库

知识获取是从各种知识源中获取各类知识存入知识库,主要是显性知识。根据获取渠道的不同可以将知识获取分为内部获取方式和外部获取方式,内部获取是从组织内部各业务部门、业务信息系统及数据库中获取;外部获取是从知识服务机构、咨询机构、网络、竞争对手、合作伙伴及客户中获取。根据获取特性的不同,可以分为信息扫描模式、市场模式、接受技术援助模式、准外部知识获取模式以及内部知识获取模式(刘锦英,2007)。从自动化程度出发,可以将知识获取分为自动获取模式和人工获取模式。

3.1.1.1 自动获取模式

自动获取模式利用计算机技术、网络技术以及信息处理技术自动从知识源中采集,通过预处理和智能分析生成所需的知识存入知识库中。自动获取模式的一般过程如图3-2所示,经历自动采集、预处理以及智能分析三个步骤。

img85

图3-2 自动知识获取过程

自动采集主要有数据库检索、全文检索、网络爬虫以及数字化处理四种方式。数据库检索利用SQL语句、事务处理、存储过程构成的程序自动收集数据(唐涛和张玉峰,2007);全文检索是计算机程序通过扫描文章中的每一个词,并对它建立一个索引,指明该词在文章中出现的次数和位置,针对文本型知识源应使用全文检索技术进行采集;针对Web文档,利用网络爬虫进行自动采集,也可以利用元搜索引擎技术;对于纸质型文档应利用数字化处理技术进行采集。自动采集回的数据会存在数据空缺、数据不一致、数据噪声及数据不规范等问题,不能够直接利用需要进行预处理,主要包括数据清洗、文档解析、自动标引及数据集成等。数据清洗主要是去除各种不合法的数据,如文字识别后的乱码、数据库中垃圾字段等;文档解析是利用一定的文档结构模型对HTML、XML文档或其他文档进行解析,识别出相应的结构;自动标引是利用相关主题词表或分类体系对获取文档进行标引以满足规范的元数据模式;数据集成是将获取的数据之间应该联系而没有建立关系的数据之间关联起来。经过预处理后的数据,能够满足初步需要,若要得到更多模式和结构,需要利用智能分析技术进行高级处理,包括数据挖掘、Web挖掘、知识抽取及语义分析等技术。

3.1.1.2 人工获取模式

人工获取模式是由知识专家根据知识需求从知识源采集所需知识存入知识库。人工获取模式的一般过程如图3-3所示,包括确定知识需求、选择获取方式,采集、筛选、加工、处理以及存入知识库四个步骤。

知识需求的确定由知识专家会同各业务部门、高层领导,结合战略规划、市场竞争、产品开发、人员培训等需要,并在详细调研的基础上完成,形成知识需求文档。知识需求文档应包括所需知识的主题、范围、来源及载体等内容。结合知识需求,知识专家确定获取知识的方式,包括利用网络搜索引擎获取、查询网络数据库、参加学术会议、购买相应出版物、购买专利技术、收集内部非电子文档、利用企业内部网检索以及通过知识联盟等方式。获取方式的选择应结合具体的知识来源的特性进行合理挑选,获取方式的确定是人工获取模式的关键一环,不仅要考虑所获知识的质量,还要考虑时间和成本的限制。采集得到的知识不能直接存入知识库,需要进行筛选、加工和处理,包括格式化处理、分类及添加元数据等操作。

img86

图3-3 人工知识获取过程

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈