首页 理论教育 知识发现的对象

知识发现的对象

时间:2022-03-04 理论教育 版权反馈
【摘要】:从知识库中发现规则对于知识工程和机器学习都是一个重要的问题,因为它的成功将直接作用于知识获取和大型知识库的构建,并且发现规则对于发现大型和通常意义下的知识库可以产生怎样的机器学习程序是很有用的。从定性的角度分析知识库挖掘的本质,可以认为它是一种机器学习过程,其目的是获取知识,学习源是知识库,学习手段是用归纳结合演绎的方法,其最终结果将既能够发现事实上的知识,也能够发现规则上的知识。

6.3.2 知识发现的对象

网络环境下的知识发现对象范围广泛,涵盖了众多的信息类型和内容。数据挖掘技术的对象包括:结构化数据为主的关系数据库、数据仓库,半结构化、非结构化的复杂类型数据库,图像、声音等多媒体数据库,互联网资源等。这些不同的挖掘对象又关联到不同的技术,形成彼此相关又相互独立的若干领域。

1.数据库与数据仓库挖掘

这里特指针对关系数据库、事务数据库和数据仓库等这些结构化的数据挖掘对象而言的挖掘。

2.Web挖掘[14]

Web挖掘指使用数据挖掘技术在Web这个数据集合中发现潜在的、有用的模式或信息。Web挖掘一般可以分为3类:

(1)Web内容挖掘。Web内容挖掘指从Web文档中发现有用的信息。Web内容挖掘又可进一步分为基于半结构化文档的Web内容挖掘和非结构化文档的Web内容挖掘。非结构化Web文档挖掘主要针对Web上的自由文本,如新闻、网络小说等,从统计的角度,根据词频、词汇出现位置等方法进行考察。半结构化Web文档挖掘则指在加入了HTML、超链接等附加结构的信息中进行挖掘,包括超链接文本的分类、文档关系的发现、半结构化文档中的模式和规则的提取等,主要应用于Web权威页面的发现,如许多Web搜索引擎就利用Web内容挖掘中的Web超链接分析来提高搜索的效率和准确性。Web内容挖掘主要利用了自动文摘、文本分类与聚类等技术。

(2)Web结构挖掘。Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。对于给定的Web文档集合,通过算法发现它们之间连接的有用信息。Web结构挖掘的另一个尝试是在Web数据仓库环境下的挖掘,包括在不同的Web数据仓库中检查副本以帮助定位镜像站点;通过发现针对某一特定领域的超链接的层次属性,探索信息流动如何影响Web站点的设计。

(3)Web用法挖掘。Web用法挖掘即Web使用记录挖掘,它在新兴的电子商务领域中有着广泛用途。它通过挖掘相关的Web日志记录来发现用户访问Web页面的模式;通过分析日志记录中的规律,识别用户的忠实度、喜好、满意度,发现潜在用户,增强站点的服务竞争力。Web使用记录的数据类型与数据量是非常大的,包括服务器日志记录、浏览器端日志、注册信息、用户会话信息、交易信息、鼠标点击率等。根据对数据源的不同处理方法,Web用法挖掘又可以分为两类:一类是将Web使用记录数据转换到传统的关系表里,再使用传统数据库挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web使用记录数据直接进行预处理后再进行挖掘。

3.文本挖掘

文本挖掘的对象是非结构化的文本数据。文本挖掘涵盖了多学科领域,包括数据挖掘技术、信息抽取技术、机器学习技术、自然语言处理技术、统计数据分析技术等多种技术,利用神经网络、基于案例的推理智能算法,抽取非结构化文本源中的概念和关系,从中发现隐含的、散布在文本文件中的有价值的知识。按照文本挖掘对象的不同,文本挖掘又可分为基于单文档的数据挖掘和基于文档集的数据挖掘:基于单文档的数据挖掘对文档的分析并不涉及其他文档,主要采用文本摘要、信息提取技术;基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,主要采用文本分类、文本聚类、个性化文本过滤等技术。

4.多媒体信息挖掘

多媒体信息挖掘的对象主要指典型的多媒体数据,如图像、视频、音频等类型的数据。多媒体信息中蕴含着大量的信息线索和具有潜在价值的知识。多媒体信息挖掘就是从大量多媒体数据集中,通过综合分析视听特性和语义,发现隐含的、有效的、有价值的、可理解的模式,得出事件的趋向和关联,为用户提供问题求解层次的决策支持能力。多媒体信息挖掘主要涉及数据挖掘和多媒体信息处理两个研究领域。如何把数据挖掘的基本理论和方法与对多媒体特性的分析结合起来,从多媒体的内容着手,利用多媒体的时间、空间、视觉特性、视听对象及运动特性,挖掘出有价值的隐含的信息线索和知识,是多媒体信息挖掘研究所面临的挑战。

5.知识库挖掘

知识库挖掘主要研究如何从现有的知识库中进一步发现更多的深层次知识。基于知识库的知识发现是目前国内外的一个新研究领域。从知识库中发现规则对于知识工程和机器学习都是一个重要的问题,因为它的成功将直接作用于知识获取和大型知识库的构建,并且发现规则对于发现大型和通常意义下的知识库可以产生怎样的机器学习程序是很有用的。知识库中的知识发现与数据库中的知识发现有所不同,主要表现在:

(1)发现的基础不同。知识库中的知识发现针对的对象是知识库,一个真实的知识库一般包含事实库和规则库,它们的结构与数据库有着明显的区别。

(2)采用的手段不同。知识库中不仅包含着数据,而且包含着显性的关系。如何针对关系得出更高层次的知识,将采用与数据挖掘不同的方法。

从定性的角度分析知识库挖掘的本质,可以认为它是一种机器学习过程,其目的是获取知识,学习源是知识库,学习手段是用归纳结合演绎的方法,其最终结果将既能够发现事实上的知识,也能够发现规则上的知识。因此,在具体实现中应该采用两条发掘线路:其一是利用归纳方法发掘事实之上的规则;其二是通过高阶推理的方法从规则库中发现规则,即属性与关系之上的关系[15]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈