首页 理论教育 内容挖掘在信息处理中的应用探讨

内容挖掘在信息处理中的应用探讨

时间:2022-03-04 理论教育 版权反馈
【摘要】:文本聚类是根据各聚集内部数据对象间的相似度最大化和各聚集内部数据对象间的相似度最小化的基本聚类分析原则,以及度量数据对象之间的相似度的计算公式,将聚类分析的数据对象分为若干组。因此,我们可以利用文本聚类技术,提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。

内容挖掘在信息处理中的应用探讨

严晓媛[1]

现代信息社会里,由于Internet技术和通讯技术的迅速发展,信息以几何级数迅速增长,各种文献信息资源、数字信息资源和网络信息资源遍布我们的视野,数量上已远远超出了人类当初预想的情境。虽然我们徘徊于信息的海洋之中,充分感受着信息获取的快捷和便利,但事实上正是如此多的信息为我们选择和利用信息布下了难题,每个人每天要接受和处理的信息不仅没有想象中的丰富和可用,反而被各种信息拖累需要花费精力和时间来检索和筛选,起初的狂喜和欣慰也逐渐淡化,“信息饥渴”状态已经出现了。正如美国未来学家奈斯比特在《大趋势》中指出,“我们淹没在信息中,但是却渴求知识”。原因何在?怎样才能保证信息获取的质量,而不至于被淹没在信息之中呢。尽管各种检索技术和索引擎技术已经发展的相对成熟,而且在信息的获取和处理上也有很多值得可圈可点的地方,但是挖掘技术的出现,更为解决这一问题提供了新的思路。

一、数据挖掘的发展和结构体系

数据挖掘作为一种技术,很多学者对其进行了研究,数据挖掘最初被认为是数据库中的知识发现(KDD),是从大量的、不完全的、有噪音的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程,因此它的发展与数据仓库息息相关。数据仓库是集成的、面向主题的数据库集合,可以用来支持决策功能。传统的数据挖掘以数据仓库为基础,对结构化的数据源进行信息的加工、分析和模式挖掘。后来随着Web的出现,又出现了Web挖掘,其研究对象是以半结构和无结构文档为中心的Web,这些文档之间通过超链接相互联系,随着技术的成熟,逐渐发展成为集内容挖掘、结构挖掘和使用挖掘于一体的研究体系。本文研究的主要就是Web内容挖掘。Web内容挖掘是从大量的Web页面描述数据发现信息,进而抽取知识的过程。即从各个Web页面中挖掘有用的信息,也就是常规意义的数据挖掘在网络中的应用。

二、内容挖掘在信息处理中的应用

拥有一定数量的信息资源之后,才真正开始了对信息和数据的挖掘分析工作。这一阶段的工作强调对信息进行分析,增强对数据或信息的深度理解。通过对信息的内容进行各种分类、聚类、摘要等处理,获得相对高质量的信息,从中可能发现更多的知识,将简单的信息和数据转变为知识,传递给需要知识的用户,为他们提供知识服务。

(一)文本总结

文本总结也称文本摘要,一方面仅仅通过位置进行自动文摘实际上很不准确,很难真正反映出Web文档中的信息内容;另一方面,固定字数的文摘有时会使得信息反映不完整。而Web文档挖掘中文本总结技术相对更加完善,它是根据Web文档本身的内容而不是位置来进行文本内容的总结,它是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要和解释,使用户无需浏览全文即可了解文档或文档集合的总体内容。其目的是对文本信息进行浓缩,给出其紧凑的描述。因此,它更能够反映出Web文档中的真正信息。通过借鉴文本总结技术,搜索引擎可以改善其自动文摘的质量,同时提高效率。

(二)文本分类

目前,搜索引擎中的自动分类还很不成熟,搜索引擎分类绝大部分依靠手工操作,而对页面的自动分类,还没有出现非常成熟的技术。但文本挖掘中的文本分类技术可资借鉴,现已经出现了很多种的文本分类技术,如TFIEF算法等,由于文本挖掘与搜索引擎所处理的文本几乎完全一样,所以可以直接将文本分类技术应用于搜索引擎的自动分类之中,通过对大量页面自动、快速、有效的分类,来提高文档检索的查准率。

文本分类就是找出一组能够描述数据集合典型特征的模型或函数,以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到其中某一种离散类别。文本分类是文本挖掘的核心,它使得用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。文本分类技术可以对大量文档进行快速、有效地自动分类。文本自动分类就是用大量的带有类标志的文本,对分类准则或模型参数进行训练,然后用训练得到的结果对未知类别的文本进行识别。网页文本分类包括网页类型(文本、图形、图像、声音等)的确定、分词或词性标注、特征抽取、特征匹配、索引生成等过程。最常用的分类方法基于词频分析,首先预设好一些类别和一些已经分好类的网页作为训练集。然后利用训练集,为每个类别中页面的所有词条生成一个词频向量。对于一个新的待分类的网页文档,先计算它的词频向量,然后和每个类别的词频向量作相似度比较,最后把最接近的类别作为新网页的所属类别。为了减少计算量,同样可以对词频向量降维。该分类方法的精确性依赖于训练集和预设类别的质量,以及词频向量的计算。

(三)文本聚类

搜索引擎面临的一个巨大的问题在于网络是一个动态增长的网络,如何对一些新出现的信息进行分类就成为一个很复杂的问题。文本聚类也是一种文本挖掘,是一类典型的无导师(Unsupervised Induction)的机器学习问题。文本聚类是根据各聚集内部数据对象间的相似度最大化和各聚集内部数据对象间的相似度最小化的基本聚类分析原则,以及度量数据对象之间的相似度的计算公式,将聚类分析的数据对象分为若干组。通过反复不断地对所获得的聚类组进行聚类分析,可以获得初始数据集合的一个层次结构模型。其目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小,即“物以类聚”。聚类可以按照文档内容聚类,也可按文档属性聚类。Hearst等人的研究已经证明了“类聚假设”,即与用户查询相关的文档通常会类聚得比较近,而远离与用户不相关的文档。因此,我们可以利用文本聚类技术,提供大规模文档集内容的总括;识别隐藏的文档间的相似度;减轻浏览相关、相似信息的过程。如将搜索引擎的检索结果划分为若干个簇,用户只需考虑那些相关的簇,大大缩小了所需要浏览的结果数量。同时,文本聚类可与文本分类技术相结合,使得信息处理更加方便。可以对检索结果进行分类,将相似的结果集中在一起。

(四)信息提取

信息提取是通过挖掘从文本中获得更多隐藏的信息,如短语间的关系、规则、典型框架等,这些信息将体现主题、意图、期望及要求等。信息提取有很好的商业价值,对用户需求、市场预测、趋向分析等都很有帮助。目前,信息提取主要针对名字提取、缩写识别、关系提取。主要的技术是基于语言学的激发启发式规则,利用自然语言处理技术提取文本中的信息。通过建立各种词表,如同义词表、蕴含词表等解决一词多义及一义多词的语言复杂性。把文档中出现的单词分成不同的类,并且度量它们对文档内容的重要性,充分利用文本中有限的结构信息。

(五)关联分析

关联分析反映一个事件和其他事件之间依赖或关联地知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。内容挖掘中的关联分析是指从文档集合中找出不同词语之间的关系。Brin提出了一种从大量文档中发现一对词语出现模式的算法,并用在Web上寻找作者和书名的出现模式,从而发现了数千本在Amazon网站上找不到的新书籍。Wang等人以Web上的电影介绍作为测试文档,通过使用OEM模型从这些半结构化的页面中抽取词语项,进而得到一些关于电影名称、导演、演员、编剧的出现模式。

(六)趋势预测与分布分析

趋势预测与分布分析是指通过对Web文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势。Feldtnan等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布,揭示了一些有趣的趋势。Wtithrich等人通过分析Web上出版的权威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果。

随着多种形式文档的出现,多媒体文档的挖掘也是内容挖掘的重要组成部分。由于多媒体本身就比文本复杂,使用起来却很方便,很有可能从中发现更易被用户理解和接受的知识,因此对多媒体文档的挖掘也逐渐引起重视。

总之,从散乱的、异质的、动态的、海量的信息中挖掘出有某种内在关联的、我们事先未预料到的有价值的信息和知识就完成了挖掘的使命,也是我们最期望从中获得的。但仅仅是“生产”知识、拥有知识还是不够的,我们需要进一步将这些“成果”转移给用户,发挥知识的作用,实现知识的增值。要做到这一点,还需要结合Web挖掘中的结构挖掘和使用挖掘,发现用户的兴趣、爱好、行为模式,提供个性化的服务。但是我想说明的是,知识经济时代知识固然重要,但掌握寻找知识和甄别知识价值的方法无疑对知识的利用是很有益的,而且这也是实现知识转移的一种途径,因为知识中不仅仅有Know-What的知识,还包括Know-How的知识。

参考文献

1.苏新宁,杨建林,邓三鸿.信息技术及应用[M].南京:南京大学出版社,2002

2.孙建军,陈晓玲,成颖副.信息资源管理概论[M].南京:东南大学出版社,2003

3.周宁.信息组织[M].武汉:武汉大学出版社,2001

4.马费成.信息资源开发与管理[M].北京:电子工业出版社,2004

5.陈耀盛.网络信息组织[M].北京:科学技术文献出版社,2004

6.李亚飞,刘业政.Web挖掘的体系研究[J].合肥工业大学学报(自然科学版),2004(3):305-309

7.朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004(7):2-5

8.涂承胜,鲁明羽,陆玉昌.Web内容挖掘技术研究[J].计算机应用研究,2003(11):5-9,15

9.谭汉松,李红.基于信息过滤后的Web内容挖掘[J].计算机工程与应用,2003(30):186-187

10.吴铁洲,郭福亮,王谦.Web内容挖掘与信息搜索方法研究[J].海军工程大学学报,2003(3):102-104

11.黎琳,赵英.Web内容挖掘在数字图书馆中的应用[J].图书馆学研究,2006(2)19-21,24

12.单红花.Web数据挖掘探讨[J].电脑知识与技术,2006(2):5-6,14

13.包骏杰.Web数据挖掘研究[J].重庆教育学院学报,2004(3):35-37

原文刊载于《科技资讯》2008年第32期。

【注释】

[1]严晓媛(1982—),女,蒙古族,硕士,馆员。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈