文本资源的挖掘

时间：2022-10-01 百科知识版权反馈

【摘要】：Web信息资源开发与利用的对象是Web上的信息资源，文本资源是Web上出现最早也是目前数量最多的一类信息资源。通过一组特征表示每个文档，这些算法被用到文本数据，并以同样的方法对文档进行分类。两个文档的相似通过文档单词矢量表示的余弦进行测度。为了对用户行为建模，使用挖掘与有关用户的其他信息相结合。折中的方法是利用获得的使用信息来调整系统行为，也可与个性化相结合。

9.1.1　Web文本资源的挖掘

Web信息资源开发与利用的对象是Web上的信息资源，文本资源是Web上出现最早也是目前数量最多的一类信息资源。Web文本资源的开发与利用目前主要表现在如何通过Web挖掘技术对文本文档进行分类和聚类，以及使用挖掘和用户建模。^[1]

1.文档分类

文档分类是Web挖掘的基本任务之一。对于给定的分类文档集(或部分文档)，需要构建一个能对新文档进行分类的分类标记。用来表示文本数据的特征主要捕捉了单词(或词根)的出现，在有些情形下捕捉了单词排序的出现。在一个文档集中出现的所有单词被包括在特征集(通常有几千个单词)中。一个特定文档的表示包含许多0值，因为特征集中的大多数单词不在某个特定的文档中出现。为了解决这个问题，利用了特殊的方法，选择了相关的特征。特征集有时扩展到文本长度和HTML标记中定义的特征(如标题、作者)。文档分类技术得到发展并应用到不同的数据集，包括美国专利的描述，路透社(Reuters)的新闻文章。

文档分类应用适合于垃圾邮件的筛选(E-mail消息上标记了垃圾或非垃圾)，筛选器学着识别垃圾消息，需要处理的个人或部门在消息上进行标记，以实现自动E-mail路由，识别相关Web网页或新闻文章，将文档分配给类别以便索引和检索。

2.文档聚类

文档聚类是指大量的文档被分成多个组，每个组在内容上相似。这通常是一个优化文档检索的中间过程。文档聚类基于文档特征(单一的关键词或词组)，这被用来加快检索或实施基于关键词的检索。文档聚类基于通常的数据聚类算法。通过一组特征表示每个文档，这些算法被用到文本数据，并以同样的方法对文档进行分类。两个文档的相似通过文档单词矢量表示的余弦进行测度。文档聚类可用于处于同一个物理位置的集合，也可用于提供因特网开放集合存取的搜索引擎。

3.使用挖掘

Web使用挖掘是将数据挖掘技术应用到Web使用数据。通常对于数据挖掘来说，目标是构建用户行为模型，或直接构建一个适应性系统。用户模型的潜在优势在于它可用于不同的目的，这里适应性系统具有特定的功能。为了对用户行为建模，使用挖掘与有关用户的其他信息相结合。用户的许多方面可以建模:他们与系统的交互、他们的兴趣、他们的知识、他们的地理行为。对偏好建模需要有关用户对个别对象的偏好的信息，这常常存在问题，因为用户不总是准备着评估对象或输入评估。因此，需要利用其他数据如下载、购买和时间数据。

适应性系统旨在改善系统行为的一些方面。改善体现在面向系统的、面向内容的(如提供与用户相关的信息或产品)，或面向业务的(如提供用户愿买或商家愿卖的广告)。另外，要考虑模型或适应性是考虑了个别用户的个性，还是一般的系统行为。折中的方法是利用获得的使用信息来调整系统行为，也可与个性化相结合。

基于使用挖掘的面向系统的改善旨在运行优化，如Web服务器。这对面临拥塞问题的大型站点来说非常重要。导致运行恶化的一个重要因素是存取像磁盘这样的慢速存储器，网页可以根据用户需求从硬盘中得到预先提取。因此，有必要设计出智能预先提取机制，以允许有效的缓存。使用挖掘有助于解决这个问题。

4.对网络用户建模

用户并非是独立的——他们是各种社会网络的一部分，这些网络通常用公共兴趣、不同程度的相互影响度等进行定义。搞懂用户的周边社会网络有利于改善对用户的了解，进而达到各种Web挖掘的目的。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈