语义文本挖掘

时间：2024-10-01 百科知识版权反馈

【摘要】：相反，语义Web的内容是按照某种语义方式进行结构化设计，以便该内容能够被计算机所理解。语义Web上的文档分类与Web上的类似。[40]语义Web为使用挖掘提供了有趣的机会，因为本体和注释能够以促使发现更丰富和更多信息模式的标准形式提供有关用户行为和Web网页的信息。

9.3.2　语义Web文本挖掘

Web内容挖掘主要针对非结构化数据而言，即所挖掘的Web内容是按照供人类理解的形式设计的，而却很难被计算机所理解，因而挖掘难度大，挖掘效率不高。相反，语义Web的内容是按照某种语义方式进行结构化设计，以便该内容能够被计算机所理解。从功能上看，语义Web将是一个能够“理解”人类信息的智能网络，语义Web为Web挖掘提供了机器可处理的对Web内容进行描述的形式化知识(本体和知识库)，再加上语义注释，这些都为Web挖掘提供了良好的基础和框架，必将极大地提高Web挖掘效能。

1.语义Web上的文档分类

语义Web上的文档分类与Web上的类似。除了文档的通用特征外，在语义Web上，还可以利用语义注释作为增加的特征或结构特征。本体形式的知识可用于推理出有关文档的更多信息，为更好地分类提供了潜在的基础。这种形式的文档分类使用了具有背景知识和特征结构的分类学习。文档类可增加到文档注释中，分类可用来预先定义文档片断。^[37]

2.语义Web上的文档聚类

与文档分类相同，注释文档的聚类可以充分利用语义注释，并可从形式化知识中推理出更多的有关文档的信息。例如，文本通过增加从词网中导出的语义类别得到预处理;路透社新闻评估显示利用背景知识可改善结果。层次文档聚类和这些类的描述可看成是基于子概念关系的本体。这样，层次聚类方法构建文档的本体，然后通过在层次中对新文档进行分类来维护这些本体。簇的特征支持本体的构建，因为簇的描述反映了概念间的关系。^[38]

3.语义Web上信息抽取的数据挖掘

学习从文档中抽取信息可以利用文档片断的语义注释以便抽取规则——假设这些得到一致的分配——它可以从本体中的知识获益。另外，现存的本体可以支持解决不同的问题，包括其他本体的学习和将本体概念分配给文本(文本注释)。本体概念或者分配给整个文档，如Web文档的已描述本体，或者分配给文本的一个小部分。在后一种情况下，研究者们正在研究从已有的注释文本中学习注释规则。这可在信息抽取中看到，这里的目的不在于用抽取的信息填充数据库，而是将标签分配给文本的某个部分。因为获取注释文本不是件小事，所以一些研究者利用其他技术如自然语言处理或聚类以便发现文本单元(如一组名词，句子聚类)，并根据现存本体的概念映射这些单元。^[39]

4.本体映射

因为本体常常是为某个特定目标而开发的，不可避免地会构建类似的本体，需要将这些本体统一起来以促进一个本体中的知识与其他本体中的知识的使用。这需要构建两个本体中的概念、属性、值和关系间的映射，或者作为一种解决方案，或者作为迈向单一联合本体的开始。很多学者对此作了多方面的研究，其挑战是从本体中获取有关概念的信息，从与每个概念相关的Web网页中抽取更多的信息。这个信息可用于为某个类识别出分类标记。将这个分类标记应用到其他本体中的概念实例，可以观察到哪些其他概念与原始概念具有最多的共同点。^[40]

5.用户建模与语义Web

语义Web为使用挖掘提供了有趣的机会，因为本体和注释能够以促使发现更丰富和更多信息模式的标准形式提供有关用户行为和Web网页的信息。被用户访问(购买)的产品的注释为用户片断增加了信息，并有可能发现潜在的通用模式。这种模式可用于预测基于新产品描述的对新产品的反应。如果仅仅能获得产品的名称、图片和价格，则很难预测对新产品的反应。比起描述产品的文档来说，使用统一的本体会使挖掘更有效。

使用挖掘的应用如基于使用的推荐、个性化和链接分析将得益于注释文档和对象的使用。仅仅需要解决少量的问题以扩展当前的方法。大规模的应用需要能够得到半自动化维护和应用的较大本体。为描述用户兴趣和用户行为设计或自动地产生本体是一个具有挑战的需要解决的问题。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈