结果集合的表示

时间：2023-02-11 理论教育版权反馈

【摘要】：概率排序原则的含义是对一个结果集合按照相关度的概率排序，并以列表的形式提供给用户。一个很流行的方法是决策树。给定一个有正确类别标记的训练文档集合，我们能够建立一棵单独的决策树，它的叶节点把文档分配到适当的类别中。例如，决策树中对应“体育”类别的叶节点可能会测试“篮球”这个词语是否出现。经常见到的结果是它比合并聚类的准确性要差，尽管有人报告说它能够做得与合并聚类几乎一样好。

概率排序原则的含义是对一个结果集合按照相关度的概率排序，并以列表的形式提供给用户。如果用户对尽可能快地找到所有相关的文档很感兴趣，那么这样做是有意义的。但是，这样也会带来问题，因为它并没有考虑效用。例如，如果在集合中最相关的文档有两份副本，那么一旦你已经看了其中一个，第二个尽管有同等的相关性，但是只有零效用了。很多IR系统包含消除与前面的结果太相近的结果的机制。

一个强有力的提高 IR 系统性能的方法是允许相关反馈——从用户那里得到反馈信息，描述初始结果集合中的哪些文档是相关的。然后系统就能够将与这些文档相似的文档表示为第二个结果集合。

另一种方法是用标记树而不是有序列表来表示结果集合。通过文档分类，按照事先规定好的主题类别对这些结果进行分类。例如，新闻集合可以被分为世界新闻、地区新闻、商界新闻、娱乐新闻以及体育新闻。通过文档聚类，可以从无到有地建立每个结果集的类别树。分类适合于集合中主题数目比较少的文档集合，而聚类适合于类似万维网这样的更宽泛的文档集合。无论哪种情况，当用户提出某个查询时，结果集合都会被显示为基于类别组织起来的文件夹。

分类是一个有监督的学习问题，因此它可以用第十八章中的任何方法来攻克。一个很流行的方法是决策树。给定一个有正确类别标记的训练文档集合，我们能够建立一棵单独的决策树，它的叶节点把文档分配到适当的类别中。当只有少量类别时，这个方法是可行的，但是对于更大的类别集合，我们将会分别给每个类别建立一棵决策树，用叶节点标记每篇文档是否为该类别的成员。通常，在每个节点被测试的特征是单个词语。例如，决策树中对应“体育”类别的叶节点可能会测试“篮球”这个词语是否出现。经过 boost 改进的决策树、朴素贝叶斯模型以及支持向量机都已经被应用到文本分类中。在很多情况下布尔分类的准确率在90％～98％之间。

聚类是一个无监督的学习问题。在第20.3节中，我们已经看到了基于混合高斯模型，可以如何利用EM算法改进聚类的初始估计。文档聚类更难一些，因为我们不知道这些数据是由好的高斯模型生成的，而且我们处理的是更高维空间。还有很多方法得到了发展。

合并聚类自上而下地创建聚类树，一直到每个单独文档。在任何层次上都能够对该树进行剪枝，以产生数目较少的类别，不过这个是在算法之外考虑的。我们从把每篇文档作为单独的一簇加以考虑。然后我们根据某种距离度量找到相互距离最近的两簇，并将它们合并为一个。我们重复上述过程，直到只剩下一个簇为止。两篇文档之间的距离度量就是文档中词语之间的覆盖度的某种度量。例如，可以用词语计数的一个向量表示一篇文档，并把文档间的距离定义为两个向量之间的欧氏距离。两个簇之间的距离度量可以是簇中心的距离，或者它可以考虑簇成员之间的平均距离。合并聚类的时间复杂度是O(n2)，其中n是文档个数。

k均值聚类（k-means clustering）可以产生恰好k个类别的均匀集合。该方法如下：

（1）随机挑选k篇文档表示k个类别。

（2）将每篇文档分配到最近的类别中。

（3）计算每簇的中心，并用k个均值表示这k个类别的新值。

（4）重复步骤（2）到（3）直到收敛为止。

k均值算法的时间复杂度是O(n)，这与合并聚类相比是一个优点。经常见到的结果是它比合并聚类的准确性要差，尽管有人报告说它能够做得与合并聚类几乎一样好（Steinbach等人，2000）。

不考虑所用的聚类算法，在聚类可以用来表示结果集合之前还有一个任务：找到描述类别的好方式。在分类中，类别名称是已经定义好的（例如“收入”），但是在聚类中，我们需要创造类别的名称。一种方式是选择簇中有代表性的词语列表作为类别名称。另一种方式是选择靠近簇中心的一篇或几篇文档的标题作为类别名称。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈