扩展决策树的适用性

时间：2022-02-11 理论教育版权反馈

【摘要】：为了将决策树归纳扩展到更广泛的不同问题上，必须强调一些重要的问题。决策树学习算法与其产生无限多的分支，不如有代表性地寻找信息增益最高的点，即分割点。可以采用有效的动态规划方法来寻找好分割点，但是这仍是到目前为止现实世界决策树学习应用的代价最昂贵的部分。一个针对现实世界应用的决策树学习系统必须能够处理所有上述问题。决策树的一个重要性质是，对人而言，理解学习算法的输出是可能的。

为了将决策树归纳扩展到更广泛的不同问题上，必须强调一些重要的问题。我们将会对它们进行简要的叙述，在完成相关的习题后读者能对它们有全面的理解：

缺失数据：在很多领域中，并不是对每个实例而言所有的属性都是已知的。这些值可能没有记录下来，或是获取的代价太昂贵。由此带来两个问题：首先，给定一个完整的决策树，对于缺少一个测试属性的实例该如何对其进行分类？第二，当某些实例具有未知的属性值时，该如何修改信息增益公式？这些问题在习题18.12中可以找到。

多值属性：当某个属性有多个可能的值时，信息增益度量会赋予该属性的有用程度一个不适当的指示。在极端情况下，我们可以使用诸如RestaurantName（餐馆名）这样的对每个实例都有不同值的属性。那么，每个实例的子集都是唯一分类的单元素集合，所以信息增益度量对该属性会有最高值。尽管如此，该属性可能是无关的或无用的。一种解决方案是采用增益率（参见习题18.13）。

连续的和整数值的输入属性：诸如Height和Weight这样具有连续的或整数值的属性，都有一个可能取值的无限集合。决策树学习算法与其产生无限多的分支，不如有代表性地寻找信息增益最高的点，即分割点。例如，在树中给定的某个节点上，可能出现的情况是关于Weight＞160的测试有最多的信息。可以采用有效的动态规划方法来寻找好分割点，但是这仍是到目前为止现实世界决策树学习应用的代价最昂贵的部分。

连续值的输出属性：如果我们尝试预测一个数值，诸如一件艺术品的价格，而不是具体分类，那么我们需要一棵回归树。这样一棵树在每个叶节点都有一个某些数值属性子集的函数，而不是一个单独的值。例如，针对手工涂色的雕塑的分支会以一个面积、年代和颜色数的线性函数作为结束。学习算法必须决定何时停止划分，并开始利用余下的属性（或其中的某个子集）完成线性回归。

一个针对现实世界应用的决策树学习系统必须能够处理所有上述问题。对连续值变量的处理尤为重要，因为物理和财政过程提供的都是数值数据。一些商用软件包已经能够符合这些规范，而且它们已经被用于开发数百个领域的系统。在工业和商业的很多领域中，当要从数据中抽取分类信息时，首先尝试的方法通常是决策树。决策树的一个重要性质是，对人而言，理解学习算法的输出是可能的。这是神经元网络所不具有的性质（参见第二十章）。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈