随机森林模型对样本数量有要求吗

时间：2024-11-01 百科知识版权反馈

【摘要】：IBM SPSS Modeler涉及的集成算法包括Boosting技术、Bagging技术和随机森林技术。随机森林以C&RT作为基学习器，并通过有放回取样和引入随机属性，建立多个弱学习器，具有较强的预测能力。本次以预测A井目的层段致密砂砾岩岩性为例，来详细介绍随机森林的使用。点击运行，生成随机森林模型运行结果；同时为了方便的分析预测结果的准确性，添加分析节点，如图4-21。

4.3.1　手把手教你——集成学习

4.3.1.1　集成算法界面介绍

IBM SPSS Modeler涉及的集成算法包括Boosting技术、Bagging技术和随机森林技术。

可以用Boosting技术优化的模型主要包括神经网络、C5.0、C&RT。

可以用Bagging技术优化的模型主要包括神经网络、C&RT。

这里重点讲解随机森林（Random Trees）。

IBM SPSS Modeler18.0提供了随机森林节点，如图4-2。

pagenumber_ebook=157,pagenumber_book=148

图4-2　IBM SPSS Modeler18.0的随机森林节点图示

随机森林节点设置：

随机森林节点的参数设置包括【注解】【模型选项】【构建选项】【字段】4张选项卡，（如图4-2），本次重点介绍【构建选项】选项卡。

【字段】选项卡主要是用来规定随机森林模型的输入变量和目标变量（图4-3）。

pagenumber_ebook=158,pagenumber_book=149

图4-3　随机森林的【字段】选项卡界面

【构建选项】选项卡用来设置随机森林的主要参数，包括【基本】【成本】【高级】3个部分，如图4-4。

【基本】可以用来规定建立随机森林的基本参数，包括【构建模型】和【树增长】两个框，如图4-4。

其中，构建模型包括【要构建的模型数量】【样本大小（Z）】【处理不平衡数据（D）】3部分。

【要构建的模型数量】，指的是随机森林需要构建模型的最大数量，即构建基学习器的数量，默认值是100，代表建立100个模型。

【样本大小（Z）】，顾名思义，指的是构建模型的时候，需要的样本占整体样本的多少，该值的范围是0.0～1.0，1.0代表的是选取全部样本，0.9代表的是选取90%的样本；如果是大型的数据，可以通过减少样本来提高学习的性能。

【处理不平衡数据（D）】，指的是在建立模型的时候，当目标类型是标志，且所需结果或者非所需结果的比率较小，这样子数据是不平衡的，采用Bootstrap采用往往会影响模型的准确度；如果需要提高精度，就可以选择该项；系统则会采集需要结果的比例增大，模型精度更高。

【将加权采样用于变量选择（W）】，指的是采用加权的方式改变叶节点变量的选择；如果没有选择该项，那么叶节点的变量则是利用同一个概率来随机选择了。

【数增长】包括【最大节点数（X）：】【最大树深度（T）：】【最小子节点大小（M）：】【指定要用于分割的预测变量数（S）】和【当不再提高准确性时停止构建（A）】5个部分。

【最大节点数（X）：】，指的是规定决策树可以存在的最大的叶节点的数量；具体来说，就是决策树在下一次分割的时候，如果叶节点超过了的规定的数量，那么分割就会停止。

【最大树深度（T）：】，指的是根节点下面的最大的叶节点的级别数；也就是样本进行分割的次数。

【最小子节点大小（M）：】，指的是父节点被分割后，子节点的包含的最小样本数目；当父节点被分割后，子节点包含的样本数量少于这里规定的数目，那么父节点将不会分割。

【指定要用于分割的预测变量数（S）】，指的是规定用来分割的最小预测变量的数量；目的是用来防止分割创建过小的子组；需要说明的是，用来分割的变量数目不能够大于样本数据中的变量总数。

【当不再提高准确性时停止构建（A）】，指的是模型的准确性无法再通过构建决策树而调高时，为了提高模型的建立时间，可以选择此项；目的是准确性无法提高的情况下而停止建模过程，从而提高建模的效率。

pagenumber_ebook=159,pagenumber_book=150

图4-4　随机森林的【构建选项】选项卡的【基本】部分界面

【成本】包括一个【样本分类成本】框（图4-5）。

pagenumber_ebook=160,pagenumber_book=151

图4-5　随机森林的【构建选项】选项卡的【成本】部分界面

【高级】选项卡可以用来指定随机森林建立的高级参数（图4-6），包括【缺失值的最大百分比（X）】【排除单个类别的最大数超过以下的字段（%））（F）】【字段类别的最大数量（B）】【最小字段变异（V）】和【分级数】5个参数设置部分。

【缺失值的最大百分比（X）】，指的是规定变量中允许存在的最大缺失值百分含量；如果变量中缺失值含量超过了规定值，将会从模型构建中剔除掉。

pagenumber_ebook=160,pagenumber_book=151

图4-6　随机森林的【构建选项】选项卡的【高级】部分界面

4.3.1.2　简单例子

随机森林以C&RT作为基学习器，并通过有放回取样和引入随机属性，建立多个弱学习器，具有较强的预测能力。本次以预测A井目的层段致密砂砾岩岩性为例，来详细介绍随机森林的使用。

随机森林岩性预测模型建立的具体操作如下：

本次利用的数据是A井目的层段测井和岩性数据。

插入【变量】节点（位于节点选用板的【源】中，如图4-7）、【类型】节点（位于节点选用板的【字段选项】中，如图4-8）、【分区】节点（位于节点选用板的【字段选项】中，如图4-8）和【随机森林】节点（位于节点选用板的【Analytic server】中的【分类】中，如图4-9），依次连接，随机森林岩性预测模型流初步设置成功，如图4-10。

pagenumber_ebook=161,pagenumber_book=152

图4-7　节点选用板的【源】界面

pagenumber_ebook=161,pagenumber_book=152

图4-8　节点选用板的【字段选项】界面

pagenumber_ebook=161,pagenumber_book=152

图4-9　节点选用板的【建模】中的【分类】界面

pagenumber_ebook=161,pagenumber_book=152

图4-10　初步建立的随机森林岩性预测模型流

【变量】节点设置：

【变量】节点用来导入分析数据。双击【变量】节点，出现【变量】节点的【浏览文件】界面，单击【浏览文件】（图4-11），选择目标分析数据，点击【打开】（图4-12），可以看到目标文件导入到了变量节点（图4-13），点击【应用】，分析数据导入成功。

pagenumber_ebook=162,pagenumber_book=153

图4-11　【变量】节点的【文件】界面（数据未输入）

pagenumber_ebook=162,pagenumber_book=153

图4-12　【变量】节点的【浏览文件】界面

pagenumber_ebook=163,pagenumber_book=154

图4-13　【变量】节点的【文件】界面（数据已经输入）

【类型】节点设置：

【类型】节点用来设置输入变量和目标变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量，为数值型，其【角色】设置为【输入】，【测量】设置为连续；岩性变量属于目标变量，为分类型，其角色设置为【目标】，【测量】设置为【名义】（图4-14），点击【应用】，设置成功。

pagenumber_ebook=163,pagenumber_book=154

图4-14　【类型】节点界面

【分区】节点设置：

【分区】节点可以把样本数据分成训练集和测试集（图4-15）。选择【训练和测试（T）】，设置【训练分区大小】为90，【测试分区大小】为10，点击【应用】，设置成功。

pagenumber_ebook=164,pagenumber_book=155

图4-15　【分区】节点界面

【随机森林】节点设置：

【随机森林】节点用来建立随机森林预测模型。

在【字段】选项卡中设置【预测变量（P）*】和【目标（T）】变量，本次选择【使用预定义角色（D）】（图4-16）。

pagenumber_ebook=164,pagenumber_book=155

图4-16　【随机森林】节点的【字段】界面

在【构建选项】选项卡中设置随机森林模型的参数。

在【基本】选项卡设置随机森林模型的基本参数（图4-17）。设置【要构建的模型数量】（N）为100，即建立100个模型；设置【样本大小（Z）】为1.0，即建立模型使用所有的样本；设置【最大节点数（X）：】为10000，即规定决策树可以存在的最大的叶节点的数量为10000，当决策树在下一次分割的时候，如果叶节点超过了10000，那么分割就会停止；设置【最大树深度（T）：】为10，即根节点下面的最大的叶节点的级别数为10；设置【最小子节点大小（M）：】为5，即父节点被分割后，子节点的包含的最小样本数目为5，当父节点被分割后，子节点包含的样本数量少于5，那么父节点讲不会分割；选择【当不再提高准确性时停止构建（A）】，即模型的准确性在无法提高的情况下停止建模过程，从而提高建模的效率。

pagenumber_ebook=165,pagenumber_book=156