模型场景布局

时间：2022-11-01 百科知识版权反馈

【摘要】：，指的是规定C5.0的分析结果，包括和。表示输出决策树和由决策树直接得到的推理规则；表示输出推理规则集，推理规则集并非由决策树直接得到，这里不再详细介绍。，指的是规定决策树建立模型过程中的参数设置方式，包括和；其中，指的是依靠系统自动调整参数；指的是通过手动调整参数。本次以预测A井目的层段致密砂砾岩岩性为例，来详细介绍C5.0的使用。

2.3.3.1　C5.0界面介绍

IBM SPSS Modeler18.0提供了C5.0节点，如图2-58。

pagenumber_ebook=68,pagenumber_book=59

图2-58　IBM SPSS Modeler18.0的C5.0节点图示

C5.0节点设置

C5.0节点的参数设置包括【注解】【分析】【成本】【模型】【字段】五张选项卡。本次重点介绍的是【模型】和【分析】选项卡。

【字段】选项卡，主要用来规定C5.0模型的输入变量和目标变量（图2-59）。

pagenumber_ebook=69,pagenumber_book=60

图2-59　【C5.0】的【字段】选项卡界面

【模型】选项卡用来设置C5.0算法的主要参数，如图2-60。

【输出类型：】，指的是规定C5.0的分析结果，包括【决策树】和【规则集】。【决策树】表示输出决策树和由决策树直接得到的推理规则；【规则集】表示输出推理规则集，推理规则集并非由决策树直接得到，这里不再详细介绍。

【组符号：】，指的是利用ChiMerge分箱法检验当前检验当前分组变量的各个类别能否合并，如果可以，应该先合并在分支，数值型分组变量将长出两个分支。

【使用boosting】，指的是采用boosting集成算法优化模型，用来提高模型预测的准确性。其中，【试验次数】指的是boosting集成算法建立模型的个数。

【交叉验证】，指的是采用交叉验证法建立模型。其中，【折叠次数】指的是规定折数n；根据交叉验证法，将在1-1/n份样本上分别建立n个模型，模型误差是n个模型预测结果的综合。

pagenumber_ebook=70,pagenumber_book=61

图2-60　【C5.0】的【模型】选项卡在【支持】中选定【准确性】后的界面

【模式】，指的是规定决策树建立模型过程中的参数设置方式，包括【简单】和【专家】；其中，【简单】指的是依靠系统自动调整参数；【专家】指的是通过手动调整参数。

选择【简单】，界面如图2-60所示，包括【支持：】和【预期噪声（%）：】两部分。

【支持：】，指的是用来指定参数设置的原则，包括【准确性】和【普遍性】两个选项。其中，【准确性】表示最求高的预测精度或者低的预测错误率为原则设置模型参数（比如树的深度、节点允许的最小样本量、决策树修建时的置信度等），可能导致过拟合问题。【普遍性】表示选择系统的默认参数，以减少模型对数据的过度依赖。

【预期噪声（%）：】后的数字框中，规定数据所含的噪声数据占整个数据集的比例，通常可以不指定。

选择【专家】，界面如图2-61所示，包括【修剪严重性：】【每个子分支的最小记录数：】【使用全局修建】和【辨别属性】4个部分。

【修剪严重性：】，指的是决策树修剪时的置信度，默认的值为75=100-25。

【每个子分支的最小记录数：】，指的是规定决策树每个节点允许的最少样本数量。

pagenumber_ebook=71,pagenumber_book=62

图2-61　【C5.0】的【模型】选项卡在【支持】中选定【专家】后的界面

【分析】选项卡用来设置计算输入变量重要性的指标，如图2-62。

【计算预测变量重要性】，指的是以图的方式显示输入变量对建模的重要性。

【倾向评分（仅对标志目标有效）：】，指的是用来规定计算变量的倾向性得分的方法。

【计算原始倾向评分】，指的是对于每个观测值，分类模型给出预测值为真的概率，此概率是根据训练样本集计算的。

【计算调整倾向评分】，指的是对于每个观测值，分类模型给出预测值为真的调整概率，此概率是根据测试样本集或者验证样本集计算的，并且应该在【基于】选项中指定样本集。

pagenumber_ebook=71,pagenumber_book=62

图2-62　【C5.0】的【分析】选项卡界面

2.3.3.2　简单例子

C5.0属于分类树，可以有效地解决分类问题。本次以预测A井目的层段致密砂砾岩岩性为例，来详细介绍C5.0的使用。

C5.0岩性预测模型建立的具体操作如下。

本次利用的数据是A井目的层段测井和岩性数据。

插入【变量】节点（位于节点选用板的【源】中，如图2-63）、【类型】节点（位于节点选用板的【字段选项】中，如图2-64）、【分区】节点（位于节点选用板的【字段选项】中，如图2-64）和【C5.0】节点（位于节点选用板的【建模】中的【分类】中，如图2-65），依次连接，C5.0岩性预测模型流初步设置成功，如图2-66。

pagenumber_ebook=72,pagenumber_book=63

图2-63　节点选用板的【源】界面

pagenumber_ebook=72,pagenumber_book=63

图2-64　节点选用板的【字段选项】界面

pagenumber_ebook=72,pagenumber_book=63

图2-65　节点选用板的【建模】中的【分类】界面

pagenumber_ebook=72,pagenumber_book=63

图2-66　初步建立的C5.0岩性预测模型流

【变量】节点设置：

【变量】节点用来导入分析数据。双击【变量】节点，出现【变量】节点的【浏览文件】界面，单击【浏览文件】（图2-67），选择目标分析数据，点击【打开】（图2-68），可以看到目标文件导入到了变量节点（图2-69），点击【应用】，分析数据导入成功。

pagenumber_ebook=73,pagenumber_book=64

图2-67　【变量】节点的【文件】界面（数据未输入）

pagenumber_ebook=73,pagenumber_book=64

图2-68　【变量】节点的【浏览文件】界面

pagenumber_ebook=74,pagenumber_book=65

图2-69　【变量】节点的【文件】界面（数据已经输入）

【类型】节点设置：

【类型】节点用来设置输入变量和目标变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量，为数值型，其【角色】设置为【输入】，【测量】设置为连续；岩性变量属于目标变量，为分类型，其角色设置为【目标】，【测量】设置为【名义】（图2-70），点击【应用】，设置成功。

pagenumber_ebook=74,pagenumber_book=65