首页 百科知识 模型场景布局

模型场景布局

时间:2022-11-01 百科知识 版权反馈
【摘要】:,指的是规定C5.0的分析结果,包括和。表示输出决策树和由决策树直接得到的推理规则;表示输出推理规则集,推理规则集并非由决策树直接得到,这里不再详细介绍。,指的是规定决策树建立模型过程中的参数设置方式,包括和;其中,指的是依靠系统自动调整参数;指的是通过手动调整参数。本次以预测A井目的层段致密砂砾岩岩性为例,来详细介绍C5.0的使用。

2.3.3.1 C5.0界面介绍

IBM SPSS Modeler18.0提供了C5.0节点,如图2-58。

图2-58 IBM SPSS Modeler18.0的C5.0节点图示

C5.0节点设置

C5.0节点的参数设置包括【注解】【分析】【成本】【模型】【字段】五张选项卡。本次重点介绍的是【模型】和【分析】选项卡。

【字段】选项卡,主要用来规定C5.0模型的输入变量和目标变量(图2-59)。

图2-59 【C5.0】的【字段】选项卡界面

【模型】选项卡用来设置C5.0算法的主要参数,如图2-60。

【输出类型:】,指的是规定C5.0的分析结果,包括【决策树】和【规则集】。【决策树】表示输出决策树和由决策树直接得到的推理规则;【规则集】表示输出推理规则集,推理规则集并非由决策树直接得到,这里不再详细介绍。

【组符号:】,指的是利用ChiMerge分箱法检验当前检验当前分组变量的各个类别能否合并,如果可以,应该先合并在分支,数值型分组变量将长出两个分支。

【使用boosting】,指的是采用boosting集成算法优化模型,用来提高模型预测的准确性。其中,【试验次数】指的是boosting集成算法建立模型的个数。

【交叉验证】,指的是采用交叉验证法建立模型。其中,【折叠次数】指的是规定折数n;根据交叉验证法,将在1-1/n份样本上分别建立n个模型,模型误差是n个模型预测结果的综合。

图2-60 【C5.0】的【模型】选项卡在【支持】中选定【准确性】后的界面

【模式】,指的是规定决策树建立模型过程中的参数设置方式,包括【简单】和【专家】;其中,【简单】指的是依靠系统自动调整参数;【专家】指的是通过手动调整参数。

选择【简单】,界面如图2-60所示,包括【支持:】和【预期噪声(%):】两部分。

【支持:】,指的是用来指定参数设置的原则,包括【准确性】和【普遍性】两个选项。其中,【准确性】表示最求高的预测精度或者低的预测错误率为原则设置模型参数(比如树的深度、节点允许的最小样本量、决策树修建时的置信度等),可能导致过拟合问题。【普遍性】表示选择系统的默认参数,以减少模型对数据的过度依赖。

【预期噪声(%):】后的数字框中,规定数据所含的噪声数据占整个数据集的比例,通常可以不指定。

选择【专家】,界面如图2-61所示,包括【修剪严重性:】【每个子分支的最小记录数:】【使用全局修建】和【辨别属性】4个部分。

【修剪严重性:】,指的是决策树修剪时的置信度,默认的值为75=100-25。

【每个子分支的最小记录数:】,指的是规定决策树每个节点允许的最少样本数量。

图2-61 【C5.0】的【模型】选项卡在【支持】中选定【专家】后的界面

【分析】选项卡用来设置计算输入变量重要性的指标,如图2-62。

【计算预测变量重要性】,指的是以图的方式显示输入变量对建模的重要性。

【倾向评分(仅对标志目标有效):】,指的是用来规定计算变量的倾向性得分的方法。

【计算原始倾向评分】,指的是对于每个观测值,分类模型给出预测值为真的概率,此概率是根据训练样本集计算的。

【计算调整倾向评分】,指的是对于每个观测值,分类模型给出预测值为真的调整概率,此概率是根据测试样本集或者验证样本集计算的,并且应该在【基于】选项中指定样本集。

图2-62 【C5.0】的【分析】选项卡界面

2.3.3.2 简单例子

C5.0属于分类树,可以有效地解决分类问题。本次以预测A井目的层段致密砂砾岩岩性为例,来详细介绍C5.0的使用。

C5.0岩性预测模型建立的具体操作如下。

本次利用的数据是A井目的层段测井和岩性数据。

插入【变量】节点(位于节点选用板的【源】中,如图2-63)、【类型】节点(位于节点选用板的【字段选项】中,如图2-64)、【分区】节点(位于节点选用板的【字段选项】中,如图2-64)和【C5.0】节点(位于节点选用板的【建模】中的【分类】中,如图2-65),依次连接,C5.0岩性预测模型流初步设置成功,如图2-66。

图2-63 节点选用板的【源】界面

图2-64 节点选用板的【字段选项】界面

图2-65 节点选用板的【建模】中的【分类】界面

图2-66 初步建立的C5.0岩性预测模型流

【变量】节点设置:

【变量】节点用来导入分析数据。双击【变量】节点,出现【变量】节点的【浏览文件】界面,单击【浏览文件】(图2-67),选择目标分析数据,点击【打开】(图2-68),可以看到目标文件导入到了变量节点(图2-69),点击【应用】,分析数据导入成功。

图2-67 【变量】节点的【文件】界面(数据未输入)

图2-68 【变量】节点的【浏览文件】界面

图2-69 【变量】节点的【文件】界面(数据已经输入)

【类型】节点设置:

【类型】节点用来设置输入变量和目标变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量,为数值型,其【角色】设置为【输入】,【测量】设置为连续;岩性变量属于目标变量,为分类型,其角色设置为【目标】,【测量】设置为【名义】(图2-70),点击【应用】,设置成功。

图2-70 【类型】节点界面

【分区】节点设置:

【分区】节点可以把样本数据分成训练集和测试集。选择【训练和测试(T)】,设置【训练分区大小】为90,【测试分区大小】为10,点击【应用】,设置成功。如图2-71。

图2-71 【分区】节点界面

【C5.0】节点设置:

【C5.0】节点用来建立C5.0预测模型。

在【字段】界面设置输入 和输出变量,本次选择【使用预定义角色(D)】(图2-72)。

在【模型】选项卡设置C5.0模型的基本参数(图2-73),选择【使用分区数据】和【为每个分割构建模型】;【输出类型】选择【决策树】;使用【使用Boosting】和【交叉验证】来提高模型的准确性,【试验次数】设置为10,【折叠次数】设置为10;【模式】中选择【简单】;【支持】中选择【简单】。

在【分析】界面中选择【计算预测变量重要性】(图2-72)。

图2-72 【C5.0】节点的【字段】界面

图2-73 【C5.0】节点的【模型】界面

图2-74 【C5.0】节点的【分析】界面

点击运行,生成C5.0模型运行结果(图2-75);同时为了方便地分析预测结果的准确性,添加分析节点,如图2-76。

图2-75 含有模型运行结果的C5.0岩性预测模型流(钻石形状的节点为模型运行结果)

图2-76 含有【分析】节点的C5.0岩性预测模型流

双击【分析】节点,点击【运行】(图2-77),得到模型的分析结果(图2-78)。其中,【1_培训】代表训练集,【1_测试】代表测试集;从分析结果可以轻易看到,训练集的预测准确性为90.7%,测试集的预测准确性为93.75%,说明模型的预测精度高,泛化能力强,能较准确地区分砂砾岩和泥岩。

图2-77 【分析】节点的【分析】界面

图2-78 【分析】结果界面

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈