首页 百科知识 如何理解变量值与标签

如何理解变量值与标签

时间:2022-11-01 百科知识 版权反馈
【摘要】:,指的是剔除掉变异系数小于或等于指定值的变量;变异系数指的是变量的标准偏差与均值之间的比值;对于连续型变量有用。在预测建模过程中,变量的优选是提高模型预测精度的关键。本次以预测A井目的层段致密砂砾岩岩性预测过程中,优选变量的例子,来详细介绍特征选择的使用。在界面中,设置变量重要性的排序依据。双击特征选择结果节点,出现特征选择结果界面,易知,CNL、VCL、RT、PORE、RI、RXO是对岩性敏感的变量。

5.3.1.1 特征选择界面介绍

IBM SPSS Modeler18.0提供了特征选择节点,如图5-20。

图5-20 IBM SPSS Modeler18.0的特征选择节点图示

特征选择节点设置:

特征选择节点的参数设置包括【注解】【选项】【模型】【字段】4张选项卡(图5-21)。

【字段】选项卡,主要用来规定特征选择模型的输入变量和目标变量(图5-21)。

图5-21 【特征选择】的【字段】选项卡界面

【模型】选项卡用来设置特征选择过程的主要参数,即从变量角度来考虑变量重要性的主要参数,如图5-22。

【屏幕字段】,指的是筛选掉有问题的变量,剩下的变量参与模型的计算。

根据以下方法筛选问题变量:

【缺失值的最大百分比】,指的是某变量中缺失值数超过指定的比例,将会被剔除掉。

【单个类别中记录的最大百分比】,指的是某个分类型变量中,如果某个类别占整个记录的百分比大于指定的值,则会被剔除掉;该选项仅对分类型变量有用。

【最大类别数(按记录百分比)】,指的是某个分类型变量中,如果类别数占整个记录的百分比大于指定的值,则会被剔除掉;该选项仅对分类型变量有用。

【最小变异系数】,指的是剔除掉变异系数小于或等于指定值的变量;变异系数指的是变量的标准偏差与均值之间的比值;对于连续型变量有用。

【最小标准差】,指的是剔除掉标准差小于或等于指定值的变量;对于连续型变量有用。

图5-22 【特征选择】的【模型】选项卡界面

【选项】选项卡,用来设置变量重要性的排序依据,这里考察变量重要性是从输入变量和输出变量相关性的角度(图5-23)。

【通过分类目标】,设定分析预测变量的P值(重要性)的方法;如果输入变量和输出变量的类型均为分类型时,可以选择Pearson、似然比、克莱姆系数或者Lambda来计算重要性;如果输入的部分为分类、目标也为分类变量时,可以选择Pearson或者似然比来计算重要性;如果目标和输入均为连续型变量时,系统则自动使用基于相关系数的T统计量;如果目标为连续变量、输入为分类变量或者相反情况,系统则自动使用F统计量;最后,按照各个检验统计量的1-P值,通过降序来排列各个变量。

【所有排列的字段】,指的是变量排序后,显示为【重要】【边际】【不重要】,这3个名称可以更改,用1-P值来衡量;【分界值】指的是1-P值,两个【分界值】是用来设置判断【重要】【边际】【不重要】的1-P值的边界。

【字段总数】,指的是显示经过排序后前n个变量,认为是重要变量,默认值为10。

【重要性大于】,指的是显示1-P值大于在这里指定值的变量,认为是重要变量。

图5-23 【特征选择】的【选项】选项卡界面

5.3.1.2 简单例子

在预测建模过程中,变量的优选是提高模型预测精度的关键。因为无论算法多么优越,与预测目标相关性不好的变量的引入,会由于误差叠加的放大效应,对预测结果产生巨大的影响。本次以预测A井目的层段致密砂砾岩岩性预测过程中,优选变量的例子,来详细介绍特征选择的使用。

特征选择模型建立的具体操作如下:

插入【变量】节点(位于节点选用板的【源】选项卡中,如图5-24)、【类型】节点(位于节点选用板的【字段选项】选项卡中,如图5-25)和【特征选择】节点(位于节点选用板的【建模】选项卡中的【分类】中,如图5-26),依次连接,特征选择岩性预测模型流初步设置成功,如图5-27。

图5-24 节点选用板的【源】界面

图5-25 节点选用板的【字段选项】界面

图5-26 节点选用板的【建模】中的【分类】界面

图5-27 初步建立的特征选择模型流

【变量】节点设置:

【变量】节点用来导入分析数据。双击【变量】节点,出现【变量】节点的【浏览文件】界面,单击【浏览文件】(图5-28),选择目标分析数据,点击【打开】(图5-29),可以看到目标文件导入到了变量节点(图5-30),点击【应用】,分析数据导入成功。

图5-28 【变量】节点的【文件】界面(数据未输入)

图5-29 【变量】节点的【浏览文件】界面

图5-30 【变量】节点的【文件】界面(数据已经输入)

【类型】节点设置:

【类型】节点用来设置输入变量和目标变量的【测量】和【角色】。AC、CALI、CNL、DEN、GR、PORE、RI、RT、RXO、VCL属于输入变量,为数值型,其【角色】设置为【输入】,【测量】设置为连续;岩性变量属于目标变量,为分类型,其角色设置为【目标】,【测量】设置为【名义】(图5-31),点击【应用】,设置成功。

图5-31 【类型】节点界面

【特征选择】节点设置:

【特征选择】节点用来建立特征选择模型。

在【字段】选项卡中设置【输入(I)】和【目标(T)】变量,本次选择【使用预定义角色(D)】(图5-32)。

图5-32 【特征选择】节点的【字段】界面

在【模型】选项卡设置特征选择模型的基本参数(图5-33)。

设置【缺失值的最大百分比】为75%,即某变量中缺失值数超过75%,将会被剔除掉;设置【单个类别中记录的最大百分比】为90,即某个分类型变量中,如果某个类别占整个记录的百分比大于90%,则会被剔除掉;设置【最大类别数(按记录百分比)】为95,即某个分类型变量中,如果类别数占整个记录的百分比大于95%,则会被剔除掉;设置【最小变异系数】为0.1,即剔除掉变异系数小于或等于0.1的变量;设置【最小标准差】0.0,即剔除掉标准差小于或等于0.0的变量。

图5-33 【特征选择】节点的【模型】界面

在【选项】界面中,设置变量重要性的排序依据(图5-34)。选择【所有排列的字段】,设置【重要】和【边际】的【分界值】为0.95,设置【边际】和【不重要】的【分界值】为0.9,并在【重要】处画钩;选择【Pearson】。

图5-34 【特征选择】节点的【分析】界面

点击运行,生成特征选择模型运行结果(图5-35)。

图5-35 含有模型运行结果的特征选择模型流(钻石形状的节点为模型运行结果)

双击特征选择结果节点,出现特征选择结果界面(图5-36),易知,CNL、VCL、RT、PORE、RI、RXO是对岩性敏感的变量。

图5-36 含有模型运行结果的特征选择模型流(钻石形状的节点为模型运行结果)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈