数字油藏中数据挖掘的一般步骤

时间：2023-02-14 理论教育版权反馈

【摘要】：数字油藏数据的类型较多、量纲不同及存在各种误差等原因，直接将原始观测数据用于储层知识的挖掘是不合适的。数据分布的统计主要是对观测数据做一些基本的特征量分析，并弄清数据的分布状况。此外，对于偏态分布的原始数据，可以通过广义幂变换、对数变化等方法变成近于正态分布。选择数据挖掘技术的两个步骤。数字油藏数据挖掘的目的是想获得对数字油藏过程有用的知识。

数据挖掘是一个高级的处理过程，它可从数据集中识别出被人们理解的模式所表达的知识。它是一个多步骤的高级处理过程，各步骤之间相互影响、反复调整，形成一种螺旋式的上升过程。数字油藏的挖掘过程包括五个阶段，即数据抽取阶段、数据预处理阶段、数据挖掘阶段、评估和解释知识阶段及知识入库阶段(图5-12)。

图5-12 储层建模中数据挖掘的一般步骤

1．数据抽取

由于采取空间数据仓库中的数据集市方法来管理数字油藏所需数据，因而数据挖掘所需数据的抽取相对容易，关键是怎么为某项数据挖掘专题研究提供有效数据，如挖掘沉积微相与电性曲线之间的知识关系时，选择哪几条测井曲线能代表工区内沉积微相的所有类型，往往由于地质条件的多变，需要研究人员的决策，因而在数据抽取时应提供对应的提示信息，在软件实现时采用向导方式提供辅助支持。

2．数据预处理

数字油藏数据的类型较多、量纲不同及存在各种误差等原因，直接将原始观测数据用于储层知识的挖掘是不合适的。为此，在数据挖掘算法开始前，应对提取的数据预处理，目的是剔除或压制数据中所包含的噪声，突出有用信息，为数据挖掘获取的知识提高可靠性。常用的数据预处理方法包括数据校正、数据分布统计、可疑观测值的剔除、奇异值的稳健处理、过密数据的抽稀、数据的标准化处理等。用转换后的数据构置成新变量，将提高分析水平。

除此之外，对观测到的原始数据还需校正，这在油气勘探开发中的各类数据中都比较常见，如自然电位的基线偏移等。如果直接把它们作为变量参与处理，易造成错误的分析结果。因此，需对原始数据进行校正，如对之进行基线对齐等，将原始数据转换成同一基线下有利于直观地解释地质现象。

数据分布的统计主要是对观测数据做一些基本的特征量分析，并弄清数据的分布状况。特征量分析主要包括样本均值、方差、众数、中位数、极差、变异系数、偏度、峰度等。平均值、中位数、众数能反映抽样数据的集中性特征，方差、标准差、极差、变异系数可以表示数据的分散性特征。如在粒度分析中，平均值、中位数、众数说明了粒度分布的整体趋势，标准差反映了沉积物的分选程度等。为了了解数据取值的分布情况，分析它们的分布规律，就必须知道样本分布的密度函数。目前常用的方法是直方图法，即根据观测数据系列画出频率直方图(或累计频度直方图)，从直方图的分布可以清晰地看出地质变量的分布状况，若能结合地质变量的统计特征，就可以知道它是不是属于正态分布。

地质数据中往往存在着某些奇异值(局部异常高值和低值)现象，往往直接影响到基于观测数据的计算过程及对计算结果的合理解释。如果奇异值是已知因素造成的，可进行相应的数据校正。如果奇异值数据是对地质情况的真实反映，但会对计算过程及结果产生一些消极影响的话，对其进行适当的处理也是必要的，如在储层中常常存在高渗透率带，这就需要取渗透率的对数作为下一步的输入数据。实际工作中，判断数据体中的奇异值是十分困难的，最好采用多种方法，这样可以相互比较。

定量数据的标准化是为了处理不同地质变量原始观测值的单位、量纲、大小、分布的不同将各地质变量的观测值变换到某种统一的尺度下。如果对原始数据直接使用，可能过分突出观测值较小的地质变量的作用，降低观测值较小的地质变量作用。定量数据的标准化包括对变量和样品观测值的标准化、极差化或均匀化变换。此外，对于偏态分布的原始数据，可以通过广义幂变换、对数变化等方法变成近于正态分布。

定性数据的定量化处理在地质研究中经常会遇到，如岩性的颜色、沉积层理等。由于定性数据不能直接参加运算，必须将定性数据赋予定量的数值，才能用到数据挖掘算法当中。对定性数据进行变换时，一般是用非负整数进行赋值，并且由低级的状态到高级状态，赋值逐渐增大。根据实际情况，可用等差式的等级进行赋值，也可用非等差式的等级进行赋值。定性数据进行变换后，再按定量数据标准化进行变换，则变换后的定性数据可与定量数据一起使用。

数据提炼是数据挖掘前的重要环节，它主要包含两个方面:一是从多种数据源综合数据挖掘所需要的数据，保证数据的综合性、易用性、数据的质量和数据的时效性;另一方面就是从现有数据中衍生出所需要的指标，这主要取决于数据挖掘的算法。

3．数字油藏的数据挖掘

这是获取储层知识的最关键一步，也是技术难点所在，主要是根据数据挖掘的任务确定采用哪一种数据挖掘算法。同样的数据挖掘任务可以用不同的数据挖掘算法来实现，数据挖掘算法的选择主要是根据以下两个方面的因素:一是数据的特点;二是用户和实际运行系统的要求。在完成了这些准备工作后，就可以进行数据挖掘了。选择数据挖掘技术的两个步骤。

(1)将需要解决的问题转化成一系列数据挖掘的任务(如:分类、估值、预测、聚集、描述等)，并根据任务的不同选择相应的技术。

(2)理解可以获得的数据的信息涵义:内容、字段类型、记录之间的关系。分析数据特点属于哪一类数据并根据各自的特殊性选择相应的数据挖掘方法。

4．储层知识的评估、解释

数字油藏数据挖掘的目的是想获得对数字油藏过程有用的知识。经数据挖掘所发现的模式，可能存在冗余或用户不感兴趣的模式，这时需要将其除去;也有可能所发现的模式不能满足用户的需要，要求整个发现过程再返回到数据挖掘阶段之前，重新进行数据选取/抽样、数据变换和数据挖掘，甚至换一种挖掘算法(如在发现分类规则就有多种数据挖掘方法可供选择，不同的方法可能具有不同的挖掘效果)。因此，对所得到的知识必须进行评估，确定有效的模式类型。如在利用BP神经网络对油气非均质储层参数进行计算时，得到了一系列的有用模式。如利用空间坐标、体积密度、伽马射线、深度感应测井反映、地质解释(粒度分布、体积密度分成地层小层)作为神经网络的输入参数来预测油岩的孔隙度;把GR、AC、CN、DEN、RT作为输入参数，来预测油岩的饱和度;岩性识别以GR、AC、CN、DEN、RT、Pe、U、TH、K作为BP输入参数，进行岩性识别等。从这些应用分析中，得到的模式可作为以后实际应用参考。

5．储层知识入库

从数据挖掘中得到的并且被评估为可利用的模式可在以后的生产实践中进行检验，从中得到的新启示可进一步完善以前的模式(或模型)。如根据前一章中的研究方法，结合具体的油气勘探开发应用，进行检验并不断改进。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈