首页 百科知识 数据采集的经过

数据采集的经过

时间:2022-07-03 百科知识 版权反馈
【摘要】:二、数据采集的经过必须按照客观性、真实性原则,确立数据采集过程。(三)统计数据的显示统计调查得来的资料,经过整理,按一定的顺序排列在图表上,就形成了统计表和统计图。它置于统计表格的正上方。指标数值是列在横行和纵栏的交叉处,即表格中的数字就是指标数值,用来说明总体及其组成部分的数量特征,它是填写在统计表格的核心部分。

二、数据采集的经过

必须按照客观性、真实性原则,确立数据采集过程。

(一)数据的预处理

数据预处理是统计整理的先前步骤,是在统计分组、汇总前对原始数据所做的必要工作。包括对调查收集数据的审核、历史资料的审核。

1.调查数据的审核

对于原始数据,主要审核资料的完整性和准确性,确保数据的质量。其中完整性审核,就是看应调查或观测的个体是否齐全;规定的项目是否都有答案,应报资料的份数是否符合规定。准确性审核是检查所收集的资料是否存在差错,是否符合客观实际。常用的审核方法有逻辑检查和计算检查等。

对于次级数据,除了检查其完整性和准确性外,还要检查其适用性和时效性,即弄清其来源、口径和有关背景,判断是否需要再加工等。

2.历史资料的审核

在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可以从调查资料的历史背景、调查者收集资料的目的以及资料来源等,来判断资料的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确性。对不能满足现在要求、缺漏或有疑问的资料,要进行有科学根据的推算、弥补和订正。

(二)数据的来源

从统计数据本身的来源看,统计数据最初都是来源于直接的调查或实验。但从使用者的角度看,统计数据主要来源于两种渠道:

1.来源于直接的调查和科学实验。对使用者来说,这是统计数据的直接来源,称之为第一手或直接的统计数据。

2.来源于别人调查或实验的数据。对使用者来说,这是统计数据的间接来源,称之为第二手或间接的统计数据。对大多数使用者来说,亲自去做调查往往是不可能的。所使用的数据大多数是别人调查或科学实验的数据,对使用者来说称为二手数据。

二手数据主要是公开出版的或公开报道的数据,当然有些是尚未公开出版的数据。在我国,公开出版或报道的社会经济统计数据主要来自国家和地方的统计部门以及各种报刊媒介。除了公开出版的统计数据,还可以通过其他渠道使用一些尚未公开发布的统计数据,以及广泛分布于各种报纸、杂志、图书、广播、电视传媒中的各种数据资料。现在,随着计算机网络技术的发展,也可以在网络上获取所需的各种数据资料。

(三)统计数据的显示

统计调查得来的资料,经过整理,按一定的顺序排列在图表上,就形成了统计表和统计图。它们能清楚地、有条理地显示统计资料,直观地反映统计分布特征,是统计分析的一种重要工具。

1.统计表

从结构上看,统计表可以从表式和内容两个方面来认识:

(1)从表式上看,统计表是由纵横交叉的线条组成的一种表格,表格包括总标题、横行标题、纵栏标题和指标数值四个部分。

总标题是统计表的名称,它扼要地说明表的基本内容,并指明时间和范围。它置于统计表格的正上方。横行标题是横行的名称,一般放在表格的左方。纵栏标题是纵行的名称,一般放在表格的上方。横行标题和纵行标题共同说明填入表格中的统计数字所指的内容。指标数值是列在横行和纵栏的交叉处,即表格中的数字就是指标数值,用来说明总体及其组成部分的数量特征,它是填写在统计表格的核心部分。

(2)从内容上来看,统计表是由主词栏和宾词栏两个部分组成。

主词栏是统计表所要说明的总体及其组成部分,一般都列在表的左半部分;宾词栏是统计表用来说明总体数量特征的各个统计指标及其数值,一般都列在统计表的右半部分。

此外,统计表还有补充资料、注解、资料来源、填表单位、填表人等附加内容。

另外,统计表根据主词是否分组和分组的程度,可以分为简单表、分组表和复合表。

(1)简单表:主词未经任何分组,仅列出总体各单位按时间顺序简单排列的统计表。本书中所列的统计表大多是这种类型。

(2)分组表:主词只按一个标志进行分组形成的统计表,又称为简单分组表。简单分组表应用十分广泛,对比简单表,它还可以区分事物的类型,研究总体结构,分析现象的依存关系。

(3)复合表:主词按两个以上标志进行分组的统计表,又称为复合分组表。当然要特别注意的是,第二标志进行分组的组别名称要后退一二字,以提醒阅读者。

2.统计图

能直观、形象、生动地表现统计数据的方式,种类很多。Excel提供了14种标准图形。其中最常用的为以下两种:

(1)柱形图,亦称直方图,是用直方形的宽度和高度来表示次数分布的图形,即在直角坐标系上,以横轴表示变量,纵轴表示次数或频率,以各个宽度为组距、高度为次数和频率的直方块矩形所构成的图形。

(2)饼图,也叫圆形图,以整个圆形代表研究对象总体,按各构成部分占总体的比重大小将圆形划分成面积不等的扇形来表示现象总体内部结构及比例关系的一种统计图。

本书大量用到了上述的柱形图和饼图。

(四)数据采集的经过

首先,直接走访掌握宁波市港口与城市互动方面调查统计数据的有关部门和单位,如宁波市交通局(港口管理局)、港航管理局、统计局、对外贸易经济合作局、发改委、宁波海关、宁波港集团、经委、人事局、建委、规划局等。他们有专业的数据上报及处理机制,数据具有极强的准确性。

其次,查阅公开的统计数据刊物,如《中国统计年鉴》、《宁波市统计年鉴》、《宁波交通年鉴》、《中国港口年鉴》、《中国海洋统计年鉴》、国民经济和社会发展统计公报、统计概览、统计月报、统计季报等。这些数据有很强的时间延续性,根据课题组成员的研讨结果,收集了从2005年到2009年五年间宁波相关的数据,可配合进行时间序列分析。本书中的数据大部分来自这种途径,故除特别说明外,列出的数据表后就不再赘述其数据来源。

最后,有部分数据取自有关的权威网站和新闻媒体报道,许多较重要的数据因为各种各样的原因,无法获取第一手的资料,于是借助网络、查阅报纸杂志,通过分析指标内涵和构成,重构和整合指标内容获取数据,并对其中个别年份所缺的数据进行了合理的估算,如比例推算法、比例插值法、抽样推断法、概率推算法等。

(五)统计推算法的使用

统计在研究社会经济现象发展过程中,要用各种综合指标描述其数量特征和数量关系,都是以实际统计调查资料为基础的。但由于社会经济现象复杂多变,不可能或者没必要都进行直接的调查,可以进行科学的统计推算来获得需要的数据。

统计推算就是以实际统计资料为基础,根据社会经济现象的特点、内在联系和发展规律,运用各种统计方法,间接地推算现象发展变化的数量表现与趋势。本书在收集数据过程中,常常用到以下几个方法:

1.比例推算法

是利用已知某一时期、某一地区或某一单位的某种指标与其有关的指标的比例关系,推算其他类似时期、地区或单位的同类指标数值,或者从局部资料的比例推算总体的指标数值。用作推算的比例可以有结构相对数、指数、换算关系、利用率等等。

2.平衡推算法

根据社会经济现象之间客观存在的平衡关系,从已知的实际统计资料,推算某项指标数值的方法。要求平衡关系式中的各个项目不发生重复或遗漏,而且计算口径要一致,以保证推算指标数据的准确性。

3.内插推算法

为了插补历史资料,根据时间数列的变化情况,采用不同方法推算个别时期所缺的资料。

4.线性插值法

如果掌握两个地区或单位有关的数量对应关系的资料,推算另外一个地区或单位对应的未知资料,就要采用此法。

5.抽样推算法

根据抽样或典型调查资料推算系统总体特征的方法。这种方法是数理统计分析中常用的方法,是以部分样本代表整个样本空间来对总体进行统计分析的一种方法。可以直接推算所需的总体资料,或用修正系数法来修正补充全面调查的资料。

6.概率推算法

概率是指某一事件发生的可能性大小。事故的发生是一种随机事件,任何随机事件,在一定条件下是否发生是没有规律的,但其发生概率是一客观存在的定值。因此,根据有限的实际统计资料,采用概率论和数理统计方法可求出随机事件出现各种状态的概率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈