首页 理论教育 标准化数据处理

标准化数据处理

时间:2022-03-12 理论教育 版权反馈
【摘要】:标准化数据处理——普查数据处理思考赵军杰第六次全国人口普查的数据处理将近结束。与10年前的第五次全国人口普查相比,第六次全国人口普查数据处理拥有更快的客户端计算机,更好的服务器,但软件运行速度却比10年前更慢,软件的错误更多,汇总程序推出更迟。最后,上级发放标准制度包,下级以符合标准的数据处理程序处理、上报数据。
标准化数据处理_普查数据处理思考_2010浙江人口普查技术业务工作文集

标准化数据处理——普查数据处理思考

赵军杰

第六次全国人口普查的数据处理将近结束。与10年前的第五次全国人口普查相比,在数据处理方面并没有进步,反而在有些方面退步了。与10年前的第五次全国人口普查相比,第六次全国人口普查数据处理拥有更快的客户端计算机,更好的服务器,但软件运行速度却比10年前更慢,软件的错误更多,汇总程序推出更迟。

第五次全国人口普查跟第六次人口普查处理的人口数据并没有本质上的区别,数据处理的方式也基本相同,为什么我们在拥有更好硬件的10年后,并没有在数据处理上有所进步?

因为数据处理没有延续性,我们只盯着眼前的事情。10年前犯的错误,我们再犯一遍;10年前做过的事情,我们重新做一次;10年前花了很多人力物力得到的经验,我们抛之脑后。

那么,我们怎样才能保持数据处理的延续性?答案是:标准化数据处理。标准化数据处理就是找出数据处理中的共性,形成标准,每次数据处理根据标准建立方案,并按照方案进行数据处理。

标准化数据处理包括数据的标准化和数据处理流程的标准化两个方面。

一、数据的标准化

10年是一个很长的时间,数据处理的硬件和软件有很大的变化,但不管软件硬件有多大变化,我们总是在处理数据。不管是10年还是100年,人口普查永远是调查人的信息,也就是人的数据。所以数据的标准化才是标准化数据处理的关键和根本。

从本质上来说,数据处理的目的就是获得符合标准的数据。比如人口普查,就需要获得人的年龄、性别等属性和户的各种属性,这些属性本身不能存在逻辑错误,属性之间的关系也不能存在逻辑错误:不能把年龄填为“男”,也不能把爸爸的年龄填写为“20岁”,而子女的年龄填写成“21岁”。

所以标准化数据包含数据定义和逻辑关系两个部分,上级对下级下发包含着两个部分的制度包,下级按照制度包采集上级需要的数据,把符合制度包要求的数据返还给上级。

数据定义应包含数据列表、数据名称、数据类型,举例如下:

A101表:

 A1:

  数据名称:姓名

  数据类型:字符

 A2:

  数据名称:年龄

  数据类型:整数

逻辑关系举例如下:

1.A101.A2<200,年龄不能大于或等于200岁。

2.A101.A2>-1,年龄不能小于0岁。

而下级上报符合制度包的数据给上级,举例如下:

A101.csv文件:

 A1,A2

 张三,23

 李四,50

 …

下级拿到这个制度包,可以使用上级下发的统一数据处理平台,也可以使用本级开发的程序或者采购数据处理软件进行数据处理。由于制度包是符合数据标准的,而这个标准是公开、唯一、具有延续性的,软件开发将不需要把时间浪费在制度转换和上报数据格式变化上,而专注于程序执行性能和易用性的提升;数据处理可以在多个互相竞争的数据处理软件之间自由选择,而不会影响数据处理工作。长此以往,我们将得到更好的数据处理软件,并保持数据处理的可延续性,以及各级数据处理的一致性。

二、数据处理流程的标准化

标准化的数据处理流程,应该以汇总表为起点,以汇总表为终点。我们进行全国人口普查,不是想知道某个人的姓名、性别,而是要知道全国省、市、县的人口汇总数据,也就是汇总表,所以人口普查数据处理应该以汇总表为起点。我们应该先设计好汇总表,然后根据汇总表设计户表、人表,再根据户表、人表设计数据处理制度包,接着根据制度包采集、上报数据,最后汇总成汇总表。而汇总程序(或制度)应该最先开发。

如果我们想实施标准化数据处理,我们应该从数据的标准化开始,制定一个数据处理制度标准,这个标准应该是公开、唯一、具有延续性的。作为实施的辅助,我们要开发或者购买一个支持该标准的数据处理程序。当这两样准备好后,在一个小项目和一个大项目上进行试点。如果实验成功,建立一个时间表,把统计部门的所有正在进行数据处理的程序转换成符合标准的数据制度包,并按照时间表转换到标准化数据处理。最后,上级发放标准制度包,下级以符合标准的数据处理程序处理、上报数据。这时候作为实施辅助的标准数据处理程序就可以被抛弃或者与其他标准数据处理程序竞争。

标准化数据处理不是技术问题,而是观念问题,是执行力的问题。

台州市人口普查办公室

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈