首页 理论教育 人口普查数据处理的难点和对策思考

人口普查数据处理的难点和对策思考

时间:2022-03-12 理论教育 版权反馈
【摘要】:人口普查数据处理的难点和对策思考陈海敏人口普查数据处理工作是人口普查工作出成果的关键阶段,是整个人口普查工作中非常重要的一环,数据处理的方法选择是否得当,对整个人口普查的进程及其结果影响极大。
人口普查数据处理的难点和对策思考_2010浙江人口普查技术业务工作文集

人口普查数据处理的难点和对策思考

陈海敏

人口普查数据处理工作是人口普查工作出成果的关键阶段,是整个人口普查工作中非常重要的一环,数据处理的方法选择是否得当,对整个人口普查的进程及其结果影响极大。如何搞好人口普查的数据处理,进一步提高数据处理工作质量,结合工作实际,提出一些粗浅的看法。

一、数据处理的意义

人口普查数据处理是人口普查工作中举足轻重的一个环节。我们的人口普查工作,每个普查员和普查指导员的心血都最后反映到每张普查表中。要发挥出这些普查表的价值,就是让它们进入到电脑中,最终变成计算机处理后的重要人口数据。如何用信息化技术服务于普查,严格把好普查数据质量关,值得我们认真思考。大多数人可能将人口普查的概念定格在普查登记这一工作上,殊不知在普查登记之后,还有更庞大的工程、更艰巨的任务——数据处理。

二、数据处理的过程

人口普查数据处理主要有三个环节:

img27

1.对普查表短表和封面、普查表长表和封面、死亡表和封面的所有信息全部采用光电录入方式进行数据采集,并且进行图片识别,形成基础光电库。

2.人工在电脑上对机器无法识别的信息进行校对,校验,生成普查表图像文件和数据文件,然后对扫描处理完的数据进行载出。

3.将载出的数据导入到建立好的数据编审系统中,进行集中审核,改正逻辑错误,生成净化后的数据。

三、人口普查数据处理过程中的问题、对策

在人口普查的数据处理过程中,会遇到各种各样的问题和困难。下面将从数据处理的工作量、光电扫描、数据编审等环节总结问题和困难,并对工作中所采取的实用有效的措施进行了归纳,希望可以为以后相关的工作提供借鉴和参考。

(一)前期准备阶段存在的困难

困难一:处理任务工作量大,部署难,绝大多数人是第一次做人口普查,缺乏经验。

对策:认清普查数据处理工作关键和基础在于登记填报、编码阶段,数据处理人员要尽早熟悉普查业务,最好全程参与普查;在开展编码工作中,阶段性地选取部分表格进行编码试扫描,让编码人员了解编码容易出现的问题,以便及时纠正;在正式处理之前,安排1天左右时间对数据处理工作进行试点,真实模拟人口光电录入过程,熟悉各环节操作步骤,有助于正式开展时合理安排。

困难二:基层普查办对数据处理阶段认识不够,人员配备不充分,对该阶段所要承担的工作内容和工作量估计不足。

对策:做好解释和动员,让基层普查办明确普查工作并非登记填报上报后就完成,明确数据处理环节和工作内容,让基层普查办对于自身工作量做到心中有数,并按照实际情况配备精通业务且熟悉计算机操作的骨干参与数据处理工作。

(二)编码环节碰到的问题

问题一:普查表编码过程中出现漏编、多编、错编、表格划痕,导致计算机识别有误(出现多人,少人现象)。

对策:由于普查光电扫描识别程序不含有逻辑校验功能,导致漏码、错码、多码问题无法在校验过程立即给出提醒,容易产生批量的不合格基础数据;为此,我们在光电识别形成基础数据库后,通过数据库查询工具对空值编码和多码进行统一查询,定位到户到人,生成Excel差错清单,分归属进行补码或修改。

问题二:部分无法逻辑校验的指标(如姓名、民族、地区等指标)一旦编错,很难通过技术手段进行定位和改错。

对策:该类错误很难通过计算机技术手段进行查询,一旦识别错误,只能通过人工核对原始表才能发现。在实际操作过程中,必须在普查填表和编码阶段严把质量关,特别是在汉字的填写,字迹务必清楚规范,如民族编码中的“汉”字,一旦连笔很容易被识别成“水”“白”“回”字。以下是实际光电截图:

img28

(三)扫描识别阶段存在的问题

问题一:光电扫描需要处理的普查表数据量巨大,时间紧迫。

对策:根据扫描速度和设备识别处理能力统计每日工作量,按照进度制定扫描计划,为平衡各区域的扫描进度,我们根据前后期扫描总量分别采取按小时轮岗,例如每个乡(镇、街道)扫1小时表后轮换,或者按普查区轮岗,例如每个乡(镇、街道)扫3到5个普查区后轮换两种方式进行轮流扫描,充分调动各街道人普办积极性,形成你追我赶、共同奋进的良好局面。同时按照流水线作业方式定岗定人,一般扫描过程中安排1-2人负责进机前审核(拆普查表包、检查纸张是否潮湿折叠、有否图钉、送纸、整理装袋),1人负责电脑操作选择扫描对象(选取扫描普查区域、核对确定普查区调查人数等基础信息)。

问题二:各种人口普查表管理困难,扫描、校验、核实环节需要对表格进行拆装,容易造成表格丢失和混杂。

对策:普查表数量多,普查小区多,基层上报的普查表均已按小区进行装袋装箱,为了防止表格混乱,数据处理场地必须安排专门的空间用来放置表格,各乡(镇、街道)自己负责辖区内表格领取,安排专门的管表、数表、找表、抄表人员,防止出现表格丢失、夹错等现象。

(四)逻辑改错阶段的问题

问题一:后期数据编审工作量巨大繁琐,部分非逻辑性指标错误较难发现,例如因为调查员和被调查户对于指标理解不透彻而造成的批量性差错。

对策:在普查员培训阶段对这些指标的解读,加深普查员对指标的理解和印象(如对于“房屋出租”是否属于工作的定义,有否就业意向的选择等);加强业务人员与计算机人员的交流沟通,根据本区域实际情况增加审核条件,我们新增了就业意向、就业率、租房职业、学历与年龄对应情况等查询与现实情况进行比对,有效地保证本次人普数据的可靠性和完整性。

问题二:普查表种上报时间不一致,造成表间错误难以修改。

对策:本次普查,短表数据先报,长表、死亡表数据后报,由于上报时间的不一致,而且上报了的短表数据不能再上报,导致后面许多表间错误不好处理。在实际操作过程中,必须要在前期人工做好表间指标之间的审核,主要有查看整个普查小区长短表户编号之间是否有重复,死亡表上的死亡人口是否与长短表中死亡信息对应。

四、对下次人普数据处理工作的几点设想

(一)加强户口整顿资料的利用

本次人普前期,公安部门开展的户口整顿为正式填表上门打好了宣传基础,摸清大致居住户情况,但是其最终成果户口整顿资料在后期的数据处理审核阶段利用不大,主要是由于户口整顿工作时间安排不合理,指标口径设计与普查表指标不能很好地衔接造成。

(二)编审核实阶段基础信息的获取

在数据处理过程中,我们发现很多表上很多信息无法通过指标之间的逻辑关系改正,需要联系填报人本人或是普查员才能进行正确的修改,建议在下次上报普查表格时,附带上报普查小区对应普查员联系清单,以便数据处理人员能够及时对差错进行联系询问。

宁波市江北区人口普查办公室

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈