人口普查数据处理工作杂谈

时间：2023-03-12 百科知识版权反馈

【摘要】：人口普查数据处理工作杂谈胡晓平　黄　达普查业务技术文章，既是对普查工作的总结，也是对普查工作的反思，重要的一点，是找出问题和不足，并能够对以后的普查工作留下宝贵的经验。但是，作为人口普查的一项“副业”，不能影响人口普查数据处理工作的“主业”。因此这项工作可以安排在普查数据上报工作全部完成后。

人口普查数据处理工作杂谈_2010浙江人口普查技术业务工作文集

人口普查数据处理工作杂谈

胡晓平　黄　达

普查业务技术文章，既是对普查工作的总结，也是对普查工作的反思，重要的一点，是找出问题和不足，并能够对以后的普查工作留下宝贵的经验。基于这点考虑，笔者写点工作体会。

一、修订格的变化

相比以前采用光电录入的普查，本次人口普查普查表上的一项改进体现在修订格的设计上。比如，第二次农业普查也采用光电录入技术，但是农普表上专门设计了修订格区域，需要修订的内容，统一将正确的内容填写在修订格区域内，其特点是计算机自动识别修订后的内容，只要计算机能正确识别，无需人工干预，工作效率高，速度快。而本次人口普查表上没有设计专门的修订格区域，若书写有错误需要修改，只需将正确的内容直接写在修订符的旁边，在计算机扫描识别时人工进行识别改错。人口普查的做法是直接明了，在普查表填写阶段，易于操作，但是在计算机光电扫描阶段，需要人工干预，增加了计算机识别的工作量和时间，降低了计算机运行速度和效率。两种设计方法各有利弊，具体采用何种方法，不同的普查，可以根据数据上报时间、数据处理设备的运行速度和效率，普查表的复杂程度等因素，选取不同的方案。

二、本次普查表的设计上两点可以改进之处

（一）每张普查表中的地址码应该省略，填写中文地址名即可

本次普查表中，每张普查表上都设计了与封面相同的调查登记地址和地址编码，在数据扫描时，也需要对每一张普查表进行地址码的识别改错。其实，在每一个普查小区的封面上，已经有了地址码，按理说，在扫描进封面数据并改错后，同一个小区的所有普查表都不再需要输入地址码，可是这次的设计者并没有省略普查表上的地址码。这样做，不仅增加了地址码编码的工作量，增加了编码出错的可能性，也增加了计算机的地址码识别的时间，还增加了识别错误的可能性，更增加了改错的工作量，把本来不存在的地址码错误硬生生地多了出来。笔者觉得这是一个极不合理的设计，既大大增加了编码、扫描识别、改错的工作量，又增加了产生错误的可能性。也许设计者是为了避免报表在使用过程中装袋错误，易于识别，其实只要在普查表上填写了普查区地址，即使装袋错误，也很容易正确归位。

（二）对民族项的设计应该改进的地方

本次普查中，民族项也采用汉字书写、计算机识别的技术。在书写规范、填写位置正确的前提下，这种方法可以大大提高工作效率，减轻基层普查人员的劳动强度，但是，在一线普查人员素质低下、工作责任心不够的情况下，字迹潦草、汉字填写到格子外等各种情况都非常普遍，这种设计方法带来的直接后果是，识别错误大大增加，许许多多的汉族被识别成“水族”“佤族”“回族”等，苗族识别成“蒙古族”的也有。为此，省级人普办多次下文，要求各地重视民族项的识别改错，尽量消灭民族项的识别差错。笔者认为，民族项采用计算机自动识别，在技术角度和理想状态下，设计没有问题，但是从基层复杂的实际情况看，又不尽合理。笔者认为，对民族项的设计只需作如下的改进，就可以确保民族项的正确识别：首先对民族项做2选1的选择，如果是汉族，直接填写数字“1”，如果不是汉族，选“2”，然后填写相应的民族，由计算机进行自动识别。由于汉族人口占了接近97%，其他民族约占不到4%，因此，对于97%的汉族人口来说，民族属性基本不会出错，只要对余下的约3%的人口的民族项进行逐个识别改错，工作量也不会太大，而且可以确保民族项的正确率几乎可以达到百分之百。

（三）对姓氏扫描识别的一点建议

姓氏在我国的历史文化和人文文化中占据着重要的地位，对姓氏的数据、各姓氏的人数占比、地域分布等情况进行研究有着极为重要的意义。不少遗传学家、文学家都对姓氏进行过专门的研究。比如历任中国科学院遗传研究所室主任、华夏姓氏源流研究中心主任的袁义达研究员就出版过《中华姓氏大辞典》和《中国姓氏：群体遗传和人口分布》等论著。但是，限于各方面的条件，他们的研究成果也都只能通过抽样调查等方法取得，有很大的局限性。本次普查对我国境内的所有人进行了登记，因此，要对姓氏进行研究，只需增加姓氏识别改错功能即可。但是，作为人口普查的一项“副业”，不能影响人口普查数据处理工作的“主业”。因此这项工作可以安排在普查数据上报工作全部完成后。笔者认为可以这样处理：人口普查表扫描后，将姓氏图像切割下来进行保存，待数据审核、修改、上报、查询等数据处理工作都完成后，再利用空余时间，回过头来进行识别改错，这样既不影响数据处理工作进度，又相当于做了一次全国姓氏大普查，其准确率远远高于中科院有关专家通过抽样调查方法获得的姓氏研究成果。本次普查未对姓氏进行校对，是普查资源一个极大的浪费，笔者强烈呼吁有关部门对姓氏资源进行开发利用。

（四）关于对机表一致要求的一点看法

机表一致是多个普查一开始就对数据处理工作提出的一项基本要求。回头想想，这个要求是一个非常不切实际的要求，因为从逻辑上就无法成立。普查表收上来后，在审核过程中，总会审核出大量的差错，发现了差错，总要改掉吧，机器上改了，普查表上要不要改？如果不改，显然机表就不一致了，改吧，要找出原始表，这可要花不少的时间和精力，普查表要重新抄写，重新抄写了，与机器原来扫描进去的图像又不一致了，而且原始表上户主的签名怎么办？在基层普查机构人手紧张，上报时间紧迫、工作量巨大的情况下，这个要求实在是太无理又无法做到。希望以后的普查中，上级有关部门从工作实际出发，实事求是，不要再提这种既做不到又不合理，更是浪费人力物力、影响进度的要求。

金华市人口普查办公室

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈