首页 理论教育 对于引入“虚字”编码格的一点探讨

对于引入“虚字”编码格的一点探讨

时间:2022-03-12 理论教育 版权反馈
【摘要】:对于引入“虚8字”编码格的一点探讨奚增灵编码工作作为人普登记数据光电转换的基础,其工作质量直接关系着光电识别正确率的高低并进而影响最后人普数据的质量。因此,笔者认为,引入如图1所示的“虚8字”格进行编码可以有效地对数字书写规范进行统一。
对于引入“虚字”编码格的一点探讨_2010浙江人口普查技术业务工作文集

对于引入“虚8字”编码格的一点探讨

奚增灵

编码工作作为人普登记数据光电转换的基础,其工作质量直接关系着光电识别正确率的高低并进而影响最后人普数据的质量。笔者经历过一次农普和人普,并都参与了编码、光电扫描和后期的数据处理工作。在实际工作中,笔者发现,尽管《普查条例》对编码工作有详尽的细则规定,并且我们在挑选基层编码人员时也是尽量选择工作责任心强、字迹工整的同志专门负责编码。编码工作虽然说起来简单,但是实际操作中依然存在诸多问题,书写不规范、光电识别错误等现象依然存在。究其原因主要有三:

(一)数字编码没有统一规范

虽然在编码的技术规范中对数字字体已有示例,但是毕竟缺乏技术规格和细节说明,只有定性的模仿而没有定量的要求,因而编码人员也无法确认数字书写是否到位、准确。可以说,编码人员对自己的工作也是模棱两可,上级指导员对数字规范的解释更是莫衷一是,也无法确信如此编码是否能被光电系统识别。

(二)编码人员习惯各有不同

虽然我们对基层编码人员的素质和书写能力已有要求并进行严格把关,但是由于一些同志的书写习惯难以改变,特别是一些财会工作人员,其专业要求的书写字体与我们普查的编码要求有所不同,对普查编码来说,其实财会专业数字的字体是不规范的。而一些具有较好书法功底的同志,容易在书写数字时加入一些折撇曲圆,甚至龙飞凤舞。虽然字体好看了,但是对于编码而言反而变成了画蛇添足。

(三)光电识别系统并非完物

虽然光电识别系统经过历次普查的改进,已经相当完善,大部分的编码即使有一些瑕疵,也能通过矫正后得到正确识别。但是电脑毕竟只能是按照预先设计的程序进行死板的处理,光电系统这种强制的模糊识别功能本身就是一把“双刃剑”,虽然能够提高工作效率,但是矫正的准确度是无法达到完美的,甚至往往出现矫正错误的现象,后期即使有人工核对的辅助,依然难免有很多“漏网之鱼”。因此我们在后期数据编审中,依然会发现有很多识别错误。

因此,研究如何通过有效的手段,使编码人员提高编码的质量,具有非常实际的意义。现行的编码工作,其最大的弊端在于数字编写没有一个统一的标准。解决这个问题的关键在于如何让基层的编码人员能够遵循一套简单易懂的数字编写规则。因此,笔者认为,引入如图1所示的“虚8字”格进行编码可以有效地对数字书写规范进行统一。

img22

图1 “虚8字”格

具体的做法是在普查表中的数字编码框里预印“虚8字”,对0-9这十个数字在编码时做如下的规定,并要求编码人员按照预设的虚线进行数字书写:

img23

图2 “虚8字”格数字书写

引入“虚8字”格规范数字的书写,实际上是对数字的样式进行统一,将数字简化成为只有横、竖拼合的图形。这样做的好处主要有以下几点:

(一)数字形式统一、易记忆

现行的编码规则对数字书写有很多忌讳,比如“0”必须上面封口,“1”不能带钩,否则容易识别成“6”;“3”必须有充足的开口,否则容易识别成“8”或“9”;“4”必须上面开口,否则容易识别成“9”;“9”必须上部圆满,否则容易识别成“7”,以及其他各种不能逾越的“雷池”,否则即会影响光电识别的质量。但是,实际操作中,我们发现,由于编码员一些固有的书写习惯难以在短时间内矫正,并且上述的忌讳之处较多,编码员无法一一记忆,因此,编码失误之处依然较多。所以,将数字书写形式固定成横、竖的组成,加之有“虚8字”的辅助,编码员便容易记忆,不会出现“画虎不成反类犬”的现象。

(二)编码门槛低、上手快

历次普查都对编码员提出了数字书写的要求,譬如普查编码员需“责任心强”“字迹工整、清晰”“汉字大小适中,避免过大或者过小的字”等。但是,实际操作中,要求编码人员完全符合这些情况并非易事,而“虚8字”格只要求横、竖两种笔画的书写,可谓对编码人员的要求降到了最低,编码员上手自然容易而快速。

(三)出错时可修改、余地大

以前编码出现错误时,若在原编码格内修改,难度较大,并且容易留下难以识别或易识别错的痕迹甚至是越改越错。引入“虚8字”格后,数字编码若错误,是有一定的挽回余地的,并且不会看出修改痕迹,不会影响识别效果。除所有数字都可改为“8”以外,编码为“1”时可另修改成“3”“4”“7”“9”,编码为“4”可另修改为“9”,编码为“5”时可另修改为“6”,编码为“7”时可另修改为“9”,并且这些修改并不影响最后的光电识别。

(四)光电系统易识别、出错少

由于“虚8字”格的引入相当于将每个数字的样式进行了统一,避免了千差万别的书写形式,光电系统只需识别构成数字横、竖笔画的有无与定位即可。如下图所示,“虚8字”由七条直线构成,那么我们可以对这七条线进行从“1”到“7”的编码,另外我们用“0”表示虚线,用“1”表示实线,那么0到9这十个数字很容易就能被数码化,具体如下:

img24

img25

图3 “虚8字”格中数字数码化

我们通过上述的代码化,很容易就可以将编码员手工书写的数字转化为光电系统可以识别的代码。因此,可大大降低对光电系统适应性的要求,减少系统的编译命令数量,并缩短光电识别时间。同时也可减少因书写不准确而造成光电系统强制识别和模糊识别的数量,从而大大提高光电识别的准确率。

虽然引入“虚8字”编码格有上述的好处,但是我们也必须看到其中的不足,除了在印刷上提出了比一般的编码格更高的要求以外,“虚8字”编码最大的弊端在于会增加编码的时间和工作量,这主要是来自三方面的因素:

(一)强制改变编码人员的书写习惯

由于“虚8字”编码格强制规范了数字的书写形式,改变了大部分人的书写习惯,需要编码人员进行一段时间的适应。因此,势必会有一段适应时间。

(二)数字书写无法简化和连笔

同时,由于书写上无法像平时一样运用连笔,编码员需要一横一竖地进行编码,更无法进行书写简化,因此肯定会增加每个数字的书写时间,从而增加编码员的工作量。

(三)必须按照“虚8字”下笔

由于表格内已经预印了“虚8字”,这就要求编码员必须沿虚线走笔,不可随意,这种定位的要求需要编码人员更加仔细和严谨,自然也会增加编码时间。

经笔者初步的测算,在一张空白纸上将“0”到“9”十个数字重复抄写十遍,用一般的书写方式,即这次人口普查所要求的范式进行书写,需用时约1分35秒,即95秒,而用“虚8字”的书写方式进行书写,需用时约2分30秒,即150秒。通过这次粗略的试验,我们可知,运用“虚8字”编码可能比一般习惯的编码方式多用60%左右的时间。

综上所述,引入“虚8字”编码格的意义主要在于统一了数字书写的规范,让编码员在编码时有据可依、有据可循,并且对错分明,不会出现模棱两可的问题。但是,其弊端则主要是会增加编码的工作时间。而更深层次的理解其实是:“虚8字”编码格的引入是用一种较为严谨但需花费更多时间的前期工作保障了后期光电扫描工作能够更有效率、更加准确地开展,其“失”即在于前期的人工编码需要投入更多的人力和财力,而“得”在于使得人机数据交换的标准更为统一,从而提高了光电扫描识别的效率,减少了因此引起的数据错误。最后,附上一张运用“虚8字”编码的人口普查短表,以供参考。

附表:第六次人口普查表短表

img26

舟山市定海区人口普查办公室

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈