首页 百科知识 纸质档案的数字化

纸质档案的数字化

时间:2022-10-22 百科知识 版权反馈
【摘要】:如纸质档案未建立机读目录数据库,则应当按照档案著录规则重新录入。将经过整理后的档案原件交给扫描工作人员,制作并填写纸质档案数字化加工过程交接登记表,详细记录档案整理后每份文件的起始页号和页数。装订人员将装订完成后的档案,贴上专用封条并盖数字化专用章。清点无误后交还给档案管理部门,并办理档案归还手续。
纸质档案的数字化_档案信息化建设

《纸质档案数字化技术规范》(DA/T31-2005)将纸质档案数字化定义为采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。纸质档案数字化适应了信息时代的大趋势,能够减少管理的成本,增强对档案原件的保护,节约存储空间,优化馆藏结构,有利于档案信息资源的有效利用与共享。

(一)纸质档案数字化加工方式

纸质档案的数字化加工方式主要有直接扫描法和缩微转化法两种。

1.直接扫描法

所谓直接扫描法,是采用扫描仪对纸质档案原件进行光学扫描,将图像信息传送到光电转换器中变为模拟电信号,又将模拟电信号转变为数字电信号,再通过计算机接口传输至计算机存储器中。

直接扫描分为两种方式:

(1)扫描纸质档案后再运用字符识别(OCR)软件进行识别,最终生成文本文件。这种数字化文件的优点是:占据的空间小,便于计算机全文检索,便于档案利用时进行摘录和编辑。其缺点是:不能保持档案原件的排版格式,以及签名、印章等原始信息;有时OCR字符识别的准确率较低,核对修改较为困难,数字化效率很低,且实际上已经破坏了档案原稿的真实性。

(2)扫描纸质档案后形成数字图像文件。这种图像文件的优点是:能保持档案的内容和排版的原貌,数字化速度快。缺点是:不能进行全文检索,不能编辑文字内容,且占据存储空间大。

以上两种方法的优缺点正好互补,现在有一种方法能将两者的优点融合在一个档案中,即制作双层PDF。其制作方法是:将纸质档案原件扫描成数字化图像文件后再转换成文本文件,然后将这两个内容一样的文件置入同一个PDF文件,将图像文件置于文本文件的上层,图像文件下层隐藏文本文件。查询该文件时,我们既能看到上层保持原貌的图像文件,同时也能对隐藏的文本文件进行全文检索。

2.缩微转换法

所谓缩微转换法,是针对已经缩微复制的档案,采用专用扫描设备(即缩微胶片扫描仪)将缩微胶片上的模拟影像转换成数字影像的方法。

与直接扫描法相比,缩微扫描法更经济、简便、高效。然而这种方法必须建立在已经对纸质档案进行缩微加工的基础上。

值得注意的是,在对缩微胶片进行扫描加工后,原缩微胶片应与纸质档案一并保存,不能擅自销毁。由此,该档案形成“三套制”保存状态。虽然缩微胶片不如数字化档案容易保存、复制、查询、传播,但是作为模拟信息,缩微档案具有人工可读、稳定性好等数字化档案不具备的优势,又具有体积小等纸质档案不具备的优势,应当成为档案信息资源的重要补充形式。

(二)纸质档案数字化工作流程

纸质档案数字化是一个较为复杂的过程,其基本环节主要包括:档案整理、档案扫描、图像处理、图像存储、目录建库、数据挂接、数据验收、数据备份、成果管理等。

1.档案整理

在对纸质档案进行扫描之前,根据档案管理情况,按下述步骤对档案进行适当整理,并视需要做出标识,确保档案数字化质量。

(1)档案出库

一般来说,大批量纸质档案数字化,首先须将待数字化档案从档案库房搬移至临时周转库房;然后,数字化加工人员从周转库房领取档案进行数字化。无论前者还是后者,数字化加工人员都须按照预定计划,提出申请,经过审批,交接双方清点档案,实行登记,完成档案的交接手续。

(2)目录数据准备

按照《档案著录规则》(DA/T18-1999)等的要求,规范档案中的目录内容,包括确定档案目录的著录项、字段长度和内容要求。然后,为数字化档案检索建立目录数据库。建库可利用原有纸质档案的编目基础,原纸质档案目录如有错误或不规范的案卷题名、文件名、责任者、起止页号和页数等,应进行修改。如纸质档案未建立机读目录数据库,则应当按照档案著录规则重新录入。

(3)拆除装订

档案在拆除装订前可逐卷加贴条形码,以便在随后流程中通过识别条形码对扫描档案进行准确、高效的控制。该条形码还可为以后档案借阅利用管理提供便利。

然后,工作人员逐卷、逐页检查档案。对内容缺失、目录漏写、页码颠倒,以及珍贵、破损的案卷进行登记,并提请档案保管机构妥善处理。

对于不去除装订物会影响扫描工作的档案,应拆除装订物。拆除装订物时,应注意保护档案不受损害。拆除装订物之后要将档案原件排好顺序,并用夹子夹起防止散乱。对于年代久远、纸质条件较差、不便于拆卷的,可采用零边距扫描仪扫描。

(4)区分扫描件和非扫描件

按要求把同一案卷中的扫描件和非扫描件区分开,剔除无关和重复文件。

(5)页面修整

纸张的质量关系到扫描仪的选择和扫描效果,因此,须对严重破损、褶皱不平、字迹模糊的档案做好登记,分别处理。如对褶皱的档案,可进行熨烫;对被污染的纸张,可在通风环境中用软毛刷轻轻刷去浮尘、泥垢或霉菌;对破损残缺的文件,须进行修补。

(6)档案整理登记

将经过整理后的档案原件交给扫描工作人员,制作并填写纸质档案数字化加工过程交接登记表,详细记录档案整理后每份文件的起始页号和页数。

(7)装订、还原、归还

扫描工作完成后,拆除过装订物的档案应按档案保管的要求重新装订。恢复装订时,应注意保持档案的排列顺序不变,做到安全、准确、无遗漏。对严重破损的卷皮、卷盒,重新更换。装订人员将装订完成后的档案,贴上专用封条并盖数字化专用章。档案数字化加工完毕并重新装订完成后,要对其进行清点。清点无误后交还给档案管理部门,并办理档案归还手续。

2.档案扫描

(1)扫描设备选择

根据档案幅面的大小(A4、A3、A0等)选择相应规格的扫描仪。大幅面档案可采用宽幅扫描仪,还可采用缩微拍摄后的胶片数字化转换设备进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。纸张状况较差,过薄、过软或超厚的档案以及页面为多色文字的档案,可采用普通平板扫描仪扫描。纸质条件好的A4、A3档案,可采用高速扫描仪扫描,以提高工作效率。不宜拆卷的档案,可采用零边距扫描仪扫描。

(2)扫描色彩模式选择

扫描色彩模式一般有以下两种:

一是扫描形成黑白二值图像。这种图像只有黑白两级,没有过渡灰度。其特点是黑白分明、字迹清晰、文件容量较小。适用于扫描字迹、线条质量清晰的文字或图纸档案。

二是扫描形成连续色调静态图像。这种图像分灰度图像和彩色图像两种。灰度图像由最暗黑色到最亮白色的不同灰度组成。灰度级表示图像从亮部到暗部间的层次,也称色阶。灰度级越高,层次越丰富,文件所占容量也越大。灰度模式适用于扫描黑白照片、图像档案,色阶的选择要适度,只要不影响图像质量即可。彩色模式中的色彩数表示颜色的范围,色彩数越多图像越鲜艳真实,文件所占容量也越大。同样,色彩数选择也要适度,不是越多越好。彩色模式适合扫描页面中有红头、红印章的档案或彩色照片档案。需永久或长期保存,或向国家档案馆移交的档案,一般应采用彩色模式扫描。

(3)扫描分辨率

扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均建议选择大于或等于200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。需要进行OCR汉字识别的档案,扫描分辨率建议选择300dpi。

(4)OCR处理

目前,OCR技术已经相当成熟,一般扫描仪都自带OCR软件,使用也很方便。然而OCR的识别准确率往往不尽人意,由此影响检索效果。而依靠人工纠正文稿中的错字又非常麻烦。因此,提高OCR识别率是档案数字化中比较重要的问题。其实,只要注意以下几点,就可以明显提高OCR识别率:

一是选择适当的扫描分辨率。太低的扫描分辨率往往会造成OCR识别率的下降,太高的分辨率会使图像文件过于庞大,且降低识别的速度。在实际操作中,操作人员可通过查看OCR识别后生成文本中的红色错字数量(如小于3%),判断其可接受程度,确定是否采用该分辨率扫描并进行OCR识别。

二是尽量采用黑白二值模式进行扫描。用扫描仪扫描文件时,通常OCR识别接受灰度或黑白二值模式,不接受彩色模式。如果文稿印刷质量好,可采用灰度模式,否则,宜采用黑白二值模式。扫描时可手工调节黑白阀值的大小,如黑白二值图像上文字轮廓残缺,则适当增加阀值;若文字轮廓线太粗,则表示信息冗余较多,可适当减少阀值。这样调节后形成的黑白二值扫描图像,可以达到较佳的OCR识别效果。

三是在进行OCR识别时注意文字的倾斜校正。OCR识别允许文稿有细微的倾斜,但是过度倾斜会影响识别率。校正方法是,点击扫描软件上的倾斜校正按钮,识别软件会自动将图像校正,再进行OCR识别。

四是对稿件进行识别前的预处理。去除文稿上的杂点和图片,因为杂点会干扰文字识别,图片是不能被识别的,且会影响OCR的文字切分。针对文稿中出现分栏的情况,建议用手动设定各栏区域,即用多个框分别选中要识别的文字,然后进行OCR识别。

五是采用适当的识别方式。简体和繁体混排,中英文混排的文稿往往识别率较低。如果文稿中简繁体、中英文是分块状分布的,可以用图像处理软件,将不同的文字块剪辑成同类文字块合并的文件,然后分别对不同文字进行OCR识别。

(5)扫描登记

认真填写纸质档案数字化转换过程交接登记表,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。

3.图像处理

扫描完成后,必须按照要求将所得图像进行技术处理,纠正档案扫描件和原件的偏差,使扫描后的档案图文更加清晰、规范。图像处理大致包括以下内容:

(1)图像数据质量检查

对图像偏斜度、清晰度、失真度等进行检查。发现不符合质量要求时,应重新对图像进行处理。由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描;发现文件漏扫时,应及时补扫并正确插入图像;发现扫描图像的排列顺序与档案原件不一致时,应及时调整。认真填写相关表单、记录质检结果和处理意见。

(2)纠偏

对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。对方向不正确的图像应进行旋转还原,以符合阅读习惯。

(3)去污

对图像页面中出现影响图像质量的杂质,如黑点、黑线、黑框、黑边等应进行去污处理。处理过程中应注意不要破坏档案的原始信息。

(4)图像拼接

对大幅面档案进行分区扫描形成的多幅图像,应进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性。

(5)裁边

采用彩色模式扫描的图像应进行裁边处理,去除多余的白边,以有效缩小图像文件的容量,节省存储空间。

以上纠偏、去污、裁边等处理,可以根据肉眼判断,人工操作完成。也可以用专门设计的软件,预先进行某些设定,然后由计算机自动处理。计算机处理当然效率高,但是没有人工处理灵活。例如,一旦将污点的大小尺寸设计得过小,计算机会将某些标点符号当作污点而自动去除。因此,扫描图像处理还需采用人工和自动处理相结合的方式。

4.图像存储

(1)存储格式

采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储;采用灰度模式和彩色模式扫描的图像文件,一般采用JPEG格式存储。存储时压缩率的选择,应在保证扫描的图像清晰可读前提下,以尽量减小存储容量为准则。提供网络查询的扫描图像,也可存储为CEB、PDF或其他版式文件格式。

(2)图像文件的命名

应采用档号或唯一标识符为数字档案资源命名。采用档号为数字档案资源命名的,若以卷为单位整理,按《档号编制规则》(DA/T 13-1994)编制档号,推荐增设档案门类代码作为类别号的子项;若以件为单位整理,档号可采用“全宗号—档案门类代码·年度—保管期限—机构(问题)代码—件号·子件号”结构。

5.目录建库

(1)数据格式选择

目录建库应选择通用的数据格式,所选定的数据格式应能直接或间接通过XML文档进行数据交换。该数据库建立可以通过专用的档案管理系统或扫描加工管理软件录入,也可以先在EXCEL专门设计的档案目录表格中录入,然后将数据导入至档案管理系统。

(2)档案著录

按照《档案著录规则》(DA/T18-1999)的要求进行著录,建立档案目录数据库,并录入档案目录数据。

(3)目录数据质量检查

为了确保数据的准确性,可采用“单机录入—人工校对”或“双机录入—计算机自动校对”的方法。不管是人工校对还是计算机校对,都要核对著录项目是否完整,著录内容是否规范、准确,发现不合格的数据应进行修改或重录。

6.数据挂接

(1)汇总挂接

档案数字化转换过程中形成的目录数据库与图像文件,通过质检环节确认合格后,通过网络及时加载到数据服务器端汇总。目录数据库与图像文件应避免采用既慢又容易出错的人工挂接,尽量采用计算机批量自动挂接。只要扫描制作的数字化文件是按纸质档案的档号命名,就可以通过编制挂接程序或借助相应软件,实现目录数据对相关联的数字图像的自动搜索、加入对应的电子地址信息等,实现批量、快速挂接。

(2)数据关联

以纸质档案目录数据库为依据,将每一份纸质档案文件扫描所得的一个或多个图像存储为一份图像文件。将图像文件存储到相应文件夹时,要认真核查每一份图像文件的名称与档案目录数据库中该份文件的档号是否相同,图像文件的页数与档案目录数据库中该份文件的页数是否一致,图像文件的总数与目录数据库中文件的总数是否相同等。利用每一份图像文件的文件名与档案目录数据库中该份文件的档号,建立起一一对应的关联关系,为实现档案目录数据库与图像文件的自动批量挂接提供条件。

(3)交接登记

认真填写纸质档案数字化转换过程交接登记表,记录数据关联后的页数,核对每一份文件关联后的页数与档案整理、扫描时填写的页数是否一致,不一致时应注明具体原因和处理办法。

7.数据验收

以抽检的方式检查已完成数字化转换的所有数据,包括目录数据库、图像文件及数据挂接的总体质量。目录数据库与图像文件挂接错误,或目录数据库、图像文件之一出现不完整、不清晰、有错误等质量问题时,抽检标记为“不合格”。一个全宗的档案,数字化转换质量抽检的合格率达到95%以上(含95%)时,予以验收“通过”。

合格率=抽检合格的文件数/抽检文件总数×100%。

认真填写纸质档案数字化验收登记表单。验收“通过”的结论,必须经审核、签署后方有效。

8.数据备份

经验收合格的完整数据应及时进行备份。为保证数据安全,备份载体的选择应多样化,可采用在线、离线相结合的方式实现多套备份,并注意异地保存。备份数据也应进行检验,备份数据的检验内容主要包括备份数据能否打开、数据信息是否完整、文件数量是否准确等。数据备份后应在相应的备份介质上做好标签,以便查找和管理。填写纸质档案数字化备份管理登记表单。

9.数字化成果管理

应加强对纸质档案数字化成果的管理,确保其安全、完整和长期可用。纸质档案数字化成果提供网上检索利用时,应有制作单位的电子标识,并根据具体情况分别采用可下载或不可下载的数据格式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈