首页 理论教育 传统载体档案的数字化

传统载体档案的数字化

时间:2022-02-28 理论教育 版权反馈
【摘要】:档案工作的主要目的是提供档案利用,而数字化是改进档案利用方式的有效途径。档案数字化必须符合国家档案开放规定以及档案安全保密的有关要求,尽量遵循有关标准规范。业务流程是档案数字化工作流程的主体,管理流程是业务流程的保障。便于传输、利用是档案数字化成果的一大特色,也是推动档案数字化工作的重要动力。对于档案室的数字档案信息,一般通过内网为本单位提供利用。

档案数字化有广义和狭义两种理解。狭义的档案数字化,又称档案数字化加工或数字化转换,是指通过一定的技术手段将存储于传统载体上的、以模拟形态存在的档案信息转化为以数字形态存在的、计算机可以识别和处理的信息的过程。可以数字化转换的档案包括纸质档案、照片档案、录音档案、录像档案、缩微胶片等,可转换为文本、图形、图像、音频、视频等多种媒体格式。广义的数字化,是指通过一定技术手段,将存储在传统载体上的、以模拟形态存在的档案信息转化为数字形态存在的、计算机可识别和处理的信息,并加以存储、组织、检索和维护的过程。这里采用广义的档案数字化概念。

在开展档案数字化的过程中,应遵循以下基本原则:

(1)价值性原则。即优先选择珍贵的、具有重要保存价值的档案进行数字化,这是我们在开始数字化时应首先考虑的一项原则。即通过对价值高、珍贵的档案进行数字化,把原件珍藏保护起来,而将数字化副本提供给社会利用,这样可以尽量减少利用过程中对珍贵档案的损毁,使之长久保存和流传下去,同时,又能以数字化副本方式更方便地提供社会利用。

(2)实用性原则。即优先选择利用率较高的档案文献进行数字化。档案工作的主要目的是提供档案利用,而数字化是改进档案利用方式的有效途径。当然,在具体运用这一原则时,还应综合考虑档案利用的主要历史时期、用户层次和研究目的,充分考虑社会档案利用需求的差异性。

(3)开放性原则。档案数字化必须符合国家档案开放规定以及档案安全保密的有关要求,尽量遵循有关标准规范。在档案数字化的时候,应优先选择非涉密、已经开放的档案文献进行数字化,以满足社会的档案利用需求。对于有密级的档案,可以按照档案机密性随时间推移递减的规律,在做好开放鉴定基础上,及时把保密期限已满、可以解密的档案数字化。

(4)特色性原则。即选择本单位有特色的档案进行数字化,为用户提供特色服务。在人力、物力限制条件较多的情况下,尤其要考虑这一原则。

档案数字化的工作流程包括管理流程和业务流程。业务流程是档案数字化工作流程的主体,管理流程是业务流程的保障。

1.档案数字化的管理流程

(1)开展档案数字化需求调研。在开展具体数字化工作前,应对此项工作的实际需求进行调研,包括对馆(室)藏档案数量、质量、管理现状,以及国内外同类机构的数字化经验教训、效益,数字化的可行性、必要性、工作目标,所需要的资源、人员、时间等条件开展调研,形成调研报告。

(2)制订档案数字化工作计划。在调研基础上,制订数字化工作计划,明确档案数字化的工作目标、内容、人员组织和职责分工、主要技术指标和方法、验收依据、安全管理措施、进度安排、经费预算、招投标事宜等,以合理安排各种资源,监督检查工作质量和进度,保障数字化工作顺利实施。

(3)组建队伍,配备相关条件。通过业务外包、自己组建数字化工作机构、聘请有关专家顾问等方式,组建一支数字化工作队伍,并提供场所、资金、时间等必要资源,制定相关规章制度和业务规范,开展人员培训,为数字化工作提供有效保障。

(4)监控档案数字化工作的开展。在档案数字化的前处理、加工、处理、组织、存储、服务、维护等业务流程中,应按照工作计划进行必要的监督和检查,及时发现问题并予以纠正和调整。

(5)评估数字化工作成果。在档案数字化业务告一段落以后,应及时对档案数字化工作成果进行评估,包括数字化资源的质量、利用率、易用性、保存情况等,以改进后续数字化工作,争取更多的投入和支持。

2.档案数字化的业务流程

档案数字化的业务流程包括前处理、数字化加工、信息组织、信息存储、信息服务、信息维护等过程。

(1)前处理。前处理是开展档案数字化的第一步,包括档案的鉴选、清点、登记、整理、修复等环节,即按照一定的原则和方法,对档案数字化的对象进行鉴定、选择,对符合要求的档案开展清点、整理和修复等工作,使档案及其目录有序化,为下一步数字化转换做好准备。

(2)数字化加工(转换)。将记录在传统载体上的档案信息,通过模数转换技术转换为数字信息。对于不同类型的档案实体,采取的模数转换技术和设备也不同。纸质档案、照片档案的数字化转换主要通过扫描仪、数码相机等设备加以扫描;缩微胶片的数字化转换主要是采用缩微胶片扫描仪加以扫描;录音档案的数字化设备主要是音频采集卡,录像档案的数字化设备是视频采集卡,录音、录像的输出设备通过特定的传输线与安装在计算机上的音(视)频采集卡相连,通过转换软件进行处理。

(3)信息处理。即对数字化转换获得的图像、多媒体信息,经过适当的加工处理,提高成果质量,以符合利用需求。具体工作包括一致性检查、压缩、去边、去污、去噪、去干扰等。在对扫描图像进行处理时,可采用光学符号识别技术(OCR)对图像中的文字加以识别,或通过矢量化技术将图像转化为矢量图形,必要时可嵌入数字水印,以保护知识产权

(4)信息组织。即建立机读目录和索引,创建档案目录、全文数据库或多媒体档案数据库,将数字化信息与目录、索引信息进行挂接。对于数字化工作开展以前就已建立的机读目录,需补充著录信息,尽可能完善著录项目内容,以确保目录和全文能顺利挂接,并提高检索准确率。

(5)信息存储。为档案数字化成果选择恰当的存储介质、存储方式和存储构架。数字化成果应采取多套存储,脱机存储载体一般选择光盘、磁带或移动硬盘,海量数字化成果的在线存储可采用磁盘阵列、硬盘等。

(6)信息服务。便于传输、利用是档案数字化成果的一大特色,也是推动档案数字化工作的重要动力。对于馆藏的可公开数字档案信息,可通过互联网在线提供社会利用。对于档案室的数字档案信息,一般通过内网为本单位提供利用。在提供利用时,一般采取“存用分开”的做法,即将对外提供利用的数字化成果进行二次转换处理,转换成分辨率较低、带有数字水印或标记、压缩率较高、适合网络传输和浏览的数据格式。对于对数字化成果质量要求较高的商业利用,可采取申请付费的方式。

(7)信息维护。对档案数字化成果进行管理和维护,确保其完整、准确、可读、可用性,确保档案数字化成果的长久保存,以保护投资、方便利用。具体包括抽检、登记、转换、迁移等操作。

3.档案数字化的存储格式和技术参数

根据国家有关标准,档案数字化推荐以下存储格式和技术参数(见表5-2)。

表5-2 档案数字化存储格式和技术参数

在实际工作中,应结合不同用途,确定合适的扫描存储格式和分辨率。一般来讲,用于电脑屏幕显示,72~100dpi即可;打印机输出,240~360dpi;平面印刷,266~300dpi;相纸印刷,200~400dpi;报纸印刷,125~250dpi。在一定程度上,分辨率越高,扫描图像越清晰,但一旦超过标准要求(如前列参考数据),图像质量再难以明显提高,且会占有更大存储空间,降低图像处理速度。特殊情况下,如文字偏小、密集、清晰度较差等可适当提高分辨率。

纸质档案数字化是指采用扫描仪或数码相机等数码设备,对纸质档案进行数字化加工,将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。根据《纸质档案数字化技术规范》的规定,纸质档案数字化包括以下业务流程:

(1)档案整理。又称前处理,是指在扫描之前,应根据档案管理情况,对档案进行适当整理,并视需要进行标识,以确保档案数字化质量。档案整理包括目录数据准备、拆除装订、区分扫描件和非扫描件、页面修整、档案整理登记等步骤。

(2)档案扫描。应根据档案幅面的大小,选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用大幅面数码平台(如工程图纸可采用0号图纸扫描仪),或者缩微拍摄后采取胶片数字化转换设备进行扫描,也可以采用小幅面扫描后以图像拼接方式进行处理。扫描色彩模式一般有黑白二值、灰度、彩色等。扫描时,应认真填写纸质档案数字化转换过程交接登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。

(3)图像处理。扫描后,要对图像数据质量进行检查,发现不符合图像质量要求时,应重新进行图像的处理。由于操作不当,造成扫描的图像文件不完整或无法清晰识别时,应重新扫描。发现文件漏扫时,应及时补扫并正确插入图像。发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。对方向不正确的图像应进行旋转还原,以符合阅读习惯。对图像页面中出现的影响图像质量的杂质,如黑点、黑线、黑框、黑边等应进行去污处理。对大幅面档案进行分区扫描形成的多幅图像,应进行拼接处理,合并为一个完整图像,以保证档案数字化图像的整体性。采用彩色模式扫描的图像应进行裁边处理,去除多余白边,以缩小图像文件容量,节省存储空间。

(4)图像存储。采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储。采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储。存储时压缩率的选择,应以保证扫描图像的清晰可读为前提,尽量减小存储容量为准则。提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。图像文件命名应遵循唯一性原则,以每份纸质文件的唯一档号作为对应扫描图像文件命名;如一份纸质文件对应多个扫描图像文件(如JPEG格式),以档号建立文件夹存放扫描图像,并以页码顺序分别命名。

(5)目录建库。目录建库应选择通用的数据格式,所选定的数据格式应能直接或间接通过XML文档进行数据交换。档案目录数据库著录应符合《档案著录规则》要求。建库完成后,应采用人工校对或软件自动校对的方式,对目录数据库的建库质量进行检查,核对著录项目是否完整、著录内容是否规范、准确,发现不合格的数据应进行修改或重录。

(6)数据挂接。档案数字化转换过程中形成的目录数据库与图像数据库,通过质检环节确认为“合格”后,通过网络及时加载到数据服务器端汇总。通过每份文件的图像文件名(或图像所在文件夹)与目录数据库中档号的一致性和唯一性,建立起一一对应的关联关系。通过编制程序或借助工具软件,可实现目录数据与相关联图像文件的自动搜索、加入对应电子地址信息等操作,实现批量、快速挂接。

(7)数据验收。以抽检的方式检查已完成数字化转换的所有数据,包括目录数据库、图像文件及数据挂接的总体质量。一个全宗的档案,数据验收时抽检的比率不得低于5%。目录数据库与图像文件挂接错误,或目录数据库、图像文件之一出现不完整、不清晰、有错误等质量问题时,抽检标记为“不合格”。一个全宗的档案,数字化转换质量抽检的合格率达到95%以上(含95%)时,予以验收“通过”。

(8)数据备份。经验收合格的完整数据应及时进行备份。为保证数据安全,备份载体的选择应多样化,可采用在线、离线相结合的方式实现多套备份,并注意异地保存。备份数据也应及时检验,检验内容包括:备份数据能否打开、数据信息是否完整、文件数量是否准确等。

(9)数字化成果管理。应加强对纸质档案数字化成果的管理,确保其安全、完整和长期可用。纸质档案数字化成果提供网上检索利用时,应有制作单位的电子标识,并根据具体情况采用可下载或不可下载的数据格式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈