首页 百科知识 中国古籍文献数字化

中国古籍文献数字化

时间:2022-03-21 百科知识 版权反馈
【摘要】:古籍文献的数字化可以实现古籍文献文物价值和文化价值的剥离,不仅能够将古籍文献的本体形式进行永久的记录和保存,而且可以将提取出的所承载的内容向广大研究人员开放和使用,可以实现更好的本体保护和价值利用。由于汉字的同音字多,在进行语音录入时,系统会提供一些同音字供选择,以实现准确定位。因此急需对书画类藏品进行及时记录,并采取更加有效和严格的保护手段。
采集手段_数字博物馆研究

根据藏品类型以及可获取的数字资源的媒体形式进行划分,主要可以采取以下手段。

1.古籍文献类

古籍文献是指书写或印刷于1912年以前具有中国古典装帧形式的书籍,包括历朝历代的刻本、写本、稿本和拓本等。古籍文献作为前人留下的精神财富和历史见证,内容和形式都是弥足珍贵的。它是一种非再生性的文化遗产,在长期流传的过程中,虫蛀、老化和霉蚀等自然损坏情况不可避免,加之环境污染的加剧,古籍酸化和老化程度也随之加快,古籍保存状况不容乐观。古籍文献数字化可以对此现状进行改善,主要从利用和保护古籍的目的出发,采用计算机技术将常见的语言文字或图形符号等转化为能被计算机识别的数字符号。古籍文献的数字化可以实现古籍文献文物价值和文化价值的剥离,不仅能够将古籍文献的本体形式进行永久的记录和保存,而且可以将提取出的所承载的内容向广大研究人员开放和使用,可以实现更好的本体保护和价值利用。对于古籍文献本体的数字化,即只是获取其图像信息,可以采用数码摄像机或平板激光扫描仪来实现,即用扫描仪等将古籍文献的文字(包括图表)以图像形式进行存储,保证了古籍文献的原始状态,版式完整保留,不会产生文字错误。而对于古籍文献内容的数字化,则需要经历两个阶段。第一个阶段为古籍文献的整理。由于古籍文献多繁体字,其中还不乏大量的异体字、通假字等,没有标点符号,行文格式繁琐,所以在古籍文献数字化之前要先开展必备的整理工作,需要古籍整理专业人员对古籍文献进行底本选择、编纂、校勘、标点、注释和今译等[5]。第二个阶段为古籍文献的输入,在此阶段主要有三种输入手段可供选择:

第一种为键盘输入。此种方式需要专门的人员将古籍文献的全文通过键盘输入到计算机中,可利用拼音、笔画、五笔等输入法帮助实现输入过程。在录入后,通常需要对文本进行校对,一般可采用计算机自动校对和人工辅助校对相结合的方式,以降低文字错误率。然而这种依赖于人工的输入方式在速度上远远不能满足海量古籍文献急需转换的需求。

第二种为光学字符识别(Optical Character Recognition,OCR)输入。OCR是一种较为先进的自动化信息资源输入技术,先通过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机,再通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。从古籍文献的影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、人工校正、文字及版面信息输出。整个识别过程借助了图像处理、模式识别技术。这种方式自动识别和转换的速度快,再结合人工校错,可直接将古籍文献文字转化为对应的文本,不仅提高了输入效率而且节省了一定的人力和物力,是目前最普遍受欢迎和采用的方式。然而,计算机对文字的处理要通过编码来完成,国标字库(GB)仅收字6763个,国标扩展汉字字库(GBK)收字也只有20902个。与此相对的是庞大的汉字数量,《汉语大字典》收字近六万,《中华字海》收字达八万,古籍通用字约有四万,常用异体字约为两万[6]。显然,目前的计算机文字编码不能完全满足古籍文献输入的要求,还存在文字转换错误甚至不能转换的问题。

第三种为手写输入、语音输入等。随着智能输入技术的发展,以及各种输入终端设备的不断完善,手写输入及语音输入已逐渐步入人们的视野,并被广泛用于计算机和智能手机等平台上。手写输入是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,可以让使用者按照最自然、最方便的输入方式进行文字输入,可取代键盘或者鼠标。手写输入设备的种类较多,有电磁感应手写板、压感式手写板、触摸屏、触控板和超声波笔等。以上设备都可以接入计算机,使古籍文献录入人员直接录入文本内容。语音输入也称麦克风输入,依赖于录入者的语言,计算机上的语音识别软件将其语言内容转换成可识别的汉字。一般需要录入者对着与计算机相连的麦克风等语音输入设备发出文字的读音。语音输入也是一种最自然、最易用的输入方式。由于汉字的同音字多,在进行语音录入时,系统会提供一些同音字供选择,以实现准确定位。虽然手写输入和语音输入是最为自然和便捷的手段,但由于其需要人工逐字的书写或拼读,不如光学字符识别的速度快,很难满足古籍文献的大批量输入的需求。此外,特别是对于语音输入而言,依赖于录入者对文字的正确发音,因此需要专业从事古文字研究的人来识读古籍文献中的大量生僻字、异体字和通假字等,由于受到了专业限制,并不是人人可以承担语音输入工作。这些状况使得语音输入的方式很难被大范围使用。

2.书画类

博物馆的书画类藏品是对书法和绘画藏品的统称,主要是指历代著名书法家或画家的作品,具体涉及手卷、碑帖、拓本、国画、油画、水彩画、水粉画和漆画等。这类藏品具有极高的艺术研究价值,是人类历史发展的重要佐证材料。然而,书画类藏品本身多以纸张、丝织品或棉纺织品等纤维质地构成,长期保存面临着诸多困难。首先天然纤维质地的特性容易招致害虫,使其成为害虫的主要食物。其次,天然纤维的易吸湿性,使得其表面容易滋生霉菌,特别是对于纸质材料而言,因为纸张中含有木质素,木质素属酸性物质,会因空气接触、光线照射和环境湿气而造成纸张氧化而发生变黄变脆。此外,空气中的有害物质和灰尘也会破坏书画作品的保存,如有害物质二氧化硫会对藏品产生腐蚀作用,空气中的灰尘不仅会改变有机纤维质地的藏品颜色,还可能在藏品表面形成很难去除的污垢层。同时灰尘中的许多微生物孢子,特别是霉菌孢子会滋生破坏藏品。所有这些因素使得书画藏品的现状保存不容乐观,长时间作用使其外观产生了显著的影响。因此急需对书画类藏品进行及时记录,并采取更加有效和严格的保护手段。数字化的方法,不仅可以解决记录问题,同时利用先进的图像处理技术可使观众在不接触藏品的同时能够领略到藏品的艺术魅力,能有效平衡保护和欣赏之间的矛盾。对于书画作品的数字化采集,主要是获取其外在数字图像(Digital Image)信息,因此可以借助扫描仪或数码相机来实现。

扫描仪是利用光电技术和数字处理技术,以扫描方式将图形或图像信息转换为数字信号的装置。扫描仪通常被用于计算机外部仪器设备,通过捕获图像并将之转换成计算机可以显示、编辑、存储和输出的数字化内容。扫描仪工作时发出的强光照射到扫描对象上,没有被吸收的光线将被反射到光感应器上,光感应器接收到这些信号后,将这些信号传送到模数转换器(模拟信号向数字信号的转换部件),模数转换器再将其转换成计算机能读取的信号,然后通过驱动程序转换成显示器上能看到的正确图像。可以看出,扫描仪的核心部件是光感应器和模数转换器。扫描仪的主要技术指标有分辨率、灰度级、色彩数、扫描速度和扫描幅面。目前可用于书画类藏品扫描的扫描仪主要有两种类型:平板式和滚筒式。

(1)平板式:平板式扫描仪也称平台式扫描仪,主要是使用电荷耦合器件(Charge Coupled Device,CCD)或接触式图像感应装置(Contact Image Sensor,CIS)作为光感应器。此类扫描仪光学分辨率在300—8000dpi之间,色彩位数从24位到48位,扫描幅面一般为A4或者A3。

(2)滚筒式:滚筒式扫描仪由电子分色机发展而来的,其感测技术是光电倍增管(Photo Multiplier Tube,PMT),被认为是高精度的彩色作品的最佳选择。滚筒式扫描仪采用旋转扫描对象,滚筒逐点采样的扫描方式,其滚筒旋转速度很高,因此可以将很强的光汇聚于扫描对象上的采样点周围而不会使原稿受损。此外它扫描的密度范围较大,能够分辨出图像更细微的层次变化和颜色变化,其光学分辨率通常要高于平板式,其扫描幅面可达A0。

基于以上基础类型,扫描仪在方便使用上也做了许多改进,目前许多扫描仪都可实现自动进纸和连续扫描功能。此外,为了更加适应于特定藏品的扫描,许多厂商也可以根据客户要求,搭建针对性强的扫描平台,因此出现了许多不同的扫描仪型号。由于大幅书画藏品可能需要分多次扫描完成,加之扫描过程中其他因素的出现,如画面倾斜、出现阴影黑边等情况,所以通常需要对扫描的结果进行简单的编辑和处理,如进行倾斜纠正、阴影黑边裁剪和空白页检测删除等,并对多幅分散图像进行拼接。

数码相机(Digital Camera)是利用电子传感器把光学影像转换成电子数据的照相机,不同于传统照相机通过光线引起底片上的化学变化来记录图像。早在1981年8月,日本索尼公司推出模拟式的Mavica电子静态视频相机,这可以说是数码相机的雏形;直到1995年,卡西欧公司推出 QV‐10相机,数码相机才彻底告别了模拟数字化方式,真正的数码相机时代也从此开始。在数码相机中,光感应式电荷耦合元件(CCD)或互补金属氧化物半导体(Complementary Metal Oxide Sem iconductor,CMOS)被用来取代传统相机底片的化学感光功能。数码相机的工作原理是:当按下快门,镜头将光线会聚到感光器件CCD或CMOS,把光信号转变为电信号。在采用了CCD的数码相机体系中,由于CCD输出的是模拟信号,因此需要使用一个模拟信号向数字信号转换的模数转换器(Analog to Digital Converter,ADC)来进行数字化处理。在采用CMOS的数码相机体系中,由于CMOS器件采用了数字化传输接口,因此不需要采用模数转换器件。通过微处理器(M icro Processor Unit,MPU)读出CCD/CMOS的数据信息,对数字信号进行压缩、转化和相应的处理,再转换成特定的图像格式,最后,图像以文件的形式被存储在存储器[7]。数码相机主要由光学镜头、光电转换器件(COMS/CCD)、模/数转换器(A/D)、微处理器(MPU)、内置存储器、液晶屏幕(LCD)、可移动存储器、接口(计算机/电视机接口)等部分组成。其中光学镜头是数码相机的眼睛,其主要功能就是将光线聚焦到CCD或CMOS上,镜头的质量越高,拍摄出的画面越清晰。镜头也有变焦镜头、定焦镜头等之分,主要的性能指标有焦距、视场角、相对口径、分辨率、畸变率等。总体上,在衡量数码相机的性能时,可以从以下几个方面考虑:像素数、摄影元件尺寸、变焦倍率和镜头亮度等。目前较常见的数码照相机可区分为卡片相机、单反相机、长焦相机。卡片数码相机在业界内没有明确的概念,仅指那些小巧的外形、相对较轻的机身以及超薄时尚的相机。单反数码相机指的是单镜头反光数码相机,“单镜头”是指摄影曝光光路和取景光路共用一个镜头,单反相机有个很大的特点就是可以交换使用不同规格的镜头,这是普通数码相机不能比拟的。长焦数码相机指的是具有较大光学变焦倍数的机型,能拍摄较远景物的相机,通常光学变焦倍数越大,能拍摄的景物就越远。长焦数码相机的镜头其实和望远镜的原理类似,即通过镜头内部镜片的移动改变焦距。长焦相机特别适合拍摄远处的景物。数码相机与传统胶卷相机相比,具有存储量大、可重复拍摄、即拍即得、输出方便、易操作等特点,所以备受用户的欢迎。对于书画类藏品的拍摄,要求拍摄出的图像清晰度高、色彩还原准确纯正、画面变形要小,因此通常使用单反相机,一般选用50~85的焦距,相机需要固定在三脚架上进行拍摄。对于要拍摄的书画藏品而言,外观要尽量平整,最好是经装裱过或是简单处理过。对于大幅的作品,可以采用分块拍摄再接片的方法,以避免出现变形和光照不均。

3.器物类

器物涵盖的藏品范围最广,质地不一,种类众多,有石器、陶器、铜器、铁器、金银器、玉器、瓷器和漆器等多种类型,反映了不同历史时期人类社会生产和社会生活的各个方面,是最有力的见证物。器物类型的复杂多样性也决定了其保存环境的复杂多变,每一类器物都有其脆弱易破坏的一面。如漆器、骨质文物以及象牙制品等有机类器物容易受微生物侵蚀,从而降低了器物本身的力学性能和抗腐蚀能力。漆器等木制品,主要由纤维素、半纤维素、木质素组成。纤维内含较多的亲水基因,易导致木材的膨胀、收缩,而且半纤维素的化学稳定也小。由于温度、湿度、气体和光线等的突变,使水分迅速流失而使器物产生变形、起翘、皱褶和开裂。骨质文物以及象牙,容易出现破裂、糟朽、粉化等现象,此外,当遇热和受潮时,也容易发生翘曲。骨蛋白及填充于骨内的油脂类物质,很容易受到氧化和水解,易受到细菌的侵蚀和破坏。大量无机类器物也同样面临着诸多不利的因素。彩陶表面的颜料容易与附着土粘在一起剥落或在干燥过程中粉化掉色。铁器容易受氧气和水分的作用而产生锈蚀。瓷器属易碎品,震动、挤压、碰撞都会使瓷器破损,此外,加之人为的操作不当,也会造成瓷器的损毁。银器的防腐蚀性较差,潮湿的环境以及空气中的硫化氢和硫化物都会使银器表面氧化,使其色泽由白亮转变为灰或黑色。这些器物类的长久保存面临着巨大困难,因此也迫切需要数字化技术帮助解决保护和利用问题,在器物随时间而发生改变的情况下,利用数字化技术尽快记录下器物的外在形态、色彩、纹饰和构图等信息。通常器物类藏品的数字化采集主要分为二维数字图像(Digital Image)和三维模型(3D Model)形式。关于二维图像的采集,主要通过数码相机获取器物的数字图像信息。为了通过数字图像的形式表现出器物的三维空间形态,通常需要多角度拍摄,获取器物的正视图、俯视图、左视图和右视图等,同时还需要加拍顶部、底部、局部纹饰特写、造型特写、立面360度、有冲口或残损处加拍特写等。在同一角度上,也会多拍几张,以防止偶尔拍虚的情况。对扁担、钱币等扁平形器物,一般拍摄正反两面,如有边沿上的特殊信息,加拍边沿图像。器物藏品拍摄同样要真实地反应文物原貌,不能使文物变形,不能使拍摄出的画面增大或缩小原器物的真实比例。此外针对不同的器物,在拍摄时应注意拍摄整体的完整性,如对于三足器物,要求三足全部显示出来,不能有所遗漏或遮挡。

器物的三维模型主要是指器物多边形表示形式,反映了三维几何空间形态信息。获取器物藏品的三维模型的手段有三种,一是软件建模,二是图像建模,三是三维激光扫描仪建模。

(1)软件建模:软件建模主要是利用三维模型建模软件3DMAX、Maya、UG及AutoCAD等建立器物的三维模型,基于立方体、球体、锥体等基本几何元素,进行一系列几何操作,如平移、旋转、拉伸以及布尔运算等来构建复杂的模型。这种建模方式往往需要工作人员先获取器物的空间测量数据和纹理信息等,再以此为依据进行建模。这种方法的缺点是工作量大、效率低。并且,由于建模过程极大地依赖于建模人员的专业知识与经验,其精度无法保证。

(2)图像建模:图像建模主要是利用器物的二维图像恢复其三维几何结构,图像的精度直接决定重建效果,整个过程与人类视觉重现过程相似。根据图像的数量来分,可分为单幅图像和多幅序列图像两种。单幅图像是利用对比度、灰度等图像特征确定光照的反射,再由此进一步确定图像的深度,从而确定物体的形体信息。一般说来,主要是通过纹理、轮廓、阴影三方面恢复形体信息。多幅序列图像主要借助多幅图像信息,根据光度立体学法、立体视觉法或光流法来确定光照、反射等不变量,进而建立形体信息。这种直接使用真实照片进行物体的三维几何重建方法,具有逼真、易用、低成本的优势。该方法的重点和难点是特征点的匹配,一直是科学研究界不断攻克的问题。

(3)三维扫描仪建模:主要是利用三维激光扫描仪(3D Laser Scanner)完成对实际物体三维建模,能快速方便地将真实世界的立体空间信息、色彩信息等转换为计算机能直接处理的数字信号。它与传统的平面扫描仪和摄像机相比有很大不同,它可以获得器物藏品表面每个采样点的三维空间坐标,以及每个采样点的颜色信息。扫描的结果是一个包含每个采样点的三维空间坐标和颜色的数字模型文件,可直接用于三维模型软件进行编辑和处理。这种建模方式主要依赖于三维扫描仪。三维扫描仪是一种科学仪器,用来侦测并分析现实世界中物体或环境的形状(几何构造)与外观数据(如颜色、表面反照率等性质),大体分为接触式和非接触式两种类型。对于藏品的扫描通常需要在尽量保护藏品的情况下进行,所以基本上都选用非接触式扫描仪。非接触式三维扫描仪又分为光栅三维扫描仪(也称拍照式三维描仪)和激光扫描仪。光栅三维扫描仪采用可见光将特定的光栅条纹投影到测量工作表面,借助两个高分辨率CCD数码相机对光栅干涉条纹进行拍照,利用光学拍照定位技术和光栅测量原理,可在极短时间内获得复杂物体表面每个像素点的三维坐标。系统能对信息进行全自动拼接,具有高效率、高精度、高寿命和高解析度等优点,特别适用于扫描复杂自由曲面物体,以及柔软、易变形的物体,但对反光物体敏感。此外在获取表面三维数据的同时,能迅速地获取纹理信息,真实感更强。三维激光扫描仪利用激光测距的原理,通过记录被测物体表面大量的密集点的三维坐标、反射率和纹理等信息,快速建立出被测目标的三维模型及线、面、体等图件数据。它具有非接触性、快速、穿透性好、实时、高密度、高精度和自动化等特性,特别满足藏品三维模型高精度、快速采集的要求。三维激光扫描仪按照载体的不同,可分为机载、车载、地面和手持型四类。按照测量方式的不同,分为可分为脉冲式、相位式和三角测距式。脉冲式的距离最长,但精度随距离的增加而降低。相位式适合于中程测量,具有较高的测量精度,通过两个间接测量得到距离值。三角测量测程最短,但是其精度最高,适合近距离、室内的测量[8]。因此对于中小型器物,可采用相位式或三角测距式扫描仪实现三维模型的采集。对于亭台、古桥、庙宇等建筑的三维模型采集则适合采用脉冲式扫描仪。然而三维激光扫描仪不适用于表面脆弱或易变质的物体。

4.其他

除古籍文献类、书画类和器物类的藏品之外,电影、纪录片、音乐、录音等影像、视听类对象也是博物馆的藏品,如中国电影博物馆中的电影资料、音乐博物馆中的乐曲资料、自然博物馆中的有关动物的野外录像资料以及各种昆虫鸣叫的录音等。除此之外,在涉及非遗类文化遗产的博物馆往往会有关于某项仪式、节庆活动、工艺制作等方面的现场录像资料。以上这些信息,在存储上多以磁带、胶片等介质保存,长时间存放会造成带基老化、磁带打卷儿、磁粉脱落而影响质量。所以为了方便这类藏品的持久保存和保持质量的稳定,也需要采用数字化的技术,将其转换成数字化的声音、视频资料。对于磁带介质,主要是将模拟的音频、视频信号转换为数字信号,这就是模数转换的过程,主要通过采样、量化和编码来实现。对于音频信息,需要磁带播放机、带有声卡的计算机、音频转录线以及能转换、编辑音频的软件,如 Gold Wave、MP3 Sound Recorder等,将数字化的结果存储为MP3或是WAV的格式。对于视频信息,需要视频资料播放设备、带视频捕捉卡的计算机、视频线和视频识别、捕捉、处理软件,如VirtualDub等,将数字化结果存储为AVI 或MPEG等格式。对于胶片介质,数字化的方法有两种,一种是直接通过扫描仪扫描胶片得到数字文件,另一种是胶转磁后对磁带进行采集得到数字文件。直接扫描可以得到图片序列帧,可以得到线性方式记录的TIFF格式,或者是Log方式记录的DPX等格式,得到的图像质量好,细节丰富。扫描方式一般速度较慢。典型的胶片扫描仪有Dom ino,Cineon,IMAGICA的Imager 3000V,Oxbery的Cine Scan等,一般扫描速度是2K分辨率用15秒左右的时间。胶转磁是将胶片等模拟图像信号转换为磁带录像电信号,基本原理是利用电视电影机将胶片图像转换成视频电子信号,再利用磁带录像机将视频电子信号记录于录像磁带上,这种方式可以得到标清或者高清的磁带。常见的电视电影机有放映机—摄像机组型、飞点扫描型和电荷耦合器件扫描型三种,而胶转磁设备有汤姆逊(THOMSON)Spirit Data Cine。对于胶转磁之后的磁带进行直接采样就可获得数字化的文件。除了实际的转换工作之外,还需要对视频、音频信息进行基本修复,恢复色差、饱和度,去除划痕、删减空白等。一般有两种方式,一种是直接在线修复,通过自动模式或交互模式工具,修复胶片或视频图像出现的多种问题,包括划痕、霉斑、噪点、污垢、闪动和抖动等;另一种是将影片数字化变成文件之后,再对数字文件进行影像修复。对于音频信息,可利用音频处理软件来实现均衡、动态处理、降噪处理、转换成双声道立体声等[9]。对于视频信息,可利用视频处理软件进行亮度、灰度、对比度等的调整,消除噪声,以及利用前后画面的相似性与相同性,去除划伤和霉斑、污点等。

对于已存储的影像类藏品的数字化采集可以采用上述方法进行转换。对于要记录和存储的影像信息则可以采用视频数字化设备进行现场录制,直接产生数字化的文件。数码摄像机是最重要的视频数字化设备,即通过感光元件将光信号转变成电流,再将模拟电信号转变成数字信号,由专门的芯片进行处理和过滤后得到最终的动态画面信息。数码摄像机的优点是体积小、清晰度高、方便使用。它既可以拍摄动态的影像,也可以像数码照相机一样拍摄静态二维图像。数码摄像机按用途分,有广播级机型、专业级机型和消费级机型。广播级机型主要用于电视领域,图像质量高,性能全面,但价格较高,体积也比较大,它们的清晰度最高,信噪比最大,图像质量最好。专业级机型应用在广播电视以外的专业电视领域,如电化教育等,图像质量低于广播用摄像机。消费级机型主要是适合家庭使用的摄像机,应用在图像质量要求不高的非专业场合,适合家庭娱乐等,这类摄像机体积小重量轻,便于携带,操作简单,价格便宜。数码摄像机的存贮介质有磁带、光盘、硬盘和存储卡之分。数码摄像机的技术指标有电荷耦合器件(CCD)的尺寸、水平分解力、最小照度、扫描制式、信噪比等。博物馆在实际使用中可以根据录制对象的特点、要播放的场所、实际经济情况来决定选用那种摄像机。

除了藏品实体的数字化采集,在实际博物馆的藏品的数字化工作还包括将藏品的登记信息,如藏品的名称、等级、尺寸、重量、年代、现状和来源等文字信息录入到计算机中,以及对藏品所蕴含的历史价值、艺术价值、科学价值和文化价值的文字信息的数字化转化。一般都通过人工输入的方式进行,这需要工作人员熟悉计算机的基本操作,掌握一种快速输入法通过键盘完成录入工作。录入人员必须遵循真实性原则、完整性原则,严格按照术语规范和操作规程进行。理论上参与录入的人员越多,转换的速度越快。然而在实际操作中,为了减少录入中的错误,保证数据的真实性、科学性和规范性,通常采用单人录入、多人校对的方式,将主要精力投入到对信息的校对上。多人校对往往会弥补单人校对因疲劳而产生的错误,以提高录入数据的准确性。校对人员需要具备专业知识,能够迅速地排查录入数据中的标点符号错误、用词错误、语句错误等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈