首页 理论教育 馆藏文献数字化的基本方法

馆藏文献数字化的基本方法

时间:2022-04-12 理论教育 版权反馈
【摘要】:索引可以用数据库方式建立,以某条记录所揭示的对应页的图像文件名为地址与该页图像相联接。该方式的优点是可以保存文献的原貌,制作技术相对简单,可用于保真度要求较高的古籍、档案、手稿、照片等资料的数字化。采用文本方式存储文献内容,辅之以全文检索系统构成全文检索数据库。扫描录入与文本方式的结合是将扫描形成的图像文件经OCR软件处理成文本,并将图像文件与文本文件叠加,形成全文版挂接扫描版。

(一)扫描录入

扫描录入法是使用扫描仪或数码相机形成原始文献的数字图像文件,也就是将文献或图书资料按原貌逐页存储为图像文件,并为其编制题名、责任者、分类、主题词或关键词、人物等索引,利用索引可以检索并显示索引词所在页面的图像文件。图像文件的存储、处理、压缩等可以通过适当的软件来实现。索引可以用数据库方式建立,以某条记录所揭示的对应页的图像文件名为地址与该页图像相联接。该方式的优点是可以保存文献的原貌,制作技术相对简单,可用于保真度要求较高的古籍、档案、手稿、照片等资料的数字化。缺点是占据存储空间较大,即使采用较完善的数据压缩技术,所能存储的文献内容也远远小于文本方式存储的内容,标引工作量大且技术要求高,不能逐字、词检索到某字词所在的句段。

(二)文本方式

文本是文献传播的内容和受众阐释的对象,是以标准化的编码形式表达整体意义的符号系统,是经过人类加工处理,付诸一定载体形式的社会文献信息。采用文本方式存储文献内容,辅之以全文检索系统构成全文检索数据库。这里的全文检索,既可通过对数据库的全部字词编制索引的方式对数据库中的文字进行逐字词检索,也可不编字词索引,而是采取逐字词遍历的方式从文库中查找相应的字词,前者的缺点是索引占据的存储空间较大(中文全文数据库字词索引所占空间大约是原文本所占空间的5倍),但检索速度较快;后者则可以节省编制索引所占据的空间,但检索速度较慢。全文检索数据库除可以对全文库进行逐字词检索外,还可以配以题名、责任者等辅助索引,也可以对文库中的人名、地名、关键词等编制规范文档,进行后控,以提高查全率和查准率。

(三)扫描录入与文本方式结合

扫描录入与文本方式的结合是将扫描形成的图像文件经OCR软件处理成文本,并将图像文件与文本文件叠加,形成全文版挂接扫描版。理想的制作方式是先制作扫描版,然后利用OCR技术(光学字符识别技术)将其转换为文本格式,从而建立文本与页面的一一对应关系。使用时,用户可用全文版检索到特定字、词所在的句段,必要时可调阅句段所对应的扫描版页面文件,用以观看文献原貌或校对文字识别错误。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈