首页 理论教育 档案全文数据库建设

档案全文数据库建设

时间:2022-03-20 理论教育 版权反馈
【摘要】:档案全文数据库,是存储、组织管理数字化档案信息的数据库系统,既包括档号、题名、责任者、正文、形成时间、密级、保管期限、载体、数量、单位、编号等著录信息,也包括档案的内容信息。档案全文数据库建成后,可采用全文检索系统提供的功能对数据库进行检索。(二)档案全文数据库的功能理想的档案全文数据库应具有以下基本功能:1.能够获取、存储和使用不同类型、不同格式的档案信息。
档案全文数据库建设_档案信息化建设

档案全文数据库,是存储、组织管理数字化档案信息的数据库系统,既包括档号、题名、责任者、正文、形成时间、密级、保管期限、载体、数量、单位、编号等著录信息,也包括档案的内容信息。档案全文数据库所管理的对象,不仅包括经数字化处理的传统馆(室)藏档案,而且包括以数字化形式直接生成的电子文件(档案),如各类文本、表格、图形、图像、音频、视频、数据库、网页、程序等。应用环境不同,系统软件不一,生成的文件格式也会不同。因此,必须确定电子文件的元数据标准和存储格式,以规范档案全文数据的组织与管理。

(一)档案全文数据库构建的过程

全文数据库的构建一般包括以下几个过程:

1.数据的采集。即对加载到全文数据库中的数据进行录入、采集、整理等处理。全文数据的获取方式有三种:一是图像扫描(或数码拍摄)录入。该方法形成的图像信息能保持文件的原貌,但占用存储空间大,不能直接进行全文检索和编辑。二是键盘录入。该方法形成的是文本信息,占用存储空间小,存取速度快,支持全文检索,但是输入工作量大,文本的格式和签署信息容易丢失。三是图像识别录入,即对扫描形成的图像进行OCR识别,形成文本信息。该方法虽然具有上述两种方法的优点,但是OCR识别带有一定的差错率,特别当档案原件字迹材料不佳、中英文混排或带有插图、表格时,差错率较大,而人工纠错成本较高。因此,数据采集要权衡利弊,有选择地使用。

2.数据预处理。将采集后形成的档案数字化成果转换成规范的格式,进行规范化命名,再进行统一标准的著录与标引。采用自动标引技术的系统,还可以从文本文件中直接提取关键词或主题词,辅助计算机检索。

3.数据检索。档案全文数据库建成后,可采用全文检索系统提供的功能对数据库进行检索。

4.数据维护。全文数据库建成后,需经常对数据库的内容进行索引、更新、追加和清理,以保证数据库的实用性和时效性。

(二)档案全文数据库的功能

理想的档案全文数据库应具有以下基本功能:

1.能够获取、存储和使用不同类型、不同格式的档案信息。

2.能够按照确定的数据结构有效组织大量分布式的不同类型、不同格式的电子文件或扫描件,并为之建立有效的检索系统。

3.能够快速、正确地实现跨库访问和检索。

4.能够对全文信息的访问和使用进行许可、控制和监督等授权管理。

5.能够在网上发布全文数据库数据。

6.能够集成支持全文数据库管理的各种技术,如超大规模数据库技术、网络技术、多媒体信息处理技术、分布式处理技术、安全保密技术、可靠性技术、数据仓库与联机分析处理技术、基于内容的分类检索技术、信息抽取技术、自然语言理解技术等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈