首页 理论教育 信息技术文本信息的处理

信息技术文本信息的处理

时间:2022-02-27 理论教育 版权反馈
【摘要】:文本自动标引是对文本根据其表达的内容或主题,进行关键词或主题词自动获取的过程。本书从文本的自动标引和自动分类角度出发,调研文本自动标引和自动分类技术的相关理论研究,结合实际应用,以中文文本为研究对象,探讨文本的自动标引和自动分类问题。虽然本书研究的是中文文本的自动标引和分类,但其中的关键技术与方法同样可以推广到其他语种的相应处理中。
研究背景_文本自动标引与自动分类研究

1.1 研究背景

随着计算机及网络的普及,数字化载体逐渐融入人们的生产、生活中,成为人们获取信息资源不可或缺的途径、方法和手段。根据第23次中国互联网络发展状况统计报告显示,目前我国上网网民已经突破1亿,网民用于上网的时间每周平均在14个小时以上[1]。我国网民人数的增加、上网时间的增长,从一个侧面说明,数字化载体十分具有吸引力,能够方便、快捷地为人们提供所需要的信息资源。在过去的20年中,万维网的迅速发展使其成为世界上规模最大的公共数据源。万维网数据量巨大且不断增长、数据类型丰富、信息异构、信息包含噪音等特点,使得挖掘有用的信息和知识的任务变得十分有趣,并富有挑战[2]

我们正处于“信息爆炸”的时代,但为什么当各类信息像洪水一样向我们涌来时,我们仍然缺乏所需要的信息呢?这是因为在信息社会之中,“没有控制和没有组织的信息不再是一种资源。它倒反而成为信息工作者的敌人”[3]

然而,在这些纷繁复杂的信息资源中,最主要的还是非结构化或半结构化的文本信息资源。人们上网获取信息资源的要求是快捷方便,而要快捷方便,通常的做法是对文本信息资源进行预先处理,运用某种方式组织和存贮起来。如何对异构、动态的海量信息资源进行快速的加工与组织,以智能化、个性化的方式为用户提供高效的信息服务,是信息组织部门、信息组织研究者等共同面临的难题。

一方面,数字化信息资源数量高速增长,其中包含着对人们极有潜在价值的知识和信息;另一方面,人们运用网络获取信息资源的数量也在高速增长,而人们获得的有效信息资源的比例却在下降。其原因在于互联网的政策——任何人可以发布任何未经加工的信息,这些未经加工的信息难以获取效率,而经过加工的信息能够提高人们的获取效率。未经加工的信息越多,人们的信息资源检索效率就越低。

然而,要解决信息资源无限增长和检索效率低下的矛盾,究其原因是多方面的,非某一种技术所能解决,存在的困难也是多方面的。但主要的原因还是信息资源的多样化和海量化,且没有经过规范的加工处理。在这些杂乱无序的信息海洋中,用户要迅速准确地找到自己所需要的信息,困难重重。

关于信息资源的加工与组织方法比较多,其中文本的自动标引和自动分类是比较关键的技术,并且有广泛的应用。文本自动标引(本书是指狭义上的自动标引,即文本的关键词抽取或主题词获取)是对文本根据其表达的内容或主题,进行关键词或主题词自动获取的过程。分类是人们浏览和查找信息的主要手段之一。文本自动分类是根据某一特定的分类体系,将文本资源分门别类地进行自动组织的方法。

本书从文本的自动标引和自动分类角度出发,调研文本自动标引和自动分类技术的相关理论研究,结合实际应用,以中文文本为研究对象,探讨文本的自动标引和自动分类问题。虽然本书研究的是中文文本的自动标引和分类,但其中的关键技术与方法同样可以推广到其他语种的相应处理中。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈