首页 理论教育 实验语料选择

实验语料选择

时间:2022-02-27 理论教育 版权反馈
【摘要】:11.1.1 实验语料选择本项研究的目的是为了探索在真实环境下,大规模海量文本在自动分类方面可能存在的问题及解决方案,所以,本项研究选取经济新闻语料和VIP(维普)电子期刊语料作为本项研究的训练和测试之用。中国资讯行于1995年率先在互联网上建立了自己的信息平台,是全球第一家以互联网传播中文资讯的公司。对以上两部分原始语料均进行去除乱码、控制符等非文本信息的预处理,并去除了部分超短文本文章。
实验语料选择_文本自动标引与自动分类研究

11.1.1 实验语料选择

本项研究的目的是为了探索在真实环境下,大规模海量文本在自动分类方面可能存在的问题及解决方案,所以,本项研究选取经济新闻语料和VIP(维普)电子期刊语料作为本项研究的训练和测试之用。选取这两种语料的目的:一是两者的分类体系,一个简要、一个复杂;二是前者文本为普通新闻文本,后者为较为规范的期刊论文,因此有助于更好地进行对比研究和适应性测试。

①经济新闻语料。为近9万篇中文文本,大约3 000万个汉字,分布在19个大类200个小类,平均每个小类约500条,全部来源于中国资讯行网站(ChinaInfoBank,http://www.chinainfobank.com/)。中国资讯行于1995年率先在互联网上建立了自己的信息平台,是全球第一家以互联网传播中文资讯的公司。其主要业务是为客户提供信誉超群的中文商业数据库平台,专门从事中国商业经济资讯的收集、整理和传播,致力于将全面而实用的资讯带到全球商业社会,满足商界人士的不同需求。

新闻语料的分类采用来源网站人工分类结果体系。

②VIP电子期刊语料。在系统实际运行阶段,本系统还换以《中图法》为分类体系的VIP电子期刊文献部分的数据集进行系统适应性验证实验,鉴于实验系统的实际运行效率和数据收集的情况,节选了其中的D、F、G三个大类的部分五级类目作为训练测试用,共3个一级类目47个5级小类,自动分类依据信息采用文献标题、文摘,同时参考关键词等相关信息进行。

对以上两部分原始语料均进行去除乱码、控制符等非文本信息的预处理,并去除了部分超短文本文章。对电子期刊还进行了无文摘类文本的剔除。

将数据集大致按8∶1的比例随机划分为两部分,一部分用于训练,另一部分用于测试。其中,ChinaInfoBank语料库包含训练集36 683篇文本,测试集4 750篇文本;VIP电子期刊语料库包含训练集13 947篇文本,测试集2 350篇文本。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈