实验语料选择

时间：2023-02-27 理论教育版权反馈

【摘要】：11．1．1　实验语料选择本项研究的目的是为了探索在真实环境下，大规模海量文本在自动分类方面可能存在的问题及解决方案，所以，本项研究选取经济新闻语料和VIP（维普）电子期刊语料作为本项研究的训练和测试之用。中国资讯行于1995年率先在互联网上建立了自己的信息平台，是全球第一家以互联网传播中文资讯的公司。对以上两部分原始语料均进行去除乱码、控制符等非文本信息的预处理，并去除了部分超短文本文章。

实验语料选择_文本自动标引与自动分类研究

11．1．1　实验语料选择

本项研究的目的是为了探索在真实环境下，大规模海量文本在自动分类方面可能存在的问题及解决方案，所以，本项研究选取经济新闻语料和VIP（维普）电子期刊语料作为本项研究的训练和测试之用。选取这两种语料的目的：一是两者的分类体系，一个简要、一个复杂；二是前者文本为普通新闻文本，后者为较为规范的期刊论文，因此有助于更好地进行对比研究和适应性测试。

①经济新闻语料。为近9万篇中文文本，大约3　000万个汉字，分布在19个大类200个小类，平均每个小类约500条，全部来源于中国资讯行网站（ChinaInfoBank，http://www.chinainfobank.com/）。中国资讯行于1995年率先在互联网上建立了自己的信息平台，是全球第一家以互联网传播中文资讯的公司。其主要业务是为客户提供信誉超群的中文商业数据库平台，专门从事中国商业经济资讯的收集、整理和传播，致力于将全面而实用的资讯带到全球商业社会，满足商界人士的不同需求。

新闻语料的分类采用来源网站人工分类结果体系。

②VIP电子期刊语料。在系统实际运行阶段，本系统还换以《中图法》为分类体系的VIP电子期刊文献部分的数据集进行系统适应性验证实验，鉴于实验系统的实际运行效率和数据收集的情况，节选了其中的D、F、G三个大类的部分五级类目作为训练测试用，共3个一级类目47个5级小类，自动分类依据信息采用文献标题、文摘，同时参考关键词等相关信息进行。

对以上两部分原始语料均进行去除乱码、控制符等非文本信息的预处理，并去除了部分超短文本文章。对电子期刊还进行了无文摘类文本的剔除。

将数据集大致按8∶1的比例随机划分为两部分，一部分用于训练，另一部分用于测试。其中，ChinaInfoBank语料库包含训练集36　683篇文本，测试集4　750篇文本；VIP电子期刊语料库包含训练集13　947篇文本，测试集2　350篇文本。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈