基于同现分析的词表自动构建方法

时间：2023-02-27 百科知识版权反馈

【摘要】：3．1．6　基于同现分析的词表自动构建方法该方法通过计算词汇同现频次或同现位置来挖掘词汇之间的关联，生成的词表又叫同现率词表［10］。基于同现分析技术自动构建词表是一种应用最为普遍的词表构建技术，综合运用了自然语言处理技术、机器学习、知识挖掘和知识发现等理论和方法。如美国学者Salton在1989年提出同现叙词表的自动构建方法：首先采用余弦函数计算出各个词汇之间的相似度，然后依据相似度将词汇归到叙词表的主题类别中。

基于同现分析的词表自动构建方法_自然语言叙词表自动构建研究

3．1．6　基于同现分析的词表自动构建方法

该方法通过计算词汇同现频次或同现位置来挖掘词汇之间的关联，生成的词表又叫同现率词表^［10］。基于同现分析技术自动构建词表是一种应用最为普遍的词表构建技术，综合运用了自然语言处理技术、机器学习、知识挖掘和知识发现等理论和方法。其假设前提是：语义相关的词汇经常同时出现在上下文中，这样通过统计计算词汇同现频次可以挖掘词汇之间的语义关联。此方法用覆盖学科领域的文献库作为词表构建的来源，采用统计方法、知识发现和文本挖掘方法来识别学科领域中重要的词汇和词间关系。通过这种方法构建的词表，有良好的文献保障，虽然识别的词汇语义关联并不尽如人工构建的那么精确强壮，但常常能够探测到自由文本库中潜在的知识框架，这是人工构建所不能及的。如美国学者Salton在1989年提出同现叙词表的自动构建方法：首先采用余弦函数计算出各个词汇之间的相似度，然后依据相似度将词汇归到叙词表的主题类别中。通过同现叙词表进行查询扩展，检全率通常可以提高10%～20%^［11］。美国学者Crouch分别在1988年和1992年实现从文本关键词自动生成叙词类别，应用于标引文献和用户提问^{［12］［13］}。他采用了向量空间模型和词区分理论（Term Discrimination Theory），通过等级聚类算法中的全链接算法聚类文献。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈