首页 百科知识 中文叙词表自动构建可行性分析

中文叙词表自动构建可行性分析

时间:2022-02-27 百科知识 版权反馈
【摘要】:3.3 中文叙词表自动构建可行性分析如上文所述,国内叙词表编制技术仍处在机器辅助编表阶段,少数学者曾撰文介绍和研究自动构建叙词表理论和方法[14][28]。汉语叙词表自动构建研究虽然起步较晚,但我们相信借鉴国外词表自动构建技术并结合汉语构词法和字面相似等特征,实现自动构建汉语叙词表具有光明的前景。
中文叙词表自动构建可行性分析_自然语言叙词表自动构建研究

3.3 中文叙词表自动构建可行性分析

如上文所述,国内叙词表编制技术仍处在机器辅助编表阶段,少数学者曾撰文介绍和研究自动构建叙词表理论和方法[14][28]。中文网络信息检索多以关键词字面匹配检索为主,少量采用词表的网站也只是把之前的人工词表以电子形式嵌入检索系统,检索效果并不尽如人意。而国外已经进入词表自动构建阶段,在诸多词表构建方法中,统计方法仍然是主流,其中对基于同现分析的词表自动构建方法研究最多。这种同现叙词表与图书馆界普遍使用的叙词表不同之处在于,它采用同现分析的方法计算词汇(概念)之间的关联度,通过关联度把相关的词汇(概念)联系成网状,以此代表词表的概念语义网络。有些检索实验通过Hopfield网络算法激活概念语义网络,用以检索扩展和自动构造检索式,并取得很好的效果。但是这种词表很少用于标引[13],原因在于通过此方法构建的叙词表,对词间关系的把握较为粗糙,通过关联度计算和聚类,粗略获取词汇等级关系和相关关系,有利于提高检全率,但检准率难以得到改善。

国内外对叙词表自动构建的相关研究为中文叙词表自动构建提供了宝贵经验,虽然英文和中文在行文上有很大差别,但是作为交流沟通的工具——语言来说,不同语种叙词表对同一事物的阐述和表达表现在上下文布局上是一样的,所以国外一些先进的技术和思想可以借鉴到中文信息处理中。另外,国内学者对叙词表自动构建的调查研究以及对同义词识别、字面聚类等方面的实践也为本文的研究打下了坚实的基础。自动构建叙词表在很大程度上能够减轻编表负担,缩短编表时间,从而推动计算机网络信息检索的发展。

但是目前的研究仍以统计方法为主,从语料库中挖掘各种知识,因汉语对事物的表达具有很高灵活性,在人工智能研究尚未成熟的情况下,通过统计方法识别出的词间关系具有一定不确定性,要得到较为精确的结果仍然需要人工的参与、辅助识别和判定。美国情报学家Salton曾表示自动构建叙词表的效率值得怀疑,建议使用半自动方法[29],许多学者也普遍认可人工参与的重要性。但是可以预见,人工智能、专家系统等技术的发展对真正实现词表自动构建具有关键性意义。

所以,目前最现实的词表构建方法仍然是机器构建辅以人工识别。虽然仍需要人工介入,但相对手工和计算机辅助编制方法,这种方法仍具有很大优点。汉语叙词表自动构建研究虽然起步较晚,但我们相信借鉴国外词表自动构建技术并结合汉语构词法和字面相似等特征,实现自动构建汉语叙词表具有光明的前景。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈