首页 理论教育 的改进方法

的改进方法

时间:2022-02-11 理论教育 版权反馈
【摘要】:一元词语模型把所有词语当作都是独立的进行处理,但是我们知道一些词语其实是相关的:“couch”与“couches”和“sofa”关系都很密切。典型情况下,这能稍微提高一点儿召回率。虽然取词干的方法在英语中影响不大,但是它在其它语言中能起重要作用。如同使用取词干方法,有少量提高召回率的潜力,但是如果过度使用则会有降低准确率的危险。作为最终的改进,IR 能够通过考虑元数据——文档文本之外的数据——以得到改进。

一元词语模型把所有词语当作都是独立的进行处理,但是我们知道一些词语其实是相关的:“couch”与“couches”和“sofa”关系都很密切。很多IR系统都试图考虑到这些相关性。

例如,如果某个查询是 [couch],那么如果从结果集合中排除那些提到“COUCH”或者“couches”而不是“couch”的文档则是不应该的。很多IR系统都要进行大小写同一处理(case folding),将“COUCH”转换为“couch”,还有很多系统采用取词干(stemming)算法把“couches”还原为其词干形式“couch”。典型情况下,这能稍微提高一点儿召回率(对英语大约是2%)。然而,它对准确率却有不良影响。例如,“stocking”取词干的结果是“stock”,虽然这能够提高有关仓库储存的查询的召回率,但是却倾向于降低有关脚的覆盖物(“stocking”有长袜的意思——译者注)以及金融手段(“stock”有股票的意思,不过是名词;而“stocking”可能是动词“储备”的现在进行时——译者注)的查询的准确率。基于规则(例如:去除“-ing”)的取词干算法不能避免这个问题,但是基于词典(如果这个词语已经列在词典中,则不去除“-ing”)的一些较新的算法则可以解决该问题。虽然取词干的方法在英语中影响不大,但是它在其它语言中能起重要作用。例如在德语中,类似于“Lebensversicherungsgesellschaftsangestellter”(人寿保险公司雇员)这样的词语是不常见的。诸如芬兰语、土耳其语、因纽特语以及爱斯基摩语等语言都具有递归的语形学规则,从而在原则上能够生成无限长度的词语。

下一步是区别类似“sofa”与“couch”这样的同义词(synonym)。如同使用取词干方法,有少量提高召回率的潜力,但是如果过度使用则会有降低准确率的危险。那些对橄榄球运动员Tim Couch感兴趣的人决不希望费力气去看与沙发有关的结果(“couch”的一个意思是“沙发”,和“sofa”同义——译者注)。问题在于“语言憎恨绝对的同义词,就像自然界憎恨真空一样”(Cruse,1986)。也就是说,无论何时当有两个表示同一件事物的词语存在时,使用这种语言的人总会企图更改它们的含义从而消除混淆。

很多 IR 系统都采用词语的二元模型进行某种扩展,虽然很少有系统实现一个完整的概率二元模型。拼写纠错程序可以用于纠正文档和查询中的错误。

作为最终的改进,IR 能够通过考虑元数据——文档文本之外的数据——以得到改进。元数据的例子包括人提供的关键词以及文档间的超文本连接。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈