首页 理论教育 基于遗传算法的文献描述学习

基于遗传算法的文献描述学习

时间:2022-03-04 理论教育 版权反馈
【摘要】:在检索咨询的反馈过程中,可根据用户对检索结果文献的相关评价,利用GA算法概括出较好的文献描述。执行完GA算法后,需要评估描述修改效率。一些实验证明,使用GA算法,可从已存文献描述中分离出有用的信息,来形成更适于检索的新描述,这种描述具有以下特点:使提问与其相关的文献有较高的匹配概率;使提问与不相关的文献有较低的匹配概率,从而提高检索效率。事实证明,GA算法是改进文献描述的有效工具。

6.2.7 基于遗传算法的文献描述学习

在信息检索系统中,可利用用户提供的相关反馈信息来修改相关文献的描述和提问,改进检索效率。修改提问是检索过程中的短期学习,而文献描述的修改(重描述)则是系统应执行的长期的、动态的学习任务。文献的重描述对系统执行效率影响较大,这里侧重讨论文献重描述的学习方法。

遗传算法(Genetic Algorithm,GA)在机器学习研究中越来越受欢迎。在检索咨询的反馈过程中,可根据用户对检索结果文献的相关评价,利用GA算法概括出较好的文献描述。用户下次再查找这些文献,就比较容易,且效率较高。其他用户的同类提问也可获得较好的检索效率。

1.遗传算法概述

GA算法的原理是模仿遗传,求得最多的合适元素。在遗传中,最佳成员的基因(对象的特征)从上一代遗传给下一代。GA算法不仅选择好的基因,还选择好的基因组合,引入新的变化,使得后代比父辈更好。

GA算法操作于对象集合,每次操作执行相似的任务。算法用另一个新对象集合代换旧集合,反复进行这种操作,产生理想的对象集合。

GA算法的步骤如下:

首先随机产生对象集合,然后对于该集合重复执行以下操作,直到满足给定标准:

(1)测量固定集合中对象的执行值。

(2)代换对象集合:

①从当前对象集合中选择具有较高执行值的对象,取它们的特征构造新对象集合,每个新对象与所有旧对象不同;

②丢弃旧对象集合。

2.文献描述的学习过程

假设文献向量的描述如下:

img46

其中,Ti主题词,是文献描述的基因元素。Ti=1,表示该词描述文献,否则Ti=0。n指示对一篇文献的n个不同描述,最初可由程序或人工随机产生。g表示算法产生的某代集合序号,算法循环执行一次,产生一个后代描述集合。desc-x-gi表示第x篇文献的第g代中第i个描述。

假设给定M个与文献相关的提问,构成相关提问集合Q。依据GA算法,系统重复执行以下操作:

(1)测量对象的执行值

对象是指文献描述,对象执行的评估方法是,计算文献描述与提问的相关程度。

(2)对象集合的代换

①重产生:从当前的第g代的文献描述集合中,选择对于相关提问集合Q具有最高的平均匹配分数的描述。例如,某描述的平均匹配分数大于所有描述的总平均匹配分数Gg。设选择的文献描述为N'个,建立它们的副本,删除原第g代的描述集合。从选择的描述集合中,随机选取其描述片断(如主题词),产生新的描述集合。

②交换:随机划分新建立的N'个描述为N'/2对(若N'为奇数,最后为一个描述)。对于每对描述j,随机取交叉点Pj,1≤Pj≤L-1(L为描述向量的长度),构成第g+1代文献描述集合(初值为空)如下:

首先,加入集合:

initial(desc-pair j1)+final(desc-pair j2)

initial(desc-pair j2)+final(desc-pair j1)

其中:“+”是字符串连接运算符号;desc-pair j1和desc-pair j2是第j对文献描述;initial(desc-pair jt)是jt描述向量中前Pj个元素;final(desc-pair jt)是jt描述向量中后L-Pj个元素。

其次,对于奇数N',从刚产生的描述中取出一个,与未配对描述配对,交换处理之,然后加入集合。

例如,以上文献描述集合中,让第g1与第gn配对,Pj=3,则交换结果是:

img47

执行完GA算法后,需要评估描述修改效率。比较每一代描述集合对于相关提问集合Q的总平均匹配分数,分数越高,这一代的描述与提问集合的相关度越高。选择总平均匹配分数最高的描述集合,构成文献的新描述。

一些实验证明,使用GA算法,可从已存文献描述中分离出有用的信息,来形成更适于检索的新描述,这种描述具有以下特点:使提问与其相关的文献有较高的匹配概率;使提问与不相关的文献有较低的匹配概率,从而提高检索效率。

GA算法产生的文献描述,还提供了最好的词汇组合形式,用户感兴趣的词或其组合形式,可加入主题词表,作为主题词或检索入口词。

事实证明,GA算法是改进文献描述的有效工具。信息系统可利用这种方法,根据相关反馈信息,不断学习文献的新描述,改进系统执行性能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈