基于语义的图像检索系统

时间：2023-03-04 理论教育版权反馈

【摘要】：在图像语义检索模型中，不仅构造了从文字到图像的映射和从图像到文字的映射，而且在文字表征和图像表征内部也构造了联想结构，使我们可以综合语义特征和视觉特征进行检索。把查询图像的视觉特征和属于同一语义类型数据库中的图像进行相似性匹配，把检索结果按相似性大小排序返回给用户。接下来由智能搜索系统提取

9.3.5　基于语义的图像检索系统

1.图像检索系统框架

依据Paivio双重编码理论可知，图像和语言是相互作用的不可分割的两个部分，也就表明视觉特征和语义特征是相互联系的，在图像理解和检索时两者不可或缺。同时，Kosslyn为视觉特征和语义特征的转换提供了一定的理论依据和方法论指导。

显然，割裂图像的视觉特征和语义特征的方法是片面的，必然会损失部分有用信息，尤其是没有语义特征参与时，系统的检索行为与人类的认知模式会出现严重的不一致性。因此，怎样结合图像的视觉特征和语义特征，提供与人类认知模式一致的语义检索功能将是未来图像检索研究的重点。同时，人类的检索行为是一个“逐步求精”的过程，因此，与用户的智能交互机制和有效的相关反馈机制是提高图像检索效果的有效手段。

图像检索系统应该能够满足以下几个要求:

(1)能够满足语义检索的要求，也就是说用户提交检索(不仅可以是样例图像，还可以是语言描述)请求后，系统能够分析用户的检索请求并进行检索，返回的结果图像不仅在视觉表征上相关，而且在语义表征上也相关。

(2)图像特征表示不仅包含视觉特征而且包含语义特征，而且视觉特征和语义特征可以相互作用。

(3)有效的知识库指导，具有智能决策能力，主要包括:

●视觉特征和语义特征之间的有效映射规则;

●视觉特征内部和语义特征内部的有效联想规则;

●在线学习用户检索偏好的机制;

●与用户的智能交互和相关反馈机制。

图像检索系统框架的描述如图9-14。

图9-14　图像检索系统框架

在上述的检索框架中，图像的视觉特征表示和语义特征表示(存储在分布式图像库中)、视觉表征和语义表征之间的映射、视觉表征内部和语义表征内部之间的联想关联是这个系统的关键(后面两种映射和关联是以知识的形式存在知识库中)。从人类的知觉过程来看，知觉过程包括两种相互联系的加工过程:自下而上(bottom-up)加工和自上而下(top-down)加工。在上述知识库系统中，我们模拟和综合了这两个过程，从图像的视觉特征到语义特征的映射可以认为是自下而上加工，它从低层的视觉特征(例如颜色、纹理)分析开始，得到高层的区域或者对象语义;从图像的语义特征到视觉特征的映射可以认为是自上而下的加工，它从图像的区域或者对象语义(在一定的上下文环境中)出发，引导出对应的低层视觉特征。

2.图像语义知识组织

对自然语言进行自动处理时，应该理解其含义，即其包含的语义知识，但是生成语法缺少表示语义知识的手段，是不能充分理解句子的含义的。为了分析句子包含的语义知识，需要在语义层次上表示知识。“理性主义”的手段虽然基本上掌握了单个句子的分析技术，但是还很难覆盖全面的语言现象，特别是对于整个段落或篇章的理解还无从下手。与“理性主义”相对的是“经验主义”的研究思路，主要是指针对大规模语料库的研究。其加工的方式就是在语料中标注各种记号，标注的内容包括每个词的词性、语义项、短语结构、句型和句间关系等。随着标注程度的加深，语料库逐渐成熟，成为一个分布的、统计意义上的知识源。利用这个知识源可以进行许多语言分析工作，从已标注语料中总结出的频度规律可以对新文本逐词标注词性、划分句子成分等。

制作表示语义知识的语义词典是智能检索中很关键的工作。语义词典的直接目标是为汉语语法分析提供语义知识的支持。从工程实用的目的出发，选择配价理论作为语义分析的理论框架，采用语义分类与属性描述相结合的语义信息表述方式，具有良好的可移植性，既面向通用领域的现代汉语，又可向具体系统倾斜。该词典的语义分类体系是为了辅助语法分析而设计的，因此，语义分类的标准及分类深度均应从为语法分析服务的角度来确定。应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。本词典首先将词语分为事物类、运动类和性质类，然后再逐步区分更细的语义类。我们需要先准备专业领域语料和语义知识库，结合本体论的思想创建领域本体库，在专业领域语料中提取和本体有关的例句组成例句库。用适合中文的一种新的框架语义描述方法对例句库进行框架语义描述，其成果为例句语义描述库。最后，结合其他语义知识库和例句语义描述库定义领域本体，其成果为本体语义描述定义库。这样就组成一个完整的语义描述模式。

3.图像语义检索模型

联想机制也是人类知觉过程的重要特征，在图像检索中引入视觉表征内部和语义表征内部的联想结构也是有益而且必要的。图像语义检索模型如图9-15所示。

图9-15　图像-语义混合检索模型

在图像语义检索模型中，不仅构造了从文字到图像的映射和从图像到文字的映射，而且在文字表征和图像表征内部也构造了联想结构，使我们可以综合语义特征和视觉特征进行检索。进一步，我们可以通过用户交互和相关反馈提高检索效果。总之，图像语义检索不仅具有比较坚实的认知心理学理论基础，而且它更加符合人类的检索习惯，友好的人机交互和智能行为也会大大提高系统的性能。综合图像视觉特征和语义特征的混合检索代表着图像检索技术发展的方向。

4.基于语义分类的图像检索方法与过程

目前，利用图像的原始视觉特征进行语义分类是一个具有挑战性的课题。常用的方法是，用户首先对一组图像(训练样本)进行手工语义分类，设定好系统的语义分类器，用户查询图像时，系统根据查询图像的视觉特征识别其语义，把查询图像和具有相同语义类型的图像库进行比较，按相似性大小返回查询结果。我们提出一种用语义分类实现的图像检索系统模型，该模型包括两部分:图像按语义分类提取特征和图像检索匹配。

图9-16首先描述了图像特征的提取过程。首先，把原始图像进行分割，分割后的图像被送入语义分类器，语义分类器把图像放入预先定义好的相互排斥的语义类中。图像可以进入多个语义类中，然后按照图像的语义类提取不同的图像特征(颜色、纹理、形状、位置等)。最后把图像的各种特征连同语义聚集起来放入相互独立的数据库中。

图9-16　图像语义检索流程图

该图描述了图像检索过程是用户给出查询图像，首先判断一幅查询图像是否在数据库中。如果不在，按照图像提取模块提取查询图像特征;如果查询图像在数据库中，检查查询图像的语义类型，从相应的数据库中提取出该图像的语义信息和视觉特征。把查询图像的视觉特征和属于同一语义类型数据库中的图像进行相似性匹配，把检索结果按相似性大小排序返回给用户。

5.智能语义检索的实现

通常用户发出的自然语言搜索要求是零散的语句，可以适当限制使用的句式，以提高分析的正确率。假设用户提出如下要求:文章应该详细介绍计算机的组成结构和工作原理。当这样的搜索要求输入系统后，一个自然语言理解前端负责分析其内容。这个前端实际就是一个句法与语义分析器。句法分析部分负责生成句法树，可以采用功能合一语法。语义分析是根据句法树建立以动词为核心的语义框架，框架的语义格由名词性短语填充。在分析过程中还要返回输入中可能出现的错误并通过人机交互纠正。接下来由智能搜索系统提取框架中的名词性短语，将这些短语作为关键词，在经过标注的文献库中搜索目标记录。

智能搜索系统工作在这样一项假设之上:任意两个文档F1和F2，若二者标注的结果(记作L(F1)和L(F2))完全一致，那么它们所表达的内容(记作M(F1)和M(F2))也认为是相同的，即当且仅当L(F1)=L(F2)时，M(F1)=M(F2)。匹配过程将文档的标注结果逐一比较，如果匹配算法采用布尔逻辑，则实现精确匹配。当采用统计法标注时，每个标注的关键词都有一个出现频度。根据概率理论可以定义一种相关测度，表示文档与搜索要求之间的相关性大小。匹配算法采用模糊逻辑，实现近似逻辑匹配。系统还根据预期的常识性知识和本体论知识对用户的搜索要求进行相关性联想，完善用户需求，并提供线索引导系统的搜索。这种逐步求精的策略解决了信息检索中“精确表达”的难题。

本系统采取一种智能的先推后拉检索策略，即根据用户的具体情况将相应的信息推送给用户，用户想要得到更详尽的信息可以通过系统执行进一步的查找。为此，必须尽早建立专业领域知识库、用户知识库，实现个性化服务和跟踪服务。

由于自然语言中存在不确定性，采用传统的精确推理来处理语言表达中的模糊性就会遇到困难。因此我们采用模糊逻辑的推理方法，使用模糊逻辑运算对概念间的关联性求值。在此，模糊与或图提供了一个较好的推理框架，图中的结点表达语言概念(叶结点视为关键词)，结点间的与或连接弧表达概念间的关联，用一个［0，1］间的模糊值表示其关联程度。将规则库中的模糊规则转换为模糊与或图，就可进行概念间的模糊推理。智能搜索的过程是:搜索引擎收到用户的提问后，利用禁用词表从查询中剔除诸如副词、介词、代词等没有主题意义的词汇，然后将剩下的词进行概念标注与分析，再利用领域词典和知识库进行概念理解基础上的搜索与匹配。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈