图像语义提取技术

时间：2022-03-04 理论教育版权反馈

【摘要】：大多数图像语义提取方法使用多层抽取机制来支持图像的语义处理。图像被分割成一系列区域，再对分割好的区域提取多种特征。这类系统使用了图像中对象类别及对象空间关系的语义，是早期语义图像检索系统的典型代表。在艺术图像与心理学的关系的研究中，Arnheim探讨了艺术形式和视觉特征的关系，而Itten提出了艺术图像中颜色的使用与表达的语义之间的关系的理论。

9.3.2　图像语义提取技术

1.图像语义的层次模型

语义层次模型，如图9-4所示。语义的层次在图像检索中说明了检索的复杂度，从下往上，语义比下一层更加抽象，检索更加困难。对于特征语义层，可以通过图像的相似性来检索。对于用户来说，这一层并没有利用语义检索;对于上几层的语义检索，必须通过一定的知识推理，识别出图像所包括的对象、空间关系等;对于场景语义层、行为语义层、情感语义层以及更高层的语义层，必须对图形的场景、对象等进行高层推理，这是一个主观判断必须参与的过程。由于各用户的差异性，在检索的推理过程中必须体现个体的差异性。在这些层上，还需要有建立用户知识库的过程，知识库的好坏对检索结果的影响很大。

图9-4　语义层次与检索

2.语义提取模型

大多数图像语义提取方法使用多层抽取机制来支持图像的语义处理。这些层次可以通过图9-5来描述，它们分别对应于三个关键的处理过程:特征抽取、对象识别和基于领域知识推理的语义提取。

图9-5　图像语义抽取模型

抽取的图像特征主要包括颜色、纹理、形状等，且通常分为全局特征和局部特征两类。全局特征将整个图像视作一个单独的实体，它的主要优点是特征抽取和模式匹配算法的复杂度较低，而主要缺点是检索返回的结果中有很大比例的不相关图像;局部特征可以被用来识别图像中的显著对象，并抽取图像更多的细节信息。图像被分割成一系列区域，再对分割好的区域提取多种特征。每个区域表示一个潜在的用户感兴趣的对象，并且将由对象识别层进行对象的识别来提取更高层的语义。利用与领域对象相关的知识进行对象局部特征的提取，将提供一个更棒的索引和检索机制。

对象识别过程通过将存储在知识库中的对象模型与抽取的图像特征相匹配来识别图像中的对象。通常，对象模型是一个特定对象模板，在匹配过程中将检查每一个对象模板来获得最相似的匹配。通过精确匹配来识别对象计算复杂度较高，并且匹配的质量依赖于图像中对象的表现，由于同一对象在不同情况下获得的图像中通常表现出不同的特征，固定模板的精确匹配肯定无法取得好的效果。可变模板匹配是更加可行的方法，它通过先将原型摸板的轮廓施加概率变换，再将变换后的模板与输入图像中的显著边进行匹配。为了提高查询的成功率，并且保证好的候选图像不落选，在相似性度量中必然要用到一些模糊和统计的技术，而且人工对输出图像的检查通常不可避免。

基于领域知识的语义推理过程在识别出对象的基础上，利用知识库中的规则和方法，将对象和对象之间的空间关系映射到不同层次和粒度的语义。这一部分的关键问题是图像语义知识库的建立和如何利用知识库中的规则进行推理。由于语义的多样性，利用知识提取图像语义的过程，同样也需要采用一定的模糊技术。根据特定的领域知识库，可以提取特定的人所关心的语义，这样可以解决某些面向特定用户的语义问题。

3.语义提取方法

语义提取工作是图像语义检索中的一个难点问题，本节根据图像语义的划分来介绍各层的图像语义提取工作。

(1)对象类别及对象空间关系语义提取

图像语义检索系统早期的一个例子是GRIM_DBMS，它的目标是在一些特定的领域解释和检索线条图。这类系统使用了图像中对象类别及对象空间关系的语义，是早期语义图像检索系统的典型代表。图像中对象识别和空间关系语义的提取可以用图9-6简单描述。

先进行图像分割，然后提取区域的特征，再识别对象和对象的空间关系，这样的系统比较直观，在一定程度上也符合人们观察事物的顺序。KMed系统就是主要基于这样一种构架。识别出的事件和空间关系可以成为获得更高一层语义的基础，作为获得图像场景语义和图像描述的事件语义的辅助手段。在结合了特定的领域知识后，这类方法可以在特定的领域取得成功的应用。例如判断男士西服的类别，它根据西服是单排扣还是双排扣、扣子的数量、衬衫的颜色、领带的图案等，来判断西服样式是属于正式的、休闲的或是传统的。

图9-6　对象类别及对象空间关系的语义提取

对象空间关系的表示及它们的相似性匹配可以用2D String、空间方向图(Spatial Orientation Graph)等方法。但这些空间关系还只在空间拓扑的层次上，即上下、左右等。实际中可能需要更高一层的空间语义，例如前后、靠近、围绕等。这就需要应用领域和外部的知识，而这些空间关系的获得由于对象间的重叠和遮挡，相对来说比较困难。

(2)场景和行为语义提取

根据识别的对象、获得的对象空间关系以及图像的背景，结合场景语义的知识来进行场景分类是一种直观的想法。然而由于现实图像场景的复杂性，及目前通用对象识别技术还不成熟，这种方法还只在一些有限的领域得到运用。

在图像分割和对象识别技术的困难还不能有效解决的情况下，一些研究者采用了一些新的方法，这些方法的特点是绕过对象识别这一过程。Smith等提出了组合区域模板(Composite Region Template)的方法，就绕过了对象识别这一过程。Cheong Yiu Fung和Kai Fock Loe提出的方法最有代表性。这些方法也进行图像分割，但它的分割是对图像的固定分割，即将图像划分成固定大小的子块。然后对这些图像子块，分别确定其各自对应的语义类别，最后根据子块语义的组合关系来确定整幅图像的语义。这样的系统可以用图9-7来简单描述。

图9-7　固定划分图像的场景分类

由于每一个子块相对于整个场景来说在视觉特征方面比较一致，因此在特定的领域较容易映射到相应的语义。一旦子块的语义确定了，场景语义就能通过有效地使用现有的统计方法从子块的相关模式获得。而特定场景对应的子块组合模式可以通过训练集来学习获得。这方面最简单的场景分类是户内和野外场景分类，现在的实验系统一般是进行十来种场景的分类。

但是，同样由于现实场景的多样性，目前这样的系统一般也只能对特征比较明显的少数场景有一定的效果，还不能达到通用场景识别的目的。而对于行为语义，通常无法通过单幅图像来自动提取，往往要考虑图像序列的运动信息，或者纯粹通过人工的方法来进行。

(3)情感语义提取

图像的情感语义相对于前面几种语义来说具有更多的主观成分，它涉及人的认知模型、文化背景以及美学标准。目前只是在艺术图像这个特定领域对于图像的情感语义有了一定程度的研究。主要是由于艺术家在创造艺术图像的过程中，往往有意识地采用一些常用的艺术手法。而在这些艺术手法中，有艺术家们普遍认同的特定视觉特征和情感的对应。在艺术图像与心理学的关系的研究中，Arnheim探讨了艺术形式和视觉特征的关系，而Itten提出了艺术图像中颜色的使用与表达的语义之间的关系的理论。Itten发现不同的颜色组合导致诸如和谐、不和谐、平静和兴奋等效果。

在西方文化中，红黄色调导致温暖的感觉(暖色调)，并往往表达快乐、荣耀或者力量等情感。相反蓝绿色调导致冷的感觉(冷色调)，并常常表达平静、放松或者忠诚等情感。这些感觉可以通过反差对比来进一步加强。Itten提出了一个判断颜色组合是否和谐的Itten球模型。安定和快乐的情感可以通过和谐的颜色组合来传递，而不和谐的颜色组合让人感到不安。

另一个对图像的情感语义起作用的是图像中出现的主要线条的特性。实际上线条的倾斜度是经常被艺术家用来传达特殊情感的关键特征。例如，倾斜度大的线条表示某种活动，让人感到有活力，而倾斜度小的线条传达的是平静和放松的情感。

在以上艺术图像视觉心理学研究的基础上，Carlo Colombo，Alberto Del Bimbo和Pietro Plata等进行了艺术图像的语义检索的探索。他们首先建立了一系列将图像视觉内容映射到图像语义的规则，例如，颜色搭配和谐程度利用Itten球判断，而对快乐、紧张等多种情感，也建立了一系列规则，通过图像的颜色特征和线条特征再加上其他视觉特征来映射。这样就可以初步判断图像传达的感情是快乐还是悲伤，是让人紧张还是让人放松。在解释了艺术图像所传达的感情后，就可以结合图像的视觉内容来进行检索。

4.图像分割技术

图像分割就是指把图像分成各具特性的区域并提取出感兴趣的目标的技术。利用计算机进行图像处理有两个目的:一是产生更能适合人观察和识别的图像;二是希望能由计算机自动识别和理解图像。图像分割是图像处理中的经典难题，它的解决对图像高层次的处理(如特征提取、特征描述、模式识别及图像理解)具有重要的意义。

多年来人们对图像分割提出了不同的解释和表述，借助集合概念对图像分割，有如下定义。令集合R代表整个图像区域，对R的分割可看作将条件的非空子集R₁，R₂，…，R_N:

①Y^N

1R_i=R;

②对所有的i和j，i≠j，有R_i∩R_j=ō;

③对i=1，2，…，N，有P(R_i)=TRUE;

④对i≠j，有P(R_i∩R_j)=FALSE;

⑤对i=1，2，…，N，R_i是连通的区域。

其中P(R_i)是对所有在集合R_i中元素的逻辑谓词，ō代表空集。下面先对上述各个条件分别给予简略解释。条件①指出在对一幅图像的分割结果中全部子区域的总和(并集)应能包括图像中所有像素(就是原图像)，或者说分割应将图像中的每个像素都分进某个子区域中。条件②指出在分割结果中各子区域是互不重叠的，或者说在分割结果中一个像素不能同时属于两个区域。条件③指出在分割结果中每个子区域都有独特的特性，或者说属于同一区域中的像素应具有某些相同特性。条件④指出在分割结果中，不同子区域具有不同的特性，没有公共元素，或者说属于不同区域的像素应该具有一些不同的特性。条件⑤要求分割结果中同一个子区域内的像素应当是连通的，即同一子区域内的任两个像素在该子区域内互相连通，或者说分割得到的区域是一个连通组元。另外，上述这些条件不仅定义了分割，也对进行分割有指导作用。对图像的分割总是根据一些分割准则进行的。条件①与条件②说明正确的分割准则应可适用于所有区域和所有像素，而条件③与条件④说明合理的分割准则应能帮助确定各区域像素有代表性的特性，条件⑤说明完整的分割准则应直接或间接地对区域内像素的连通性有一定的要求或限定。最后需要指出，实际应用中图像分割不仅要把一幅图像分成满足上面5个条件的各具特性的区域，而且需要把其中感兴趣的目标区域提取出来。

主要的图像分割方法有:阈值法、基于边界检测技术的分割法、聚类方法、分割与合并相结合的方法。

5.基于图像主区域的语义提取

人们在观察一幅图像时，主要关注的是其中的前景对象和主要背景区域，这构成了图像的主要观察区。因此，只要提取主观察区内的语义，便能获得该图像的主要语义信息。基于这一直觉，我们提出了基于图像主观察区的语义提取方法。主观察区的获得必须基于图像区域分割，将图像分割为前景和背景两部分，然后分别对其建立语义模板，进而获取语义。其处理流程如图9-8所示。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈