首页 理论教育 提取三维信息

提取三维信息

时间:2022-02-11 理论教育 版权反馈
【摘要】:操纵和导航等行动典型地是通过一个控制回路装置完成的:传感器信息提供反馈来修改机器人或机械臂的运动。对于圆柱体来说,在平行于轴线的方向上没有变化,而在垂直于轴线的方向上,法向量将以反比于圆柱体半径的速率旋转,诸如此类。一个基础问题是:假定在透视投影的过程中,过针孔的一条光线上的所有点都被从三维世界投影到图像上的同一点,我们如何恢复三维信息?

在本节中我们将说明如何从二维图像出发得到场景的三维表示。对场景进行推理是很重要的,因为毕竟智能体生活在世界中,而不是生活在图像平面上,视觉的目标是能够与世界中的物体进行相互作用。然而,大多数智能体所需要的仅仅是对场景某些方面的有限抽象表示,而不是全部细节。我们在本书其它部分中已经见到一些依赖于对物体的简洁描述对世界进行处理的算法,并不需要彻底枚举三维表面上的每一小块。

首先我们将讨论物体识别,也就是将图像特征(比如边缘)转换成为已知物体(例如订书器)的模型的过程。物体识别由3个步骤组成:将场景分割成独特的物体,确定每个物体相对于观察者的位置和方向,并确定每个物体的形状。

发现物体相对于观察者的位置和方向(所谓物体的姿态)对于操纵和导航任务来说是最为重要的。为了在一个拥挤的工厂车间里走动,需要了解障碍物的位置,从而能够规划出一条路径避开它们。如果想要拾起并抓住一个物体,就需要知道该物体相对于手的位置,从而可以生成合适的运动轨迹。操纵和导航等行动典型地是通过一个控制回路装置完成的:传感器信息提供反馈来修改机器人或机械臂的运动。

让我们用数学语言对位置和方向进行描述。在以针孔为原点,光轴(图24.1)为Z轴的坐标系中,场景中一点P的位置可以用由3个数值表示的坐标 (X, Y, Z) 刻画。我们所能得到的是该点到图像上透视投影坐标(x, y)。这样就确定了一条从针孔发出通过P点的射线。这两点之间的距离是未知的。名词“方向”含有两重含义:

(1)物体作为一个整体的方向。这可以用物体坐标系相对于照相机坐标系的三维旋转量来描述。

(2)在P点处物体表面的方向。这可以用物体表面单位法向量n来描述——它是指明与物体表面垂直的方向的向量。通常我们用变量slant(倾角)和tilt(斜角)来表示表面方向。倾角(slant)是Z轴和n之间的角度。斜角(tilt)是X轴和n在图像平面上的投影之间的角度。

当照相机相对于物体运动时,物体的距离和方向都在改变。只有物体的形状是不变的。如果该物体是个立方体,那么无论怎么运动它还是立方体。若干世纪以来,几何学家曾想方设法对形状进行形式化描述,其基本的概念是在某些变换群下,例如旋转和平移的组合,保持不变的属性即为形状。其困难在于,需要找到一种对全部形状的表示方法,它应该足够通用,可以适用于真实世界中形形色色的物体——而不只是诸如圆柱体、圆锥体和球体之类的简单形式——同时又易于从视觉输入中发现。对表面的局部形状刻画问题的理解,则要深入得多。本质上,可以从曲率的角度来完成:当在表面上向不同方向运动时,表面法向量是如何变化的。对于平面来说,根本不存在任何变化。对于圆柱体来说,在平行于轴线的方向上没有变化,而在垂直于轴线的方向上,法向量将以反比于圆柱体半径的速率旋转,诸如此类。这些都是被称为微分几何学的学科所研究的课题。

物体的形状与一些操纵任务(例如确定物体可以被抓住的部位)有关,不过它最重要的用途是物体识别,其中几何形状与色彩、纹理一起提供了最有效的提示,使我们能够辨识物体,以及对图像内容按已知类别进行分类,等等。

一个基础问题是:假定在透视投影的过程中,过针孔的一条光线上的所有点都被从三维世界投影到图像上的同一点,我们如何恢复三维信息?在视觉刺激里有不少提示可用于此,包括运动、双目立体视觉、纹理、阴影和轮廓。为了提供(近似)无歧义的解释,这些提示取决于对实际场景的背景假设。我们将在下面的5个小节中分别对这些提示进行讨论。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈