数字图像概念和原理

时间：2022-03-10 理论教育版权反馈

【摘要】：在现代教育技术中，图像再现主要用后一种方法。数字图像内在的机制是用二进制数字阵列来表示图像，这些二进制的数据，加上一些格式描述数据，组成一个数字图像文件。像素彼此相邻，当数十万至数百万个像素拼合起来，便构成一幅数字图像。矢量图数字阵列中的每个数字也表示数字图像的一个最小单元。而矢量图由基本图形合成，放大显示时实际是比例因子变化。

3.5.1　数字图像概念和原理

1.图形与图像

通常，狭义地理解，可以认为图形（Graphics）由线条或色块（无过渡色）等组成，例如，几何图、工程图、教学示意图、卡通画一类，“形”字似可理解为对现实世界中真实景物的形的抽象。图像（Images）则更形象和具体，“像”字可理解为对现实世界中真实景物的写照，如照片、实景拍摄的电影电视、写实主义的绘画等。由于真实景物形状、位置、表面质地及照射光线的复杂性，图像的色调、（亮度）层次细腻，多过渡色。

实际上，上述两者的区分不是绝对的。在计算机领域，随着软硬件技术的迅速发展，更在使两者的创建和处理技术趋于交融。如在三维动画软件3ds Max中，通过建模的方法创建多边形（典型的几何图形），又通过贴材质、加灯光等，然后加以渲染（实际是按设定的条件进行计算）来产生效果图（逼真的图像）。因此，本教材对图形、图像这两个术语的用法不加严格区分。

2.数字图像

人类创建和使用图像至少已有几千年的历史了，起先是刻制或绘制（用刻刀、画笔等），后来还使用照相技术（用照相机、感光材料等）。数字化的图像，前提是如何用0、1这些二进制的数据来表示和存储图像（即构成所谓数字图像），以及如何创建（包括绘制、设计、直接拍摄或从模拟图像加以转换）和再现这些数字图像。对于传统绘画和摄影技术来说，存储和再现差不多是同一的。图像保存在纸或画布上，正常光线下，图像也再现其上。数字图像以计算机内在的电子方式（0、1或相应的高电平、低电平之类的状态区分）存储，直接看不到，必须通过一定的输出设备才能再现图像。一种方法是利用打印机或绘图仪，仍把图像再现在纸上，成为所谓硬拷贝。另一种方法是利用类似电视、投影的技术，把图像动态地再现在显示屏（CRT、液晶以及液晶投影）上。在现代教育技术（如多媒体教学）中，图像再现主要用后一种方法。很显然，这种方法，只要计算机不工作了，图像就不再显示。事实上，显示屏幕上，各个位置或点（相当于像素，由荧光物质构成的颗粒，被电子束打到时会发光）在时间上是轮流被电子束打击，逐个先后发光的。由于电子束的扫描很快（少于1/50秒的时间内，每个像素都能被电子束扫到而发光），再加上人眼的视觉暂留效应，实际感受到的是完整的视觉图像。显示器件常见的有CRT（阴极射线管）、LCD（液晶显示器）等，发光的原理有所不同，但扫描的机制相类似。数字图像内在的机制是用二进制数字阵列来表示图像，这些二进制的数据，加上一些格式描述数据，组成一个数字图像文件。

3.位图与矢量图

根据数字图像内二进制数字具体对应的图像结构的最小单元，数字图像可以分为位图和矢量图两大类。

（1）位图（Bitmap），也可理解为像素图。“像素”（Pixel）是由Picture和Element这两个单词所组成的，是组成位图图像的最基本元素。像素彼此相邻，当数十万至数百万个像素拼合起来，便构成一幅数字图像。若把位图放大多倍，能观察到其中的连续色调区域其实是由许多色彩相近的小方块所组成（参见图3‐10），这些小方块可以看做是显微镜下的“像素”。位图数字阵列中的每个数字（一串二进制位）就对应到像素，具体表达该像素的颜色属性。类似化学中将物质分解到化学元素（原子）为止，位图也只能将数字图像分解到像素为止。一个像素只能有一个颜色属性，不再能够分解。位图的数字阵列结构通常对应（映射）到长×宽个像素的矩形图像结构。数字阵列中每一数字（一串二进制位）则映射到矩形图像的某一个像素。所以位图全称为位映射图，即“bitmap”，这里“bit”的意思是“位（比特）”，“map”的意思是“映射”。

（2）矢量图，也可理解为图元图。矢量图数字阵列中的每个数字也表示数字图像的一个最小单元。但这个最小单元不是像素，而是矢量，有时也称图元。这里的矢量（Vector）或图元（Meta）数据表示一个简单的基本图形，如线段、三角形、圆形等，以及其颜色、位置、方向（旋转）、放大比例等。通过大量的基本图形，可以合成复杂的图形。例如，MS Office附带的大量剪贴画，属于矢量图，其文件扩展名为“.wmf”，即“Windows Meta File （图元文件）”，还有一种加强的格式，为“.emf”。

位图与矢量图由于其内在图像信息机制的区别，也带来诸多不同的特点，如：

（1）位图可由软件工具绘制而成（如Windows自带的“画图”软件），但更多的由扫描仪、数字相机等得到。矢量图则主要由专业的图形工具绘制，如Corel‐Draw、Illustrator、Flash、Visio等。支持图形应用的编辑工具，包括Word、Power‐Point、Flash、Authorware等，其内部自带工具绘制的图形也属于矢量格式。

图3‐10　位图（左）与矢量图的比较

（2）位图是由大量不同亮度和颜色的像素所组成，文件尺寸较大，但可以很好地反映明暗的变化、复杂的场景和颜色，从而表现逼真的效果，如图3‐10左边所示。矢量图则使用简单的基本图形来合成图形，文件一般较小，画面简洁，适合表现几何结构图（如3D建模）、示意图、卡通图等，如图3‐10右边所示。

（3）位图由有限个像素组成，通常以“长×宽”的方式表示，即水平方向的像素数乘以竖直方向的像素数。当位图被强行放大显示时，显示器上多个像素的位置只能由一个像素的颜色信息来重复填空，就会出现锯齿或马赛克效应，不能保持清晰。而矢量图由基本图形合成，放大显示时实际是比例因子变化。如一个圆形，放大就是将半径放大，如同调整圆规重新画一次，所以能够始终保持清晰。两者的比较如图3‐10所示，左边位图右下角圆圈内是放大24倍的情况，一块马赛克就由24×24个像素组成，实际只能由一个像素的颜色填空。图3‐11所示的也是位图与矢量图的放大比较，左边放大后位图的线条呈现锯齿现象。

图3‐11　位图放大的锯齿效应

（4）位图和矢量图编辑处理的思路、方法不同，软件工具往往也不同。矢量图基本图元及其属性的定义各个软件不容易标准化，也即矢量图形格式多样化，互相之间很难交换。矢量图可以方便地转化为位图，反过来就基本做不到或效果很差。位图处理的基本对象就是像素，即改变某些像素的属性（其实就是颜色）。通过多样化的像素选择工具，可以选择合适的像素集合进行批量处理，从而提高效率。层、通道、滤镜等概念和工具的引入，进一步增强了处理的效果或效率。矢量图的创建往往是对基本图形进行调整、叠加和合成，所以后期应用（包括某些著作工具，如PowerPoint、Flash、Author‐ware等）再处理比较灵活方便。除了可以方便的，不加失真的放大、缩小或旋转等以外，还可以将其解组，分解为基本图形，分别处理或增删后，再合成（组合），得到需要的效果。图3‐12所示为剪贴画（.wmf）在多媒体设计工具中被解组后的情况，一个对象分解为了许多个基本图形。

图3‐12　矢量图的分解和组合

4.位图的像素尺寸、颜色深度、色彩模型与屏幕显示

（1）位图的一个要素是其解析度，也称像素尺寸（Resolution，常翻译成分辨率），即所包含像素的数量，且用“长×宽”的方式表示，即水平方向的像素数乘以竖直方向的像素数。在显示器件和显示模式确定的情况下，单位尺寸的像素数也确定。这时图像像素尺寸大，像素多，就意味着占有的尺寸或面积也大。显然，位图的整个数据量也跟像素数量成比例。位图的总像素数大，则图像信息量大，包含的细节数多。相同解析度的位图文件，有可能打印成不同尺寸的图像。这时候，打印（显示）成小尺寸图像，单位尺寸的像素多，看起来就清晰细腻。单位尺寸的像素数也称为分辨率，常用的单位为dpi（Dot Per Inch），意即每英寸的点（像素）数。注意不要与上述像素尺寸相混淆。图像的像素尺寸关注的是像素总量。这里用dpi度量的分辨率指的是单位物理尺寸内的像素量，主要影响打印输出的精度或清晰度。两者容易混淆的原因是由于技术发展的历史，都用英文单词Resolution表示。图像文件的像素尺寸通常能够在文件属性中显示（如果通过右键菜单看属性，要选“摘要”标签，必要时选择一下“高级”按钮）。

图3‐13　位图的颜色深度示意

（2）位图的另一个要素是其颜色深度。一个位图文件，描述其单个像素属性（即颜色）的二进制数据位数固定，也称该位图的颜色深度或位深度。颜色深度越大，描述单个像素的二进制位数越多，可以表达的颜色种类也就越多。整幅图像的颜色就有可能更加丰富多彩。图3‐13所示为位图的颜色深度示意。如位深度为1，就只能区分或表达两种状态，通常就是“非黑即白”。24位二进制数（通常给红、绿、蓝三种分量各分配8位）则能区分2的24次方（约1600万）种颜色，已经超过人眼能够区分的范围，也称真彩色（True Color）。（3）由RGB（Red、Green、Blue，即红、绿、蓝）三种分量（也称三基色或三原色，各8位二进制数）的合成（加色法）来表达颜色，也是计算机、显示器、电视机等最常用的色彩模型。RGB三个分量确定，像素的颜色就确定，这里的所谓颜色确定，意味着色调、饱和度、亮度也确定。事实上，后三者，即色调、饱和度、亮度构成另一种等价的色彩模型，即HSL色彩。色彩体系涉及色彩的表达和调整，在设计图形的计算机应用中几乎都要用到，如图3‐14所示，是一个典型的调色板，两种彩色体系同时可使用。在许多多媒体，如网页html代码、多媒体编著工具的脚本语言中，往往也采用RGB色彩模型，并且用16进制数字来表示RGB值，形如“＃******”。其中“＃”号表示16进制，“＃”号后面两位为红色分量，中间两位为绿色分量，最后两位为蓝色分量。如“＃ffffff”、“＃000000”、“＃ff0000”、“＃00ff00”、“＃0000ff”、“＃ffff00”、“＃00ffff”、“＃ff00ff”分别表示白、黑、红、绿、蓝、黄、青、紫等。RGB色彩模型跟显示器尤其容易配合。因为显示器通常也采取红、绿、蓝三种分量来合成颜色。数据投影仪（显示器）与显卡之间通过VGA接口连接。连接电缆中有三根信号线就分别传输红、绿、蓝三种色彩分量信号。其中有分量信号线接触不良，就会造成偏色并且暗淡。如蓝色信号缺失，整个色调会偏黄，并且屏幕整体暗淡。还有一种CMYK色彩模型，常用于彩色印刷中。CMYK分别代表青（Cyan）、品红（Magenta）、黄（Yellow）、黑（Black），这是一种基于反光的（减色的）色彩体系。CMYK值是以浓度0%～100%来表示，不同浓度叠加会产生不同的色彩。理论上相同浓度的CMY叠加，则会变成黑色，但实际混合色料后并不会呈现黑色而是暗灰色，所以将黑色独立出来，增加印刷时颜色的范围。

图3‐14　计算机彩色的两种彩色体系

（4）除了黑白图像和真彩色图像，流行的位图图像中，还存在位深度为4、8、16、32等情况。以8位位深度为例，可以表达256种不同颜色，但具体一个8位二进制究竟表示什么颜色，往往通过一个颜色索引表来确定，称为索引彩色。这样的好处是可以根据需要或原始图像的颜色具体分布情况来优化取值。如256种颜色都取不同程度的灰色，就成了层次丰富的灰度图。显然，位深度越大，每个像素信息存储和处理开销也越大。索引彩色通过减小位深度，能够适当地减小图像文件的数据量。总的位图文件数据量就可由公式“位深度×像素总数”，或“位深度×长（像素数）×宽（像素数）”来计算。现在流行的数字相机，像素总量往往达1000万，真彩色记录，拍摄的照片如不经压缩，一幅的数据量就达到3字节×10000000＝30MB，即30兆字节。这里未包括描述格式、属性等的文件头尾信息，但这部分信息其数据量很小，可以忽略。

（5）与位图像素尺寸密切相关的还有一个重要的概念是显示器（屏幕）的解析度（其实也可理解为屏幕的像素尺寸）。如目前学校计算机最常用的设置是“1024×768”，教学上与计算机配合使用的数据投影仪也是以这个指标为多。当然有些笔记本电脑采用宽屏的LCD，可能为“1280×800”等。注意，虽然显示器的分辨度通常都可以人为设定，如在Windows桌面右键单击，选“属性/设置”，即可看到并设置屏幕分辨度。但一台显示器实际上存在一个最合理的，通常也是默认的分辨率。如学校或家用台式机的普通显示器，无论CRT或LCD，目前多为“1024×768”。专门同于图形工作的大尺寸显示器，则默认的（最优的）屏幕解析度会大一些。作为教学应用，数字图像的主要用途是在显示器上显示，所以要理解并把握好两者之间的关系。当计算机在正常显示（不放大缩小）位图图像时，屏幕上的一个像素就对应着位图的一个像素。一幅位图的像素尺寸，映射到屏幕上相应的像素尺寸和位置，如图3‐15所示。同样大小的一幅位图，如果在使用800×600解析度的计算机上充满整个屏幕的话，那么在使用1024×768解析度的计算机上图像则只能占据屏幕的一部分。由此可见，图片的像素尺寸，应根据其在屏幕上占有的比例来取舍或处理，参考图3‐15。如需要一幅教学图像正好在“1024×768”的显示器（投影仪）上全屏幕显示，它的文件图像尺寸就最好也是“1024×768”。如果用一幅像素尺寸小的位图，通常可以令其放大到全屏幕显示，但清晰度低，可能出现边缘锯齿现象甚至马赛克现象，如图3‐10、图3‐11所示。如果将上面提到的1000万像素的数码照片直接用到这里（缩小到全屏幕），则虽然看似画面效果一样，但无论存储还是（CPU和内存的）处理，都存在几乎10多倍的浪费，显示的过程也难以流.。

图3‐15　位图和显示屏幕的对应关系

5.位图的压缩与图像文件常见格式

前面提到位图的数据（文件）尺寸往往很大，影响其多媒体应用，尤其是依赖网络传输的Web网页。随着信息压缩技术的发展，对于位图也发展出多种压缩技术，使得尽可能的精简数据量。图像压缩可分为无损压缩和有损压缩两大类：

（1）无损压缩，利用信息的所谓冗余，如尽可能将相同颜色的像素数据合并表示和存储。无损压缩通常对图形类的，颜色层次有限的图，如文字、示意图、卡通画一类的压缩率很高，且可完全地还原原始信息。无损压缩对于颜色连续过渡的图像类（颜色种类很多，相邻像素颜色完全一样的机会少），如照片等，压缩率非常有限。

（2）有损压缩，利用人眼分辨能力，尤其是彩色分辨能力有限的特点，删除某些信息。实用的有损压缩机制通常也结合无损压缩，典型的如所谓JPEG的压缩标准。JPEG能够对大多数照片提供10∶1左右的压缩率，而人眼很难观察出来。由于有损压缩对原始信息作了简化等操作，压缩后不能完全还原原始信息。

由于包括图像信息表示方法和压缩方法在内的图像信息内在信息结构的区别，图像文件存在许多不同的格式，并且通常反映在其文件扩展名的区别。常见的位图格式有BMP、GIF、JPG、PNG和TIF等。在多媒体等屏幕显示应用中最常见的矢量图格式是WMF。常用到的图像文件格式说明如下：

（1）BMP（Bitmap，位映射图）是标准的位图格式，支持真彩色、索引彩色到黑白等各种颜色模式，未经任何压缩，显示速度快，但现在慢慢用得少了（网页中尤其少用，主要考虑传输速度）。

（2）GIF（Graphics Interchange Format，图像交换格式）格式采用索引彩色，不支持真彩色，采用无损压缩。GIF在示意图、文字图、卡通画等情景下压缩率很高，并且还支持简单的多帧动画，是包括网页在内的多媒体作品中大量采用的格式。

（3）JPG（Joint Photographic Experts Group，联合图像专家组）采用JPEG有损压缩方法，对照片等连续色调的图像压缩率很高且视觉效果不错。跟GIF一样是目前应用最多的位图格式，包括很多数字相机现在也开始直接采用JPG格式（取代保真度高，但文件数据量大的RAW格式）保存。网页中的照片基本都采用JPG格式。

（4）PNG（Portable Network Graphics，便携式网络图形）是一种快速崛起的格式，其显著特点之一是支持Alpha（透明）通道，采用无损压缩，且对索引彩色和真彩色均能支持，能够在网页和其他多媒体应用中更好地融入场景。

（5）PSD是最著名的图像处理软件“Photoshop”的专用格式，包含层等很多结构信息，便于进一步编辑。

（6）TIF（Tagged Image File Format，标记图像文件格式）在扫描仪中用得很多，包括用于OCR（光学字符识别）的原始扫描图像，其他在印刷行业也广泛使用。

（7）WMF（Windows Meta File）基于矢量图，大量的Office剪贴画是这一种格式，在多媒体教学中非常实用。一些矢量图形工具如Visio、Flash等能够导出这种格式，但有时兼容性不理想。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈