首页 百科知识 图像获取及处理软件和方法有哪些

图像获取及处理软件和方法有哪些

时间:2022-11-08 百科知识 版权反馈
【摘要】:长期以来,人们一直在追求改善和提高信息处理的技术,其大致可划分为三个时期。第一次信息处理技术革命的标志是语言的出现和使用。第二次信息处理技术革命的特征是文字的发明和使用。第四次信息处理技术革命的特点是电报、电话、广播和电视的使用。这一信息处理时期经历了单项处理、综合处理两个阶段,现在已发展到系统处理的阶段。计算机处理时期以第五次信息处理技术革命为标志。计算机作为信息处理工具,其存储、处理、传输信息

信息处理技术(Information Processing Technology)是指用一定的算法和计算机技术及计算机等工具按一定的目的要求及精确度处理图形、图像、影像、声音、文字、符号、数据、动画等的方法及对处理结果进行采集、存储、传递、加工和输出的过程。随着智能交通采集手段及分析技术的快速发展,交通信息采集已从静态、人工采集向动态、自动采集转变,从单一模式采集向多模式、多方法采集转变,因此信息处理技术也不断进步。

3.5.1.1 信息处理技术的发展历史

有信息就有信息处理。人类社会中很早就出现了信息的记录、存储和传输,原始社会的“结绳记事”就是指以麻绳和筹码作为信息载体,用来记录和存储信息。文字的创造、造纸术和印刷术的发明是信息处理的第一次巨大飞跃,计算机的出现和普遍使用则是信息处理的第二次巨大飞跃。长期以来,人们一直在追求改善和提高信息处理的技术,其大致可划分为三个时期。

1)手工处理时期

在手工处理时期,人们用人工方式来收集信息,用书写记录的方式来存储信息,用经验和简单手工运算来处理信息,用携带存储介质的方式来传递信息。信息人员从事简单而烦琐的重复性工作。信息不能及时有效地被输送给使用者,许多十分重要的信息来不及处理。

手工处理时期伴随着第一次和第二次信息处理技术上的革命性进步。第一次信息处理技术革命的标志是语言的出现和使用。在史前阶段,人类以手势、眼神、动作或某种信号(如点燃烽火、敲击硬物等)传递信息,用感觉器官接受各种自然信息,并与之相适应。但当时信息处理的器官——大脑还不发达。自从人类认识到火的作用这一系统信息以后,从茹毛饮血进而到吃熟食、取暖、制陶、冶炼,从单纯适应客观世界变成利用信息来改造世界,这扩大了人类活动和交际的范围。在生产活动和社会活动中,人们需要不断交流信息,于是就产生了语言。语言因此成为人类信息交流的第一载体。语言是人类区别于其他生物的重要特征,并始终对人类社会的发展和人类文化的演进有着重要影响。因为人的逻辑思维离不开语言,语言是思维的工具,同时语言又是人类进行意识交流和信息传播的工具。通过语言进行信息交流,不但使人类获得了大量的信息,它同时也促进了人类信息处理器官——大脑的进一步发展。人类依靠大脑储存信息,通过语言进行信息的交流和传播。

第二次信息处理技术革命的特征是文字的发明和使用。人脑漫长的进化过程及语言的使用,是人类开发和利用信息资源的早期阶段。大约在公元前3500年文字出现了。文字的发明为人类信息资源的开发和利用树起了一个重要的里程碑。在这个时期,除了用语言传播信息外,文字成为人类信息交流的第二载体。人类的大脑不仅依靠感觉器官直接与外界保持联系,而且还可以依靠语言和文字间接地与外界保持联系。文字的出现使人类信息的储存与传播方式取得了重大突破。文字把人类智慧、思维成果记载下来,可以长久地储存,并可以传递给他人或后人。文字极大地突破了时间和地域对人类的限制,在人类知识积累和文明发展的过程中发挥着十分重要的作用。但在这一阶段,信息是人以手工篆刻或抄写在诸如竹片、石头、织物、纸张等物体上的。手工方式不仅耗费了巨大的劳动,使信息的积累和传递代价高昂,而且积累的量小,速度也慢。

2)机械信息处理时期

随着科学技术的发展,以及人们对改善信息处理手段的追求,机械式和电动式处理工具,如算盘、出纳机、手摇计算机等逐渐出现了,它们在一定程度上减轻了计算者的负担。以后又出现了一些较复杂的电动机械装置,它们可把数据在卡片上穿孔并进行成批处理和自动打印结果。同时,电报、电话的广泛应用,也极大地改善了信息的传输手段,机械式处理比手工处理提高了效率,但没有本质的进步。

机械信息处理时期的。以第三次和第四次信息处理技术革命为标志。第三次信息处理技术革命的标志是印刷术的发明。大约在11世纪的北宋时期,毕昇发明了活字印刷技术,在15世纪中期,德国人J·谷登堡发明了现代印刷技术。文字的发明促进了信息的大量积累,印刷技术的发明则把文字信息的传播推向了新的高度。将积累的信息按需要收集起来,并加以系统化地整理,便形成了知识。印刷技术的使用有利于对文字信息和知识进行大量生产和复制,促进了知识的广泛传播,充分发挥了知识的作用。此后,报刊和书籍成为人类的重要信息储存和传播媒介,极大地促进和推动了思想的传播和人类文明的进步。

第四次信息处理技术革命的特点是电报、电话、广播和电视的使用。1844年在美国的华盛顿和巴尔的摩之间开通了世界上第一个电报业务,1876年贝尔发明了电话,1895年马可尼发明了无线电,1923年英国广播公司(BBC)在全国正式广播,1925年电视在英国首次播映。电报、电话、广播、电视等科学技术的发展,使人类进人利用电磁波传播信息的时代。以电磁波为载体传播信息,使人们突破了空间的限制,不但可以使人们在信息发出的瞬间收听到语言和音响信息,还可以收看到图像和文字,于是电磁波便成为人类信息交流的第三载体。与此同时,知识和信息还继续以报纸、杂志、书籍等形式广泛传播,这使信息被传递普及到整个社会。

3)计算机处理时期

随着计算机系统在处理能力、存储能力、打印能力和通信能力等方面的提高,特别是计算机软件技术的发展,使用计算机越来越方便,加上微电子技术的突破,微型计算机日益商品化,从而为计算机在管理上的应用创造了极好的物质条件。这一信息处理时期经历了单项处理、综合处理两个阶段,现在已发展到系统处理的阶段。这样,不仅各种事务处理达到了自动化,大量人员从烦琐的事务性劳动中被解放出来,提高了效率,节省了行政费用,而且由于计算机有高速运算能力,信息处理及数据挖掘极大地提高了信息的价值,能够及时地为管理活动中的预测和决策提供可靠的依据。

计算机处理时期以第五次信息处理技术革命为标志。第五次信息处理技术革命的特征是信息技术,信息技术的核心是现代的计算机技术和通信技术的融合。1946年美国人发明了第一台电子计算机,1957年,苏联发射了第一颗人造卫星。计算机的发明和现代通信技术的使用把人类开发利用信息资源的技术推进到了计算机通信的新阶段。计算机与通信技术的结合不是简单的相加,而是产生了惊人的放大效应。计算机作为信息处理工具,其存储、处理、传输信息的能力是当今任何其他技术无法与之相比的。现在,以计算机为核心的信息技术几乎涉及人类社会的各个方面,从经济政治,从生产到消费,从科研到教育,从社会结构到个人生活方式。

3.5.1.2 信息处理技术

信息处理技术是对信息载体(图形、图像、影像、声音、文字、符号、数据、多媒体动画等)进行处理的技术。广义的信息处理是对各种数据进行采集、存储、组织、加工、提取和传输等操作。现代信息处理技术包含电子技术、多媒体技术、模拟技术、数字技术、通信技术、网络技术等,其具体的数学方法可有概率统计方法、数学变换方法、模式识别方法等。下面对图形图像信息处理技术、影像声音处理技术、数据处理技术、多媒体处理技术进行概述。

1)图像影像信息处理技术

图像影像是最重要的信息。广义的图像应包括图形和图像,文字符号也可被认为是图形;广义的影像应包括影像和声音,也称视频和音频。这里按图形图像、视频、音频三个方面介绍图像影像信息处理技术。

(1)图形图像信息处理技术。

图形图像是一种可视化的信息,图像信号是图像信息的理论描述方法,图像信号按其内容变化与时间的关系分为静态图像和动态图像两种。图形及图像文件基本上可以分为位图和向量图两大类。为了适应不同应用的需要,图像可以用多种格式进行存储。

图像按其亮度等级可分为二值图像和灰度图像;按其色调可分为黑白图像和彩色图像;按其所占空间的维数可分为平面的二维图像和立体的三维图像等。

图像信号的记录、存储和传输可以采用模拟方式或数字方式。以前在电视上所见到的图像就是以模拟电信号的形式来记录的,并依靠模拟调幅的手段在空间传播。现代的数字电视采用数字信号。将模拟图像信号经A/D变换后就得到数字图像信号,数字图像信号便于进行各种处理,计算机视频就是数字信号。数字图像具有长期保存不失真、分辨率高、数据量大、相关性强等特点,可以充分利用现代信息处理技术。

对于黑白图像信号,每个像素点用灰度级来表示,若用数字表示一个像素点的灰度,需要8bit。彩色视频信号基于三基色原理,每个像素点由红(R)、绿(G)、蓝(B)三基色混合而成。若三个基色均用8bit来表示,则每个像素点就需要24bit。由于构成一幅彩色图像需要大量的像素点,图像信号采样、量化后的数据量就相当大,不便于传输和存储。为此,人们利用人的视觉特性降低彩色图像的数据量,这种方法往往把RGB空间表示的彩色图像变换到其他彩色空间,每一种彩色空间都产生一种亮度分量和两种色度分量信号。常用的彩色空间表示法有YUV、YIQ和YCbCr等。

数字图像处理(Digital Image Processing)是通过计算机对图像进行去除噪声、增强、复原、分割、提取特征等处理的方法和技术。数字图像处理最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。数字图像处理作为一门学科大约形成于20世纪60年代初期。早期的图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输人的是质量低的图像,输出的是改善质量后的图像,常用的图像处理方法有图像增强、复原、编码、压缩等。1972年英国EMI公司的工程师Housfield发明了用于头颅诊断的X射线计算机断层摄影装置CT(Computer Tomograph)以实现图像重建。1975年EMI公司又成功研制出全身用的CT装置,获得了人体各个部位鲜明清晰的断层图像。从20世纪70年代中期开始,人们开始研究如何用计算机系统解释图像,实现类似人类的视觉系统理解外部世界,这被称为图像理解或计算机视觉,其中具有代表性的成果是20世纪70年代末MIT的Marr提出的视觉计算理论。

数字图像处理技术在国内外的发展十分迅速,应用也非常广泛,但还没有广泛适用的研究模型和齐全的质量评价体系指标,多数方法的适用性都随分析处理对象而异。图像信息处理的主要目的有提高图像质量、提取图像特征、图像变换和压缩三个方面。提高图像质量的方法进行图像的亮度、彩色变换,增强、抑制某些成分,对图像进行几何变换等;提取图像特征是模式识别或计算机视觉的预处理,提取的特征包括频域特征、灰度或颜色特征、边界特征、区域特征、纹理特征、形状特征、拓扑特征和关系结构等;图像变换和压缩的方法是通过编码改变格式以便于图像的存储和传输。不管是出于何种目的的图像处理,都需要由计算机和图像专用设备组成的图像处理系统对图像数据进行输人、加工和输出。

数字图像处理的常用方法有图像变换、图像编码压缩、图像增强和复原、图像分割、图像描述、图像分类等。图像变换通常采用各种方法,如傅里叶变换、沃尔什变换、离散余弦变换等,将空间域的处理转换为变换域处理,这不仅可减少计算量,而且可获得更有效的结果。小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。图像编码压缩技术可在不失真的前提下或允许的失真条件下减少描述图像的数据量,以便节省图像传输、处理的时间和所占用的存储器容量。图像增强和复原的目的是提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中人们所感兴趣的部分,如强化图像高频分量,可使图像中的物体轮廓清晰,细节明显,而强化低频分量可减少图像中噪声的影响。图像复原要求对图像降质的原因有一定的了解,一般应根据降质过程建立降质模型,再采用某种滤波方法,恢复或重建原来的图像。图像分割是将图像中有意义的边缘、区域等特征部分提取出来,这是进一步进行图像识别、分析和理解的基础,但还没有一种普遍适用于各种图像的有效方法。图像描述是图像识别和理解的必要前提,作为最简单的二值图像可采用其几何特性描述物体的特性,对一般图像采用二维形状描述,它有边界描述和区域描述两类方法,对于特殊的纹理图像可采用二维纹理特征描述,目前人们已经开始进行体积描述、表面描述、广义圆柱体描述等三维物体描述方法的研究。图像分类属于模式识别的范畴,其主要内容是对图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类,其有统计模式分类、句法(结构)模式分类、模糊模式识别和人工神经网络模式分类等方法。数字图像处理常用的编程语言有C语、Matlab等。

一幅图像内部以及视频序列中相邻的图像之间有大量的冗余信息,除一般的时间和空间冗余外,在一般的图像数据中,还存在着信息熵冗余、结构冗余、知识冗余、视觉冗余等冗余信息。利用这些冗余信息,按预测编码、交换编码、具有运动补偿的帧间预测编码确定压缩编码技术,其基本目标就是减小数据量。

数字视频图像的压缩编码标准有着广泛的应用,典型的应用有:可视电话、视频会议、数字式视频广播、视频邮件、视频游戏以及视频形式的教育和娱乐等。这些应用按照其视频质量划分,大致分为以下三类:①低质量视频,画面较小,通常为QCIF或CIF格式,帧速率为5~10帧/s,既可为黑白视频也可为彩色视频,其典型应用包括可视电话、网络视频游戏、视频邮件等;②中等质量视频,画面中等,通常为CIF或CCIR601格式,帧速率为25~30帧/s,多为彩色视频,其典型应用有会议电视、远程教育、远程医疗等;③高质量视频,画面较大,通常为CCIR601格式至高清晰度电视视频格式,帧速率大于等于25帧/s,多为高质量的彩色图像,其典型应用包括广播质量的普通数字电视、高清晰度电视等。

针对上述三种质量的视频应用,国际上制定了相应的视频压缩编码标准:H.261、H.263、MPEG-1、MPEG-2和MEPG-4等。

空间冗余性可以借由“只记录单帧画面的一部分与另一部分的差异性”来实现帧内压缩(intraframe compression),而时间冗余性则可借由“只记录两帧不同画面间的差异性”来实现帧间压缩(interframe compression),包括运动补偿以及其他技术。目前最常用的视频压缩技术为DVD与卫星直播电视所采用的MPEG-2,以及因特网传输常用的MPEG-4。

常见的图形文件的格式有BMP、GIF、JPG、TIF、TGA、PCX、PCD、PCX、PIC等多种。不同格式的图像可以通过工具软件来转换。BMP(bitmap)是一种与设备无关的图形文件格式,它是标准Windows和OS/2的图形图像的基本位图格式,BMP文件格式支持黑白、16色和256色的伪彩色图像以及RGB真彩色图像。随着Windows的普及,BMP的应用越来越广泛。GIF(Graphic Interchange Format)是由Compu-Serve公司在1987年6月为制定彩色图像传输协议而开发的一种压缩图像存储及图形交换文件格式,该格式的压缩比高、文件长度小,支持黑白、16色和256色的静态、动态两种形式的彩色图像,主要用于在不同平台上进行图像交流和传输及网页制作。JPG是在Apple Mac机器上使用的一种图像格式,使用JPG方法进行图像数据压缩近年来十分流行。TIF格式由Aldus公司和微软公司合作开发,最初用于扫描仪和桌面出版业,是工业标准格式,支持所有图像类型。TGA是Truevision公司为支持Targe和Visa图像采集卡而设计的文件格式,TGA图形文件格式的应用也越来越广泛。PCX图形文件格式是Zsoft公司研制开发的,主要用于商业性PC Paintbrush图形软件,PCX文件包括各种单色的图形文件、不超过16种颜色的图形文件和具有256色和16色的不支持真彩色的图形文件。PCD是柯达公司开发的电子照片文件存储格式,是Photo-CD的专用存储格式,一般都存在CD-ROM上,读取PCD文件要用柯达公司的专门软件。除了上述几种常用的图像文件格式外,其他格式还有:CorelDRAW默认图像文件格式(∗.cdr)、Photoshop默认图像文件格式(∗.psd)、CAD中使用的绘图文件格式(.dxf)、柯达数码相机支持的文件格式(.fpx)、Windows的图元文件格式(∗.wmf)等。

数字图像处理的工具可分为三大类:第一类包括各种正交变换和图像滤波等方法,其共同点是将图像变换到其他域(如频域)中进行处理(如滤波)后,再变换到原来的空间(域)中;第二类方法是直接在空间域中处理图像,它包括各种统计方法、微分方法及其他数学方法;第三类是数学形态学运算,它不同于常用的频域和空域的方法,是建立在积分几何和随机集合论基础上的运算。由于被处理图像的数据量非常大且许多运算在本质上是并行的,所以图像并行处理结构和图像并行处理算法也是图像处理中的主要研究方向。典型的工具有图像处理大师AdobePhotoshop、矢量图形处理软件Adobe Ilustrator等。

文字符号作为图形的特殊形式占据着重要地位。文字符号的集合就是文本,是用得最多的一种符号媒体形式及人机交互的主要形式。常用的文本文件的格式有TXT、RTF,WORD支持的DOC、DOT文件。文本处理工具主要是Ofice软件包,它有多个办公常用信息处理软件,包括Word文字处理软件、Excel电子表格软件、Powerpoint演示文稿软件等。除Ofice软件包的常用文件格式外,还有超文本html格式及进行数据交换的XML格式。

(2)视频信息处理技术。

视频信息是指活动或连续的图像信息。连续的图像变化每秒超过24帧画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面,图像看上去当平滑连续的视觉效果,这样连续的画面叫作视频。视频由一系列连续呈现的图像画面所组成,每幅画面称为一帧,帧是构成视频信息的基本单元。视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。视频信息在现代通信系统所传输的信息中占有重要的地位,人类接受的信息约有80%来自视觉,所以视频信息具有准确、直观、高效、具体生动、应用广泛、信息容量大等特点。

“视频”一词源于电视技术,但电视视频是模拟信号,而计算机视频则是数字信号。视频技术最早是为了电视系统而发展,但现在已经发展为各种不同的格式以利消费者将视频记录下来。网络技术的发达也促使视频的记录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放。视频与电影属于不同的技术,后者是利用照相技术将动态的影像捕捉为一系列的静态照片。

影像视频是动态图像的一种。与动画一样,其由连续的画面组成,只是视频画面图像是自然景物的图像。影像文件通常泛指自扫描仪或视频卡读人的静态画面,因为这种影像不容易像圆、直线、方形、曲线等图形元件那样清楚地被定义,所以都是以点阵的方式存人文件。

帧率是指视频格式每秒钟播放的静态画面的数量,典型的画面更新率由早期的6~8帧/s至现今的120帧/s。PAL(欧洲、亚洲、澳洲等地区的电视广播格式)与SECAM(法国、俄国、部分非洲地区的电视广播格式)规定其更新率为25帧/s,而NTSC(美国、加拿大、日本等国的电视广播格式)则规定其更新率为29.97帧/s。电影胶卷则是以稍慢的24帧/s在拍摄。要达到最基本的视觉暂留效果大约需要10帧/s的速度。

数字视频图像有两层技术含义。一是模拟视频信号输人计算机进行数字化视频编辑,最后的成品称为数字化视频图像。二是视频图像由数字化的摄像机拍摄下来,从信号源开始,就是无失真的数字化视频,输人计算机时不再考虑视频质量的衰减问题,然后通过软件编辑制成成品。这是更纯粹的数字视频技术。一般所指的数字化视频技术主要还是前一种数字视频技术,即模拟视频的数字化处理存储输出技术。

视频图像的常用文件格式有AVI、MOV、MPEG/MPG/DAT、DIR、RA/RM/ RAM、ASF、WMV、AVI、DivX、RMVB、FLV、F4V、MP4、3GP、AMV等。AVI是Video forWindows所使用的音频-视频交错文件,它将视频信号和音频信号混合交错地存储在一起,是一种不需要专门硬件参与就可以实现大量视频压缩的视频文件格式,在各种多媒体演示系统中被广泛应用。AVI文件使用的压缩方法主要是有损压缩,压缩比高。MOV文件格式是Quick for Windows视频处理软件所选用的视频文件格式,与AVI文件格式相同,MOV文件也采用英特尔公司的Indeo视频有损压缩技术以及视频信息与音频信息混排技术,MOV文件的图像质量较AVI格式好,它是Macintosh计算机用的视频文件格式。MPG文件格式是计算机上的全屏幕活动视频的标准文件,也称为系统文件或隔行数据流。DAT是Video CD或卡拉OK的Karaoke CD数据文件的扩展名,也是基于MPEG压缩方法的一种文件格式。DIR是Macromedia公司使用的Director多媒体著作工具所产生的电影文件格式。

(3)音频信息处理技术。

音频信息是指自然界中各种音源发出的可闻声和由计算机通过专门设备合成的语音或音乐,即人耳可以听到的声音频率在20Hz~20kHz之间的声波。音频信号是多媒体信息的重要组成部分。音频也指存储声音内容的文件,在某些方面指作为滤波的振动。音频泛指物理现象的声音,主要有语音、音乐和音响效果三类。人耳具有分辨声音的强度、音调及音色的能力,人耳还能够分辨出声音的方向和深度,并感受到空间感和纵深感。通常将人耳对声音的主观感受,即响度、音调和音色称为声音的三要素。音频信号可以分成电话质量的语音、调幅广播质量的音频信号和高保真立体声信号。语音信号的频率范围是300~3 400Hz。随着带宽的增加,信号的自然度将逐步得到改善。

一般来说,音频信号的压缩编码主要有波形编码、参数编码、混合编码三种。波形编码要求重构的声音信号尽可能地接近原始声音,典型的波形编码技术有脉冲编码调制(PCM)、自适应差分脉冲编码调制(ADPCM)、自适应预测编码(APC)、子带编码(SDC)、自适应变换编码(ATC)等。参数编码以声音信号产生模型为基础,将声音信号变换成模型参数后再进行编码,又称为分析合成编码方法,典型的分析和合成技术有通道声码器、共振峰声码器、同态声码器、线性预测声码器等。混合型编码是一种在保留分析合成编码技术精华的基础上,引用波形编码准则去优化激励源信号的方案,可以在4.8k~9.6k位/s的编码率上获得较高质量的合成声音。

基本的音频数字化处理包括不同采样率、频率、通道数之间的变换和转换。其中变换只是简单地将其视为另一种格式,而转换通过重采样来进行,其中还可以根据需要采用插值算法以补偿失真。针对音频数据本身进行变换包括淡人、淡出、音量调节等,可通过高通、低通滤波器的数字滤波算法进行变换。常用的音频编码格式有PCM、WAV、MP3、MP3PRO、RealMedia、WindowsMedia、MIDI、OggVorbis、VQF、Mod、MonkeysAudio、AIFF、AU、VOC、Vox等。

长期以来,计算机的研究者们一直低估了声音在信息处理中的作用。随着虚拟技术的不断发展,人们就不再满足单调平面的声音,而更倾向于具有空间感的三维声音效果。听觉通道可以与视觉通道同时工作,所以声音的三维化处理不仅可以表达出声音的空间信息,而且与视觉信息的多通道的结合可以创造出极为逼真的虚拟空间,这在未来的多媒体系统中是极为重要的,这也是媒体处理方面的重要措施。

人类感知声源的位置的最基本的理论是基于两耳间声音的到达时间差和两耳间声音的强度差的双工理论,只要把一个普通的双声道音频在两个声道之间进行相互混合,便可以使普通双声道声音听起来具有三维音场的效果。三维音场的效果主要取决于音场的宽度和深度,音场的宽度利用时间差的原理完成,要处理的就只有把两个声道的声音进行适当的延时和强度减弱后相互混合。音场的深度利用强度差的原理完成,音场的回音设置要保证回音的衰减率、回音的深度和回音之间的延时三个参数。近年来,人们已经发展了5.1声道的立体音场效果设计方法。

20世纪80年代,索尼和飞利浦公司联手研制的一种数字音乐光盘,有12cm直径和8cm直径两种规格,以前者最为常见,它能提供74分钟的高质量音乐,这就是CD。飞利浦公司还应用了一种将CD数码信号转换成模拟音乐信号的比特流技术。用于存储电脑数据的只读型CD就是CD-ROM。采用MPEG-1压缩编码技术的影音光盘,其图像清晰度和VHS录像带差不多,其称为VCD。VCD的改进产品就采用MPEG-2编码,图像清晰度得到了提高,就是超级VCD。后来的DVD是一种外形类似CD的新一代超大容量光盘,它将广泛应用于高质量的影音节目记录和电脑的海量存储设备。由东芝、NEC、三洋电机等企业组成的HD-DVD推广协会负责推广的HD-DVD是一种数字光储存格式的蓝色光束光碟产品,现已发展成为高清DVD标准之一。HD-DVD与其竞争对手蓝光光碟(Blu-ray Disc)相似,盘片均是和CD同样大小的光学数字储存媒介,使用405nm波长的蓝光,而传统DVD需要光头发出波长为650nm得红色激光来读取或写人数据。蓝光是最先进的大容量光碟格式,BD激光技术,能够在一张单碟上存储25GB的文档文件,允许每秒4.5~9MB的记录速度。蓝光光碟拥有一个异常坚固的层面,可以保护光碟里面的重要记录层。飞利浦的蓝光光盘采用高级真空联结技术,形成了厚度统一的100μm安全层,可以经受住频繁的使用,指纹、抓痕和污垢,以此保证蓝光产品的存储质量和数据安全。数码音响产品中必须将数字音频信号通过D/A转换器(解码器)转换为模拟音频信号播出,解码器采样频率数倍于CD制式的标准取样频率44.1kHz,其目的是便于D/A转换之后数码噪声的滤除,改善CD机的高频相位失真。早期的CD机使用2倍频或4倍频取样,机器已经达到8倍或者更高。美国卢卡斯影业公司制定的一种环绕声THX标准,它对杜比定向逻辑环绕系统进行了改进,使环绕声效果得到进一步的增强,THX标准对重放器材例如影音源、放大器、音箱甚至连接线材都有一套比较严格而具体的要求,达到这一标准并经卢卡斯认证通过的产品,才被授予THX标志。该公司后来又制定了基于杜比数字系统的THX 5.1标准。

两个数字音频设备之间的数字接口协议由数字音频接口来定义,分为家用的、专业的、电脑的三种格式。家用的标准采用不平衡式的索尼/飞利浦数字接口格式S/PDIF,用带有RCA插头的EIAJCP-340 IEC-958同轴或光缆物理连接,其标准的输出电平是0.5Vpp(发送器负载75Ω),输人和输出阻抗为75Ω(0.7~3MHz频宽);专业的标准采用平衡式的美国音频工程协会/欧洲广播联盟数字格式AES/EBU,物理连接用平衡XLR电缆,输出电压是2.7Vpp(发送器负载110Ω),输人和输出阻抗为110Ω(0.1~6MHz频宽);电脑的标准采用美国电话电报公司AT&T的标准。

2)数据处理技术

数据是对事实、概念或指令的一种特殊表达形式,是人们用于描述、记录事物情况的物理符号,是记录下来的事实及客观实体的属性值。数据与信息的关系是:信息=数据+数据处理,典型的数据处理是数字信号处理(Digital Signal Pro⁃cessing,DSP)。DSP方法的基础主要有小波变换的理论、模糊分析以及混沌信息处理等基础理论。小波变换的理论包括小波分析、多分辨率分析、尺度函数与小波的构造、小波包分解、小波去噪方法。模糊分析包括模糊集合理论、模糊传感器系统。混沌信息处理包括平衡态和相平面、奇怪吸引子、分岔、形和分维,还包括混沌信号的自适应滤波、混沌通信系统的调制与解调、信道均衡、混沌信号的盲分离、基于混沌的密写及其分析、数字水印算法和混沌神经网络等。

近年来,人们在各种数字信号处理方法的基础上发展了智能计算。智能计算是以计算模型和数学模型为基础,以分布并行计算为特征的模拟人的智能求解问题的理论与方法。模拟进化计算的生物学基础有遗传变异理论、进化论、免疫学原理等,典型算法有遗传算法(GA)、免疫算法(IA)、演化策略(Es)等。从模拟智能生成过程的观点和模拟进化计算理论发展的角度看,智能计算包括模拟智能结构的人工神经网络理论、进化算法、模拟智能行为的模糊逻辑与模糊推理。人工神经网络理论包括神经网络基础知识、前馈型神经网络、反馈型神经网络。进化计算包括遗传算法、进化规划、进化策略等。

进化算法的算子有选择算子、繁殖算子。选择算子分为比例型、排序型、非单调型;繁殖算子有变异算子、交叉算子。模拟进化计算的典型执行策略有杰出者记录与父子混合选择策略、适应值共享策略、并行实现策略(含基于群体分组的并行策略和基于空间分解的并行策略)、混合策略、自适应策略。模拟进化计算又发展出蚁群算法、粒子群优化、差分演化算法、人口迁移算法、基于思维进化的机器学习等。

(1)模糊分析。

模糊分析属于模糊数学方法,模糊数学又称Fuzzy数学,是研究和处理模糊性现象的一种数学理论和方法。1965年以后,人们在模糊集合、模糊逻辑的基础上发展出了模糊拓扑、模糊测度论等数学领域,这些数学领域的统称就是模糊数学,它是研究现实世界中许多界限不分明甚至很模糊的问题的数学工具。模糊数学方法在模式识别、人工智能等方面有广泛的应用,人们运用模糊性概念描述进行判断、评价、推理、决策和控制的过程,进而有了模糊聚类分析、模糊模式识别、模糊综合评判、模糊决策与模糊预测、模糊控制、模糊信息处理等,这些方法构成了一种模糊性系统理论,已经被用于专家系统和知识工程等方面。

(2)人工神经网络分析。

人工神经网络(Artificial Neural Network,ANN)是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理的角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。ANN是由众多的神经元可调的连接权值连接而成的,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。工程与学术界也常直接简称它为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互连接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式、权重值和激励函数的不同而不同。网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。BP(Back Propagation)算法又称为误差反向传播算法,是人工神经网络中的一种监督式的学习算法,在理论上可以逼近任意函数,其基本的结构由非线性变化单元组成,具有很强的非线性映射能力。网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大。最近十多年来,人工神经网络的研究工作不断深人,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。

近年来人们对神经网络在交通运输系统中的应用开始了深人的研究。交通运输问题是高度非线性的,可获得的数据通常是大量的、复杂的,用神经网络处理相关问题有巨大的优越性。其应用范围涉及汽车驾驶员行为的模拟、参数估计、路面维护、车辆检测与分类、交通模式分析、货物运营管理、交通流量预测、运输策略与经济、交通环保、空中运输、船舶的自动导航及船只的辨认、地铁运营及交通控制等领域并已经取得了很好的效果。

神经网络的研究可以分为理论研究和应用研究两大方面。理论研究包括利用神经生理与认知科学研究人类思维以及智能机理、利用神经基础理论及数理方法探索功能更加完善的神经网络模型及算法两个方面。应用研究主要集中在神经网络的软件模拟和硬件实现的研究、神经网络在各个领域中应用的研究两个主题。

人工神经网络特有的非线性适应性信息处理能力,克服了传统人工智能方法对于直觉,如模式、语音识别、非结构化信息处理等的缺陷,使之在神经专家系统、模式识别、信号处理、知识工程、智能控制、信号处理、辅助决策、人工智能、组合优化、预测等领域得到成功应用。人工神经网络正向模拟人类认知的道路上更加深人地发展,与模糊系统、专家系统、遗传算法、进化机制、小波分析、混沌、粗集理论、分形理论、证据理论和灰色系统等的融合形成计算智能。

由于神经网络是高度非线性动力学系统,而混沌又具有上述特性,因此神经网络与混沌密切相关,混沌神经网络被认为是可实现真实世界计算的智能信息处理系统之一。目前对混沌神经网络的研究还处于初始阶段,其研究主要限于认识单个神经元的混沌特性和对简单混沌神经网络的行为分析。1990年,Aihara等在前人推导和动物实验的基础上,给出了一个混沌神经网络模型。大量的生物实验表明,脑神经系统具有分岔、混沌和奇怪吸引子动力学行为,人们通过建立混沌神经元的基本模型,并对神经元模型的特性进行分析,引出了混沌神经网络模型。目前人们广泛研究的混沌神经网络模型是在Hopfield神经网络中引人了一个具有混沌特性的负反馈项。

(3)分形信息处理。

分形理论(Fractal Theory)是十分活跃的新理论、新学科。分形的概念是美籍数学家B.B.Mandelbrot于1973年提出的,他把部分与整体以某种方式相似的形体称为分形(fractal)。分形理论的数学基础是分形几何学,即由分形几何衍生出分形信息、分形设计、分形艺术等应用。

分形理论的最基本的特点是用分数维度的视角和数学方法描述和研究客观事物,也就是用分形分维的数学工具来描述研究客观事物。它跳出了一维的线、二维的面、三维的立体乃至四维时空的传统,更加趋近复杂系统的真实属性与状态的描述,更加符合客观事物的多样性与复杂性。分维又称分形维或分数维,是分形理论的又一重要原则,也是分形的定量表征和基本参数。长期以来人们习惯于将点定义为零维,将直线定义为一维,将平面定义为二维,将空间定义为三维,爱因斯坦在相对论中引人时间维,就形成四维时空。对某一问题给予多方面的考虑,可建立高维空间,但都是整数维。在数学上,把欧氏空间的几何对象连续地拉伸、压缩、扭曲,维数也不变,这就是拓扑维数。然而,这种传统的维数观受到了挑战。曼德布罗特曾描述过一个绳球的维数:从很远的距离观察这个绳球,可看作一点(零维);从较近的距离观察,它充满了一个球形空间(三维);再近一些,就看到了绳子(一维);再向微观深人,绳子又变成了三维的柱,三维的柱又可分解成一维的纤维。显然,并没有绳球从三维对象变成一维对象的确切界限。数学家豪斯道夫(Hausdorf)在1919年提出了连续空间的概念,也就是空间维数是可以连续变化的,它可以是自然数,也可以是正有理数或正无理数,其称为豪斯道夫维数,记作Df,一般的表达式为:K=LDf,也作K=(1/L)-Df,取自然对数并整理得Df=ln K/ln L,其中L为某客体沿其每个独立方向皆扩大的倍数,K为得到的新客体是原客体的倍数,Df在一般情况下不一定是自然数。因此,曼德布罗特也把分形定义为豪斯道夫维数大于或等于拓扑维数的集合。

经典的几何学一般适用于处理比较规则和简单的形状,但是自然界的实际景象绝大部分却是由非常不规则的形状组成的曲线,很难用一个数学表达式来表示。在这样一种情况下,人们提出了分形几何学。分形的含义是某种形状、结构的一个局部或片段。它可以有多种大小、尺寸的相似形,常为分枝。这些分枝的方式、样子都类似,只有大小、规模不同。

线性分形又称为自相似分形。自相似原则和迭代生成原则是分形理论的重要原则。它表征分形在通常的几何变换下具有不变性,即标度无关性。自相似性是从不同尺度的对称出发,也就意味着递归。分形形体中的自相似性可以是完全相同,也可以是统计意义上的相似。标准的自相似分形是数学上的抽象,迭代生成无限精细的结构,如科赫曲线(Koch snowflake)、谢尔宾斯基地毯(Sierpinski carpet)等。这种有规分形只是少数,绝大部分分形是统计意义上的无规分形。

利用分形信息处理的分形编码原理可实现图像分割压缩。对于一幅数字图像,通过一些图像处理技术,如颜色分割、边缘检测、频谱分析、纹理变化分析等将原始图像分成一些子图像,然后在分形集中查找这样的子图像。分形集实际上并不是存储所有可能的子图像,而是存储许多迭代函数,通过迭代函数的反复迭代可以恢复原来的子图像。也就是说,子图像所对应的只是迭代函数,而表示这样的迭代函数一般只需要几个参数即可确定,从而达到了很高的压缩比。利用分形信息处理可使图像压缩比比经典编码方法的压缩比高,分形压缩还能依据压缩时确定的分形模型给出高分辨率的清晰的边缘线,在压缩时只要多用些时间就能提高压缩比,但不会增加解压缩的时间。

(4)进化算法。

进化算法,或称“演化算法”(Evolutionary Algorithms,EA)是一个算法簇,尽管它有很多变化,有不同的遗传基因表达方式,包括复制r(reproduction)、交叉c(crossover)及变异m(mutation),不同的交叉和变异算子,特殊算子的引用,以及不同的再生和选择方法,但它们产生的灵感都来自大自然的生物进化。与传统的基于微积分的方法和穷举法等优化算法相比,进化计算是一种成熟的具有高鲁棒性和广泛适用性的全局优化方法,具有自组织、自适应、自学习的特性,能够不受问题性质的限制,有效地处理传统优化算法难以解决的复杂问题。

进化计算包括遗传算法(Genetic Algorithms)、遗传规划(Genetic Program⁃ming)、进化策略(Evolution Strategies)和进化规划(Evolution Programming)四种典型方法。遗传算法比较成熟,现已广泛应用,进化规划和进化策略在科研和实际问题中的应用也越来越广泛。遗传算法的主要基因操作是选择、交叉和变异,而进化规则、进化策略的进化机制源于选种和突变。从适应度的角度来说遗传算法用于选择优秀的父代,而进化规则和进化策略则用于选择子代。遗传算法与遗传规划强调的是父代对子代的遗传链,而进化规则和进化策略则着重于子代本身的行为特性,即行为链。进化规则和进化策略一般都不采用编码,省去了运作过程中的编码-解码手续,更适用于连续优化问题,但因此也不能进行非数值优化。进化策略可以确定机制产生出用于繁殖的父代,而遗传算法和进化规则强调对个体适应度和概率的依赖,此外,进化规则把编码结构抽象为种群之间的相似,而进化策略将之抽象为个体之间的相似。进化策略和进化规则已应用于连续函数优化、模式识别、机器学习、神经网络训练、系统辨识和智能控制等众多领域。

进化算法的基本框架还是简单遗传算法所描述的框架,但在进化的方式上有较大的差异,选择、交叉、变异、种群控制等有很多变化。遗传算法对于交叉操作要看重一些,认为变异操作是算法的辅助操作;而进化规划和进化策略认为在一般意义上说交叉并不优于变异,甚至可以不要交叉操作。

进化算法是以达尔文的进化论思想为基础,模拟生物进化过程来求解问题的自组织、自适应的人工智能技术。生物进化是通过繁殖、变异、竞争和选择实现的,而进化算法则主要通过选择、重组和变异这三种操作实现对优化问题的求解。进化算法的基本框架或步骤为:t=0,初始化群体p(0),评估初始化群体p(0),当终止条件不满足时重组操作p(t)=r[p(t)],变异操作p(t)=m[p(t)],评估操作p(t),选择操作p(t+1)=s[p(t)UQ],t=t+1,结束。其中r、m、s分别表示重组算子、变异算子、选择算子。一般来说,进化计算的求解包括以下几个步骤:给定一组初始解;评价当前这组解的性能;从当前这组解中选择一定数量的解作为迭代后的解的基础,再对其进行操作,得到迭代后的解;若这些解满足要求则停止,否则将这些迭代得到的解作为当前解重新操作。以遗传算法为例,其工作步骤可概括为:①对工作对象——字符串用二进制的0/1或其他进制字符编码;②根据字符串的长度L,随机产生L个字符组成初始个体,通常用轮盘赌的方法得到;③计算衡量个体优劣标志的适应度,通常适应度是所研究问题的目标函数;④通过复制,将优良个体插人下一代新群体中,体现优胜劣汰的原则;⑤交换字符,产生新个体,交换点的位置是随机决定的;⑥对某个字符进行补运算,将字符1变为0,或将0变为1,这是产生新个体的另一种方法,突变字符的位置也是随机决定的;⑦反复迭代,在每次迭代期间,要执行适应度计算、选择、交叉、变异等操作,直至满足终止条件。

在20世纪90年代,人们基于进化算法发展了交互式进化计算(Interactive Evolutionary Computation),主要有交互式遗传算法(IGA)、交互式遗传规划(IGP)、交互式进化规划(IEP)和交互式进化策略(IES)4个研究分支。

3)多媒体处理技术

媒体是承载信息的载体及信息的表示形式。客观世界中有各种各样的信息形式,它们都是自然界和人类社会活动中原始信息的具体描述和表现,信息媒体元素是指多媒体应用中可以显示给用户的媒体组成元素,目前主要包括文本、图形、图像、声音、动画和视频等。根据国际电联(ITU-T)的定义,媒体分为感觉媒体(Perception Medium,由人类的感觉器官直接感知的一类媒体)、表示媒体(Representation Medium,为了能更有效地加工、处理和传输感觉媒体而人为构造出来的一种用于数据交换的编码)、显示媒体(Presentation Medium,进行信息输人和输出的媒体)、存储媒体(Storage Medium,进行信息存储的媒体)、传输媒体(Transmission Medium,用于承载信息,进行传输的媒体)五个类别。

多媒体信息处理技术是将文本、图形、图像、音频、视频、动画、数据等媒体元素与通信及计算机技术结合在一起的一种新技术,它们所集成的系统为视觉、听觉、嗅觉等感觉器官的并用实现了良好的交互性。多媒体技术具有集成性、交互性(人机对话)、数字化和实时性,多媒体方式能和人们的自然交流及处理信息的方式达到最好的匹配。但在处理图形、图像、声音、动画、影像等多媒体信息时,要占用相当大的存储空间,这影响了多媒体性能,应以压缩的方式存储数字化的多媒体信息。

多媒体信息处理技术通过多种信息媒体的获取、处理、交换、传递和再现,使计算机能较好地再现人的自然世界,开拓了诱人的应用前景。目前,多媒体信息处理技术的应用已涉及各个领域,并对人们的工作和生活方式产生了极大的影响。

(1)图像影像数据技术。

传统的数据采用编码表示,数据量并不大,而多媒体数据具有数据量巨大、数据类型多、数据类型间差别大、数据输人和输出复杂等特点。例如一幅640× 480分辨率、256种颜色的彩色照片,存储量要0.3MB,CD质量双声道的声音,存储量每秒为1.4MB。多媒体数据类型多,包括图形、图像、声音、文本和动画等多种形式,即使同属于图像一类,也还有黑白、彩色、高分辨率和低分辨率之分,由于不同类型的媒体内容和格式不同,其在存储容量、信息组织方法等方面都有很大的差异。因此,多媒体数据在计算机中的表示是一项很复杂的工作。

数据是用来记录和传送信息的,或者说数据是信息的载体。对于人类而言,真正有用的不是数据本身,而是数据所携带的信息。信息量与数据量的关系是:信息量=数据量+数据冗余。多媒体数据中存在的数据冗余类型有空间冗余、时间冗余、编码冗余、结构冗余、知识冗余、视觉冗余、其他冗余。

人们发现,在处理图形、图像、声音、动画、影像等多媒体信息时,必须要占用相当大的存储空间。因此,以压缩的方式存储数字化的多媒体信息是解决这一问题的唯一途径,在多媒体系统中,图像压缩方法主要是利用消除图像在空间和时间上的很强的相关性所带来的数据冗余度来满足应用要求。可用多种方法对数据进行压缩处理,根据解码后的数据与原始数据是否完全一致可把数据压缩方法划分为可逆编码方法和不可逆编码方法,可逆编码方法又称为无损压缩编码,不可逆编码方法又称为有损压缩编码。用可逆编码方法压缩的图像,其解码图像与原始图像严格相同,即压缩是完全可以恢复的或没有偏差的,多媒体应用中经常使用的无损压缩方法主要是基于统计的编码方法,如游程编码、Hufman编码、算术编码和LZW编码等;用不可逆编码方法压缩的图像,其还原图像较原始图像存在一定的误差,但视觉效果一般是可以被接受的,该方法大多数被使用在把人类视觉作为对象的场合,常用的有损压缩方法有脉码调制(PCM)、预测编码、变换编码、插值和外推法等。根据方法的原理进行分类,数据压缩方法可以划分为预测编码、变换编码、量化与向量量化编码、信息熵编码、分频带编码、结构编码和基于知识的编码等。新一代的数据压缩方法有矢量量化编码和子带编码、基于模型的压缩、分型压缩和小波变换压缩等。

在多媒体系统中,图像压缩方法可分成有损压缩和无损压缩两种类型。JPEG和MPEG就是得到国际标准化组织认可并推荐的两个国际标准。JPEG标准是面向连续色调、多级灰度、彩色或单色静止图像的压缩标准,它定义了无失真压缩算法和有失真压缩算法两种基本算法。MPEG用于减少空域冗余信息的技术与JPEG标准采用的方法基本相同,由用DCT变换计算变换系数、对变换系数进行量化、对变换系数进行编码三个阶段组成。

多媒体中声音文件的格式有WAV、MP3、MD、RA、VOC、AF、WMV、MID、AF;静态图像的格式有BMP、JPG、JPEG、GF、JPN、WMF、TIF、GIF、PSD、PNG;动态图像的格式有AVI、MPG、RM、RM、VB、WMV、MPEG、MOV、QT;常用的文本扩展名有doc、ppt、txt、rtf、html、htm;多媒体应用中使用的动画文件主要有GIF、AVI、SWF;压缩文件的格式有zip、z、gz、bz等。

目前在多媒体信息压缩技术中最关键的是视音频编码。在视频压缩方面主要有H.261、H.263、MPEG-1、MPEG-2、MPEG-4、MPEG-7等一系列视频压缩标准。

多媒体创作工具包括图形图像编辑工具Photoshop、音频编辑工具wave EDT、二维动画制作工具Flash、三维动画制作工具3D MAX、视频编辑工具Premiere、多媒制作工具ToolBook等。另外还有网页制作语言HTML和工具FrontPage、Dreamweaver等。

(2)动画技术。

利用人眼视觉暂留的惰性,在时间轴上,每隔一段时间在屏幕上展现一幅上下关联的图像、图形,就形成了动态图像即动画,用计算机制作动画的方法有造型动画和帧动画两种。

多媒体应用中使用的动画文件格式主要有GIF、SWF、AVI等。GIF文件可保存单帧或多帧图像,支持循环播放;GIF是网络唯一支持的动画图形格式,在互联网上非常流行。GIF与JPG的区别在于GIF支持透明格式,虽然图像压缩比不及JPG文件,但是具有更快的传送速度。SWF文件是Macromedia公司的Flash动画文件格式,需要用专门的播放器才能播放,所占内存空间小,在网页上使用广泛。AVI文件与视频格式相同。

(3)其他多媒体技术。

多媒体技术还包括多媒体通信的网络技术、多媒体通信的终端技术、移动多媒体信息传输技术、多媒体数据库技术等。

多媒体通信的网络技术包括宽带网络技术以及接人网技术。在多媒体通信系统中,网络上传输的是多种媒体综合而成的一种复杂的数据流,它不但要求网络对信息具有高速传输能力,还要求网络具有对各种信息的高效综合能力。

多媒体通信的终端技术是能集成多种媒体信息,能对多媒体信息实现同步,并具有交互功能的通信终端,其能完成信息的采集、处理、同步、显现等多种功能,而这些功能又涉及信号的处理与识别、信源编码的相关技术及为了实现有效传输的信道编码技术(包括基带传输、频带传输、纠错等)。

移动多媒体信息传输技术的关键技术除多媒体通信的网络技术、多媒体通信的终端技术、移动多媒体通信的信息传输技术三方面外,还包括射频技术、多址方式、调制方式三方面的移动多媒体信息传输技术。

多媒体数据库技术主要是数据库管理系统(DBMS),它由相关数据和一组访问数据库的软件组合而成,它负责数据库的定义、生成、存储、存取、管理、查询和数据库中信息的表现等,传统的DBMS处理的数据类型主要是字符和数字,在处理结构化数据、文字和数值信息等方面很成功。多媒体数据库管理系统(MMDBMS)不但要对传统DBMS的功能加以改进,还要增加一些处理各种非结构化数据(如图形、图像和声音等)的新功能。MMDBMS的基本技术主要包括多媒体数据的建模、数据的压缩/还原技术、存取管理和存取方法、用户界面技术和分布式技术等,而且应具有开放的体系结构和一定的伸缩性,主要应具备传统数据库管理系统的能力、超大容量存储管理能力、多媒体信息的查询和检索的能力、便于媒体集成和编辑的能力、多媒体的接口和交互功能、提供统一的性能管理机制以保证其服务性能的能力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈