智慧城市的信息挖掘与编目

时间：2022-02-15 百科知识版权反馈

【摘要】：智慧城市依赖于智慧信息的数字化和网络化，然而网络信息是离散的和动态的，并具有不均匀性和潜在的失控性。简而言之，智慧城市的信息挖掘技术是按既定业务目标，对大量的数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。（三）智慧城市信息挖掘技术的基础信息挖掘技术是智慧城市对网络流动信息和数据库技术进行研究和开发的结果。

智慧城市的信息挖掘与编目_智慧信息

智慧城市依赖于智慧信息的数字化和网络化，然而网络信息是离散的和动态的，并具有不均匀性和潜在的失控性。从大量的、不完全的、有噪声的、模糊的、随机的数据中提取智慧城市发展所需要的、隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识，就涉及信息挖掘技术。

一、智慧城市的信息挖掘

如果用芯片集成度来衡量微电子技术，用CPU处理速度来衡量计算机技术，用信道传输速率来衡量通信技术，那么摩尔定律告诉我们，它们都是以每18个月翻一番的速度在增长，这一势头已经维持了十多年。人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。面对这一挑战，信息挖掘技术应运而生，并显示出强大的生命力。

（一）信息挖掘技术由来

在信息时代，尤其在智慧城市建设过程，人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。因此，信息挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到信息挖掘这一新兴的研究领域，形成新的技术热点。

这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

（二）智慧城市信息挖掘的定义

智慧城市的信息挖掘，主要围绕智慧城市的智能楼宇、智能家居、路网监控、智能医院、潜能教育、城市生命线管理、食品药品管理、票证管理、家庭护理、个人健康与数字生活等诸多领域，对网络流动数据和数据库中的大量信息进行抽取、转换、分析和其他模型化处理，从中提取智慧城市建设和运行的关键性数据。

简而言之，智慧城市的信息挖掘技术是按既定业务目标，对大量的数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。信息挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史，只不过在过去数据收集和分析的目的是用于科学研究，另外，由于当时计算能力的限制，对大数据量进行分析的复杂数据分析方法受到很大限制。智慧城市领域的数据不再是单纯为了研究的需要，更主要是为智慧城市决策提供真正有价值的信息，发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出的信息越是出乎意料，就可能越有价值。

（三）智慧城市信息挖掘技术的基础

信息挖掘技术是智慧城市对网络流动信息和数据库技术进行研究和开发的结果。起初各种智慧城市信息是存储在计算机的数据库中的，然后发展到可对数据库进行查询和访问，进而发展到对数据库的即时访问。信息挖掘使数据库技术进入了一个更高级的阶段，它不仅能对过去的数据进行查询和遍历，并且能够找出过去数据之间的潜在联系，从而促进信息的传递。Friedman（1997）概括了智慧城市信息挖掘技术的基础有四个主要的技术：1.超大规模数据库的出现；2.先进的计算机技术；3.对巨大量数据的快速访问；4.对这些数据应用精深的统计方法计算的能力等等。

（四）信息挖掘的主要方法

信息挖掘的主要方法有神经网络方法、遗传算法、决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析方法和模糊集方法等。

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决信息挖掘的问题，用于分类、预测和模式识别的前馈式神经网络模型；以hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以art模型、koholon模型为代表的，用于聚类的自组织映射方法。神经网络方法的缺点是“黑箱”性，人们难以理解网络的学习和决策过程。

2.遗传算法

遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在信息挖掘中被加以应用。

sunil已成功地开发了一个基于遗传算法的信息挖掘工具，利用该工具对两个飞机失事的真实数据库进行了信息挖掘实验，结果表明遗传算法是进行信息挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构，在不增加错误率的前提下，删除多余的连接和隐层单元；用遗传算法和bp算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法较复杂，收敛于局部极小的较早收敛问题尚未解决。

3.决策树方法

决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。最有影响和最早的决策树方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要问题是：id3是非递增学习算法；id3决策树是单变量决策树，复杂概念的表达困难；同性间的相互关系强调不够；抗噪性差。针对上述问题，出现了许多较好的改进算法，如schlimmer和fisher设计了id4递增式学习算法；钟鸣，陈文伟等提出了ible算法等。

4.粗集方法

粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗集处理的对像是类似二维关系表的信息表。但粗集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。

5.覆盖正例排斥反例方法

它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则（选择子的合取式）。比较典型的算法有michalski的aq11方法、洪家荣改进的aq15方法以及他的ae5方法。

6.统计分析方法

在数据库字段项之间存在两种关系：函数关系（能用函数公式表示的确定性关系）和相关关系（不能用函数公式表示，但仍是相关确定性关系），对它们的分析可采用统计学方法，即利用统计学原理对数据库中的信息进行分析。可进行常用统计（求大量数据中的最大值、最小值、总和、平均值等）、回归分析（用回归方程来表示变量间的数量关系）、相关分析（用相关系数来度量变量间的相关程度）、差异分析（从样本统计量的值得出差异来确定总体参数之间是否存在差异）等。

7.模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上，提出了定性定量不确定性转换模型—云模型，并形成了云理论。

二、信息挖掘的思维方法

在信息挖掘的过程中，思维有两个方式，即纵向与横向的挖掘和开拓。这两种思维在许多情况下共存于信息挖掘的过程中，在思维的不同层面上不断分合，在功能上互为补充，如同不断旋转上升的螺旋通道，推进着信息的挖掘。

（一）纵向挖掘

所谓纵向挖掘，是指在一种结构信息范围中，按照有顺序的、可预测的、程序化的方向进行的思维方式，这是一种符合事物发展方向和人类认识规律的思维方式，遵循由低到高、由浅到深、由始到终等线索，因而清晰明了，合乎逻辑。我们平常生活、学习中大都采用这种思维方式。所谓横向思维，是指突破信息的结构范围，从其他领域的事物、事实中得到启示而产生新设想的思维方式，它不一定是有顺序的，同时也不能预测，不受范式的约束。有人把这种利用“局外”信息来发现问题的途径的思维方式同眼睛的侧视能力相类比，称它是“侧向思维”。中国古代《诗经》中的“他山之石，可以攻玉”即为这种思维的写照。

思维的纵向挖掘，力图冲破信息多重复合函数中层层嵌套的掩蔽作用。这里分上下两个方向的挖掘。

向下挖掘：这是通过对当前某一层次的某个关键词，努力运用发散思维和联想思维，并按照新的观点、新的角度或新的方向去进行分析与综合，以发现与该关键词有关的新属性，从而挖掘出信息新的函数关系，对于第一层次的初始创造性目标来说，函数的复合则进入更深的一层。在发明电子计算机的例子中，冯．诺依曼之所以能提出“程序计数器”这一创新思想，就是对第四层次的“线性存储”这个因素，能够突破只按“存储方式”划分存储器的传统观念，而从“存储内容”这一新的角度去分析，从而得出有关存储器的新分类，在此基础上重新综合出“数据存储”和“程序（指令）存储”两大类。这样就在线性存储方式之下发现了一种新的与存储内容相关的函数关系，即挖掘出一种新的函数关系，与此同时，函数的复合也进入更深的一层。

向上挖掘：这是通过对当前某一层次中若干同现因素的已知属性按照新的观点、新的角度或新的方向去进行新的抽象与概括，从而挖掘出与这些同现因素相关的某种新函数关系，对于第一层次的初始目标来说，函数的复合则退出到上一层次。冯·诺依曼之所以能提出“中央处理器”（CPU）这一创新概念（CPU至今仍是计算机的心脏），就是对第三层次的运算器、存储器和控制器三者的属性，从对“整个系统的运算与控制”这个新角度出发（而不是拘泥于原来的运算、控制、存储的纯功能模块划分）进行新的抽象，从而发现（即挖掘出），除了运算器与控制器以外，原属存储器的“程序计数器”也对整个系统的运算与控制有密切关系。于是在这基础上，他大胆地做出了新的概括，把“程序计数器”从存储器中划出来，将它和运算器、控制器结合在一起，组成一个新模块即“中央处理器”（CPU），而CPU与运算器、控制器、程序计数器之间则形成一种新的函数关系，对于初始目标来说，函数的复合则退出到上一层次，这就是“向上挖掘”的含义。

（二）横向开拓

横向开拓试图从别的方面、方向介入，使信息挖掘广度大大增加，有可能从其他领域中得到解决问题的启示。因此，横向开拓常常在潜能开发中起着巨大的作用。人们在进行思考、解决问题时，常常存在着优势想法，这是一种建立在知识经验基础上的得心应手而且根深蒂固的对待问题的方式，它决定并支配着整个思维过程。显然，优势想法不利于提出新观念、新思维，是潜能开发的一种障碍。很多事实表明，运用思维的横向开拓有助于打破优势想法，冲破旧观念、旧秩序的束缚，产生新观点，推动对问题的解决。横向思维是指通过发散思维和联想思维先确定同一层次中具有平行、并列关系的各个因素，尽量不要有遗漏（也叫“横向搜索”）。对于当前的创造性目标来说，同一层次中的诸因素其作用并不相同：有些因素是“可选择的”，只需选出其中最适当的一个即可。如发明计算机，处于第一、第二和第四层次的诸因素皆是可选择因素；有些则是“同现”的，每一个因素都应同时出现，每一个都有特定的用途，少了一个因素，系统的功能就不完善，如发明计算机的例子中处于第三层次的诸因素。因此在横向搜索结束后（即把有关因素尽可能不遗漏地联想出来后），还要作两种思维加工：一是分析、比较、选择，对可选择诸因素的已知属性进行分析、比较（或是通过直觉判断）从中选择出一个最适合当前创造性目标要求的因素；二是分析、综合、判定，对同现诸因素的已知属性进行分析，在此基础上进行综合，看看是否能满足当前创造性目标的各方面要求，从而判定是否还有遗漏的因素。

（三）横纵思维的缠绕盘升

横向思维已成为创造性思维的重要组成部分。但这绝不是说，在思维潜能显现活动中，要完全抛弃纵向思维而由横向思维取而代之。相反，一个真正有创造性的人，往往是将两者有机地结合起来运用。一方面，当纵向思维不能解决问题时，应当尝试横向思维的方法；另一方面，应该看到，横向思维的许多结果也可能是无成效的，即使有成效，采用纵向思维作为补充、完善也是很有必要的。因此，横向思维与纵向思维的有机结合也是思维潜能显现所必需的。

横向与纵向思维方法都属于比较性思维，由于比较的角度不同，就形成两种不同的思维活动。纵向思维侧重于从时间和历史的角度去思维，具有历时性的特点，它要求从事物的过去、现在的比较分析中，发现事件或社会在不同时期的特点和前后的联系，从而把握事件发展脉络及其本质的思维过程，探求历史事件或社会发展的内在规律和逻辑关系。横向思维是一种历时性的横断性思维。横向思维是截取事物的某一个横断面进行比较研究。它具有同时性、横断性和开放性的特点。纵向思维和横向思维是沿着不同方向运行的比较思维。由事物既有历时性的纵向过程，又有共时性的横向联系，因此在实践中我们应把这两种不同的思维样式结合起来，才能增强思维潜能显现的力度。

思维潜能显现过程的螺旋盘升性质，决定了它与辩证思维方法的内在一致性：一方面，思维潜能以辩证思维方法作为自己的前提；另一方面，辩证思维方法要从思维潜能中吸取营养，丰富发展自身，正如马克思说的，“那些发展着自己的物质生产和物质交往的人们，在改变自己的这个现实的同时也改变着自己的思维和思维的产物。”^[5]加强对思维潜能显现的研究，自觉地用思维潜能的显现样式改变我们的思维现状，对于全面开发信息资源，提高实践水平，是十分有益的。

三、信息编目的技术挖掘

信息无序生产、无序分布和无序流动所造成的信息无序性和不确定性，与人们利用信息的有序性和确定性要求之间存在巨大的矛盾。海量有序或无序、系统或零散、理性或感性、有用或无用、静态或动态的信息混杂在一起，良莠难辨。智慧城市只有经过有序组织，才能为人们所用。智慧城市信息组织形式主要有资源定位、“超链接”关联和搜索引擎索引，这决定了智慧城市信息编目与检索方式。

（一）DC-MARC格式共存

当前，人们对智慧城市信息编目的探讨主要体现在两个方面：一是调整已有的编目规则与MARC格式，使传统的编目方法能够适应智慧城市信息编目的要求；二是创建一套全新的元数据格式（如DC），“另起炉灶”解决智慧城市信息编目的问题。同时，关于MARC与DC的发展，研究者也有两种不同的看法：一种观点认为DC将因其优势而取代MARC，在信息组织中占主导地位；另一种观点则认为两者各有优势与缺点，不能相互取代，而应并存互补、同步发展。在网络信息编目的竞争中，是MARC主导？是DC胜出？

MARC与DC两种元数据，都是网络信息资源编目的格式。前者成熟稳定，结构非常严谨，适合于稳定信息资源的描述，但缺乏一定的灵活性，数据单元之间存在一定的重复现象而繁琐冗余；后者结构相对松散，整体结构比较灵活，适合于揭示分散与动态信息，但信息序化组织与检索利用程度不尽人意。MARC和DC各有优缺点，而且对方的优点正好是自己的缺陷方面，自己的优势则正好是对方的缺点所在。因此在智慧城市信息编目中，它们应该长期共同发展、相互促进、优势互补。目前，有人提出按照智慧城市情报信息的重要性来确定使用何种编目格式，即重要性大的用MARC编目，否则用DC编目；也有人提出首先由没有编目知识的网络用户使用元数据编目，然后由编目人员进行修改，给予更精确的描述，以适应各专业的需要。OCLC的CORC，用MARC或DC两种格式描述网络资源，建立了两个共享的示范性网络资源数据库In⁃terCat和NetFirst，并针对WEB提供多种输出格式，还充分发挥自动化编目工具的功能以减轻网络资源采集、选择、描述、标引、维护的强度。MARC和DC共存不再是理论假设，在应用中已经显示出强大的生命力。可以预见，MARC和DC作为网络信息编目的格式，将长期共存、相互补充、相得益彰。

（二）DC-MARC格式互换

DC与MARC都是具体的元数据格式，是规范信息资源组织的标准。它们通过描述信息资源内在属性和特征，提供关于信息资源的结构化数据，并实现对信息资源的描述、定位和组织。在目录协议、搜索和检索协议（如Ｚ39．50）、Harvest等多种技术的支持下，DC和MARC提供了组织信息、管理信息、检索信息的工具和方式，有利于信息的远距离传输，促进了信息的交流、交换与信息资源的共享。

智慧城市信息编目标准化、规范化，是智慧城市信息资源共建共享的前提和基础。为了保证DC和MARC的双向转换和双向兼容，人们必须制定网络信息编目标准的规范。目前，《国际标准书目著录》（ISBD）是国际通用的信息著录标准，《英美编目条例》第2版（AACR2r）在全世界都有广泛的影响。ISBD规定了信息描述的八大项：题名与责任说明项、版本项、资料（或出版物类型）特殊细节项、出版发行项、载体描述项、丛编项、附注项、标准号和可获得方式项。ISBD（ER）［《国际标准书目著录（电子资源）》］，将电子资源类分成本地检索电子资源和远程检索电子资源。AACR2r著录部分以ISBD为基础，检索部分以《巴黎原则》（ParisPrinciples）为基础，对各种不同类型的文献信息著录与检索进行了详细的描述。我国在ISBD、AACR、USMARC和UNIMARC的影响下，制定了《中国文献编目规划》、《中国分类主题词表》和《中国机读目录通讯格式》等信息处理标准。2002年，国家图书馆根据国际图联《电子资源国际标准书目著录ISBD（ER）》的规定，结合我国的电子资源书目著录的实际情况，制定了《电子资源机读目录格式使用手册》。DC元素集的制定参考了MARC标准，既与MARC著录项目相通，又与其他元数据元素集相近。

从理论上讲，任何结构化数据都可以转换到另一种结构化数据，但不可能都一一对应，会丢失一些数据。DC和MARC都是结构化的元数据，都具有描述信息资源的基本功能。它们将信息资源按照一定的规则和格式，根据特定的协议和标准，用特定的数据把能体现文献特征的相关信息记录下来，供识别和检索。尽管DC和MARC在类目定义和字段设置上有所不同，但是它们著录资料的属性相同，即信息的基本内容、外部属性、查询目的等著录项目相同，这就是说DC和MARC描述的数据单元基本相同（描述的信息内容基本一致），因此它们之间能够建立映射关系，并通过程序实现数据格式的相互转换。由于两者具体的数据元素不同，DC和MARC的数据转换还不能建立完全的一对一映射，一对一、一对多、多对一甚至无对应的映射都可能存在。研究它们二者之间的映射关系、实现二者的转换是必要的，也是智慧城市信息编目亟待解决的课题之一。

（三）DC-MARC元数据集

智慧城市建设伊始，就应该重视DC-MARC元数据集。元数据是“关于数据的数据”元数据标准内容分两个层次。第一层是目录信息，主要用于对数据集信息进行宏观描述，它适合在国家级信息交换中心以及全球范围内管理和查询信息时使用。第二层是详细信息，用来详细或全面描述信息的元数据标准内容，是数据集生产者在提供数据集时必须要提供的信息。元数据主要有下列几个方面的作用：（1）用来组织和管理空间信息，并挖掘空间信息资源，这正是智慧城市的特点和优点所在。通过它可以在广域网或因特网上准确地识别、定位和访问空间信息。（2）帮助数据使用者查询所需信息。（3）组织和维护一个机构对数据的投资。（4）用来建立信息的数据目录和数据交换中心。（5）提供数据转换方面的信息。使用户在获取空间信息的同时便可以得到空间元数据信息。

网络资源复杂、广泛、无序、分散，集图文、声像、视听等为一体。智慧城市信息编目就是描述、标引网络资源的内容和形式特征，并指引读者利用。MARC与DC作为网络信息著录和标引的格式，完全可以共存互补。MARC是一种精致的网络信息资源编目方式，DC已成为简单描述Internet资源的首选。元数据格式差异很大，数据单元内容不一致，这会直接造成各种元数据产品不兼容、检全率与检准率下降和使用检索系统不方便等诸多问题。为了有效地解决智慧城市信息资源的著录、组织与检索问题，我们特别需要一套标准化的信息描述语言与数据交换格式，于是DC和MARC登上了历史舞台，并逐步形成了以DC-MARC为核心的元数据集。

由此可见，UNIMARC不仅是网络信息编目的标准，而且也是智慧城市元数据互换的基础。DC的设计原则是定义一个网络信息描述的最小的元数据元素集，保证信息资源发现工具之间数据的互相转换，但是核心元素并不能满足特殊用户团体需要的对象描述。DC是描述网络信息资源的基础性元素集，但是它并不是要取代各领域已经存在的一些元数据格式，而是要成为这些元数据格式的补充，同来自这些元数据格式的元素相结合，最终达到跨领域的资源发现目的。

总之，MARC和DC不仅优势互补、分工协作、相得益彰，而且能够很好地以不同等级进行网络信息编目，这为智慧城市的信息编目提供了一条任重而道远的路径。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈