首页 理论教育 信息与数据

信息与数据

时间:2022-02-14 理论教育 版权反馈
【摘要】:现代科学把信息看作是事物发出的消息、指令、数据、符号等所包含的内容。非结构化数据是指无法用数字或统一的结构来表示的信息,包括各种文档、图像、音频和视频等,这种数据,没有统一的大小和格式,给分析和挖掘带来了更大的挑战。目前全世界的数据大约75%都是非结构化数据。无论是国际空间站拍摄的全球夜间灯光照片的数据,还是其他卫星拍摄的全球夜间灯光照片的数据都属于非结构化数据。

数据是文明的基石,人类对它的认识也反映了文明的程度。进入了信息社会,信息和数据给我们带来了新的思维,把握未来就是掌握信息和数据。

信息是事物运动的状态与方式,是物质的一种属性。也就是说,事物的存在与发展都是以信息表征来体现的,它反应事物内部属性、状态、结构、相互联系以及与外部环境的互动关系。

现代科学把信息看作是事物发出的消息、指令、数据、符号等所包含的内容。然而,不同的角度、不同的认知对信息的定义是不同的。

比如,经济管理学家认为“信息是提供决策的有效数据”;电子学家、计算机科学家认为“信息是电子线路中传输的信号”;信息管理专家认为“信息是为了满足用户决策的需要而经过加工处理的数据。”无论是经济管理,或是信息管理,还是计算机管理都具有一个共同的属性,即数据是表现事物运动的状态与方式。

如果我们从信息社会的角度来认识信息的概念,它将使我们的认识更为全面,更为深刻。那么,我们可以把它表述为是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。人类就是通过获得、识别自然界和社会的不同信息来区别不同的事物,得以认识和改造世界的。

进入大数据时代,信息就是经过加工的数据,或者说,信息是数据处理的结果。正如美国信息管理专家霍顿所说的那样:“信息是为了满足用户决策的需要而经过加工处理的数据。”

数据,不是简单的数字,它是有根据的数字,是对客观世界的一个测量、一个记录。数据在拉丁文里是“已知”的意思,也可以理解为“事实”,是一种可以用“数字”表示的、更为精确的“事实”。在英文中的一个解释是“一组事实的集合,从中可以分析出结论”。笼统地说,凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的,就可称之为数据。它代表着对某件事物的客观描述,数据可以记录、分析和重组事物,古人“结绳记事”,打了结的绳子就是数据。在这个意义上,“数据”超越了“数字”的一般性,拥有了更为具体、更具逻辑性的特殊意义。

在认识大数据之前,我们的概念是数据就是数字,或者必须是由数字构成,其实不然,数据的范畴比数字要大得多。从数据涵盖的内容来看,它又有广义与狭义之分。狭义的数据,就是数字或数值;广义的数据,则可概括为人类观察、实验、计算等的记录。作为这些记录的符号,或数字,或文字,或图像,或音视频,从上古时代的结绳记事、楔形文字、甲骨文,到古代乃至现代以竹简、布帛、羊皮、纸张等为载体的图文,直至现在以比特为单位的电子信息,可谓无所不包。

虽然数据本身是客观存在的,但是它的范畴是随着文明的进程不断变化和扩大的。在计算机出现之前,一般书籍上的文字内容并不被看成是数据,而今天,这种以语言和文字形式存在的内容是全世界各种信息处理中最重要的数据,它的范围还包括我们的信件、电话和电子邮件内容、电视和广播节目、互联网网页,以及各种社交产品中由用户产生的内容。

由此可以看出,人类和世界都是数据总和。正是人类社会的不断发展,“数据”一词便由狭义的“数字”或“数值”演变为主要指向通用的广义“数据”。

从数据类别的结构来看,它又可以划分为两类:结构化数据和非结构化数据。结构化数据是指存储在数据库中、有统一结构和格式的数据,这种数据,比较容易分析和处理。非结构化数据是指无法用数字或统一的结构来表示的信息,包括各种文档、图像、音频和视频等,这种数据,没有统一的大小和格式,给分析和挖掘带来了更大的挑战。非结构化数据也叫行为数据,比如,我们在网上发的微博中,既有图片,又有视频,大小、结构完全不一样。因为没有严整的结构,也被称为非结构化数据。目前全世界的数据大约75%都是非结构化数据。从结构化数据到非结构化数据的推进,也代表着可供挖掘的数据在大幅增加。

比如,夜间灯光作为人类活动的表征,被认为隐藏着巨大的社会经济秘密。美国国家地球物理数据中心地球天文台的一份研究报告称,人们可以从一个国家的城市夜晚灯光照片中了解到许多信息,如人口、经济增长、对外投资、战争和经济衰退等情况。日前,纽约联邦储备银行经济学家亨特·克拉克和马克西姆·平可夫斯基以及哥伦比亚大学经济学教授夏威尔·萨拉—尹—马丁利用美国国家海洋和大气管理局公布的国际空间站拍摄的全球夜间灯光照片进行数据分析,计算中国大陆地区夜间稳定灯光区光密度的变动情况,并据此推测中国近年来GDP的增长率。另外,一些研究结构还利用全球夜间灯光照片显示的数据做了其他有趣的研究。比如,瑞士和澳大利亚的几位经济学家通过对126个家38427个地区的17年夜间灯光照片数据进行比较发现,很多国家存在一种奇怪的现象,即领导人的家乡夜间灯光强度会伴随领导在位而增强,同时也会随着他们的卸任而减弱。由此可见,夜间灯光的强弱不仅与所在地区的经济活动存在着非常明显的对应关系,而且与政治关系也是十分密切的。无论是国际空间站拍摄的全球夜间灯光照片的数据,还是其他卫星拍摄的全球夜间灯光照片的数据都属于非结构化数据。

信息是有背景的数据;知识是有规律的信息;而数据,恰恰是信息、知识、智能的基础。

那么怎样理解数据、信息、知识之间的关系呢?比如,“二十四节气”的产生过程就是由数据到信息,再到知识的过程。

节气指二十四时节和气候,是中国古代订立的一种用来指导农事的补充历法,它也是在长期生产实践中用数据积累的文明成果和智慧的结晶。

地球上的气候状况,主要取决于地球和太阳间的相对位置。我国是最早的农耕发达国家之一,农业需要严格了解太阳运行情况,农事完全根据太阳进行。因此,我们的祖先在长期的农业生产中,十分重视天时对农业生产的作用。

地球每365天5时48分46秒围绕太阳公转一周,每天24小时还要自转一次。节气就是根据地球绕太阳公转一周的轨道位置,以及地球自转轴(地球南北两极的连线)和公转轨道(黄道面)斜交成的角度而划分的。“二十四个节气”,也就是表示地球在公转轨道上二十四个不同的位置。由于地球在公转轨道上的位置不同,就使得太阳光射在地球上的位置有时偏南,有时偏北,有时又直射在赤道上。这样,就引起了气候和昼夜长短的变化。

早在2700多年前的商朝、周朝、春秋时期,我们的祖先意识到人的影子长短可能与太阳的位置和气候变化有某种关联,久久思索后,形成的结果是用土圭来测量太阳对暑针所投影子的长短(即土圭测影),正确确定了春分、秋分、夏至、冬至的时期。在商朝时只有四个节气,到了周朝时发展到了八个,到秦汉年间,“二十四节气”已完全确立。

“二十四节气”的命名反应了季节、物候现象、气候变化、雨水多寡和霜期长短等等,是我国劳动人民长期对天文、气象、物候进行观测探索和总结的结果,它对农事耕作具有相当重要和深远的影响。

从“二十四节气”产生过程来看,人类对数据积累和挖掘就产生了信息,信息经过加工、处理之后,就可以获得知识。知识比信息更高一个层次,也更加抽象,它具有系统性的特征。比如我们的祖先通过测量地球与太阳的位置和对应的时间、角度,就得到数据,通过这些数据得到季节、物候现象、气候变化、雨水多寡和霜期长短等天体运行规律,这就是信息,通过信息总结出“二十四节气”,就是知识。

获得数据和使用数据的能力,是衡量一个民族文明发展水平的标准之一,节气堪称中国文明的智慧,这也说明,华夏文明从一开始就伴随着对数据的使用。

很多情况下,“数据”和“信息”两个词经常替换使用。但严格地说,数据和信息这两个概念有很大的区别:数据是对信息数字化的记录,其本身并无意义;信息是指把数据放置到一定的背景下,对数字进行解释、赋予意义。进入信息时代之后,人们趋向把所有存储在计算机上的信息,无论是音乐、视频,都统称为数据。也就是说,数据是记录信息的一种形式,同样的信息也可以用文字或图像来表述。

从传统的意义上来说,数据指的是有根据的“数字”,但从1946年第一台计算机诞生开始,“数据”这个概念的内涵就扩大了:“数据”如今已经不仅仅指传统意义上的“数字”了,而是统指一切电子化的记录。一个视频、一段音频,这在今天都被称为数据,但其本身也是信息。也就是说,进入信息时代之后,有的时候,数据即信息,信息就是数据。

这里应该说明的是,数据虽然它的最大作用在于承载信息,但是并非所有的数据都承载了有意义的信息,信息有时藏在事物的背后,需要挖掘和测量才能得到。数据中隐藏的信息和知识是客观存在的,但只有经过挖掘才能成为信息和知识。

随着信息存储、信息分析、信息传送能力的不断提升,有多强的处理能力,便能产生多少数据,有多强的存储技术,数据便能占据多大的存储空间,技术为数据的产生提供了前提,从而也为信息的分析和利用创造了更广阔的空间,它已成为人类生产、生活的基本元素。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈