首页 百科知识 抓好大数据标准体系建设助力国家大数据战略实施

抓好大数据标准体系建设助力国家大数据战略实施

时间:2022-07-17 百科知识 版权反馈
【摘要】:全国信标委大数据标准工作组组长、中国科学院院士 梅 宏下面我代表我们工作组,当然也结合个人的一些想法,在这里做一个报告,报告的题目就是“抓好大数据标准体系建设,助力国家大数据战略实施”。国家高度重视大数据的发展。

全国信标委大数据标准工作组组长、中国科学院院士 梅 宏

下面我代表我们工作组,当然也结合个人的一些想法,在这里做一个报告,报告的题目就是“抓好大数据标准体系建设,助力国家大数据战略实施”。

国家大数据发展战略发布以来,昨天,最高领导出席了活动,把中国的大数据推向了高潮,同时也对贵州的大数据工作给予了充分肯定。这次我们选择贵阳做一次论坛,既是我们全工作组所有成员单位的聚会,来共同研讨下一步怎么走,特别是更好服务于国家大数据发展战略,也是我们标准工作组对贵州举办大数据活动送上的一份贺礼。

我今天讲两个方面的内容,一是大数据发展现状和国家战略;二是关于一些实践和思考,包括我们工作的介绍和一些个人的思考。

信息化第三波浪潮正在到来。第一波从我读书开始,20世纪80年代前后,从PC机开始进入市场到广泛地使用,带来了信息化的第一波浪潮。第二波浪潮是在90年代中期,就是以互联网的商用为表征,以联网应用为特征。第二波浪潮是以数字的单机应用为特征。第三波是我们正在开始的信息化浪潮,我们称为信息化3.0版,是以数据的深度挖掘和融合应用为特征的智慧化阶段,也是大数据催生的新阶段。据统计,2020年全球产生的数据量将达到440亿TB。大家可以想象这么一个指数级增长的状况。由于信息技术的低成本化,给互联网以及延伸的领域所带来的信息技术无处不在地应用累积了大量的数据,我们有大量数据应用的成功案例。从数据得到真真实实的价值,也引发了数据应用的需求,这给我们带来了一波新的信息化浪潮。

大数据带来新思维和大价值。我们从传统科学领域的三大范式,即实验观察、理论推导和计算仿真,到现在基于数据驱动或者数据密集型的科学。在商业领域,强调从随机样本到全体数据的使用,从精确求解到近似求解的方式,以及从追求因果关系到关联关系也有一些规律,这种商业模式,可以带来科学、技术和生产等各个行业的形态变化。这几年也有很多成功的案例,应该看到在全球范围内大数据产业生态已经基本成型,从提供计算能力的基础设施到分析方法,再到各领域的大数据应用,以及开源社区领域和数据产生领域等,构成了一个全球大数据生态链。

从我们国家的大数据发展情况来看,取得了一些成绩,但是应该客观看到我们与发达国家相比还是有一些差距。过去几年来,尽管我们的应用定制能力明显加强,但我们的大数据基础设施和分析技术,主要依靠开源,大数据分析的基础与核心算法,也基本上是源自于国外的研究工作。我们主要在做面向应用的优化,互联网、大数据应用已经达到国际先进水平,但政府行业的数据开放程度还很低,在全球排行偏低,学术界的核心技术与算法理论研究也大多数针对特定的案例,缺少对核心关键技术的应用。如果我们把美国大数据称之为工业化阶段,它还是初步阶段,没有达到真正设想的信息化阶段,那么我们的大数据可能还相当于在农业时代,还有很长的路要走。

国家高度重视大数据的发展。2015年8月31日,国务院印发了《促进大数据发展行动纲要》,标志着大数据已经上升为国家战略。2015年底的城市工作会议,对加强智慧城市建设,打破信息孤岛和数据分割,提升城市治理能力和服务水平,也提到大数据的支撑技术。2016年初,在政府工作报告里面提到要推行“互联网+”,实现部门间的数据共享,让居民和企业少跑路、好办事、不添堵,为政府数据开放提出了要求。

《促进大数据发展行动纲要》主要是三大任务:一是加快政府数据的开放,推动资源共享,提升政府治理能力;二是推动产业创新发展,培养新兴业态,助力经济转型;三是强化安全保障,提高管理水平,促进大数据健康发展。

纲要是从国家信息化发展的层面对大数据的概念和内涵范畴进行界定,强调的是开放、共享、安全,其中出现了59次“共享”,36次“开放”,还有12次“安全”,体现出国家层面的统筹布局,形成了国家层面的分阶段实施计划。2017年要实现跨部门的数据资源共享,共享共用的格局要基本形成。到2018年要建成政府主导的数据共享平台,在部分领域开展应用试点,以及实现政府数据级的应用。到2020年要实现普遍开放,形成有国际竞争力的大批产品和企业,实现关键部门、关键数据的自主可控。

在这样的背景下,标准工作该怎么做?我们全国信标委大数据标准工作组2014年12月2日正式成立,负责制定和完善大数据领域的标准体系,组织开展大数据相关技术和标准的研究。目前的成员是178家,来自全国22个省市,也对外对接ISO(国际标准化组织)的JTC1/WG9大数据工作组。

目前的工作进展。2016年4月,推出了大数据技术参考架构,进一步完善了大数据标准体系的架构设计,大数据标准工作已经立下10项国家标准,申请立项国家标准19项,覆盖大数据共性技术标准。在大数据开放共享和大数据应用领域,参与了ISO相关的对接工作,中国提交了大数据术语和参考架构相关工作6项。除在国内开展工作,在国际化的工作中也取得了一些进展及成绩。

今天,我们在贵阳数博会发布了《大数据标准白皮书(2016版)》,它涉及大数据的基本态势,包括大数据生态圈规划、大数据标准化,以及一些成功案例等,这些相关的内容,大家可以带回去好好研读一下。

除了以上这些工作之外,我们标准工作组的一项核心工作就是怎么样面向国家的大数据战略,优先开展相关支撑国家大数据战略实施标准的研制。实际上我们已经部署了相关的工作:第一,大数据开放、共享标准的研制,面向政府的需求,研制支撑数据开放共享的技术及管理标准,推进大数据资源建设。第二,应用领域的标准研制,就是面向产业、行业的需要,选择典型的领域来制定相关的标准,助力产业创新发展和新兴业态的培育。第三,相关的安全标准,面向信息化时代国家安全保障的需求,包括个人隐私保护的需要,制定相关的数据标准。

我从以下三个方面汇报我们已经开展的工作:

一是应用研究方面。设立电子商务大数据与工业大数据的技术专题组,面向产业、行业的真实需求,选择典型的领域,制定了相关的标准。比如在工业大数据方面,已经准备立项的国家标准,包含工业大数据服务标准化与实验验证系统,制造业产品源数据规范,制造对象标识的分配注册与解析要求,以及制造对象标识编码和存储规范。从电子商务方面准备立项的数据,涉及电子商务大数据的采集规范和仓库模型的规范,以及应用的指标体系。

二是大数据安全方面。涉及内容安全,隐私保护标准,规范数据的共享、使用、管理的整个流程。大数据安全标准工作组制定了相关工作的路线图,包括从基础的安全问题到大数据安全的相关技术问题,大数据产品和平台的安全,以及业务安全和业务连续性,还有安全管理及评估等。

三是开放共享。《促进大数据发展行动纲要》最重要的工作就是大数据的开放共享,这是国家的大战略。总理在很多场合讲过,希望能够推动政府数据的开放共享,加快融合各类政府平台信息,避免重复建设和数据“打架”,深化大数据在各个行业的创新应用,催生新的业态、新的模式,形成与需求紧密结合的大数据产品体系,依法依规打击数据的滥用和侵权、隐私侵犯等行为。大数据的共享开放,一个是对公众的开放,另一个是部门之间的相互共享,涉及资源的聚集、管理和应用,也是大数据产业发展的基础。

因为所有人都看到数据的重要性,就都把这个重要的东西握在自己手里,增加自己的话语权,这种情况无可厚非,但问题是这些数据在你那里重要,拿出来开放共享可能更重要。所以,怎么实现数据的开放共享,是一个非常有挑战性的问题。

从信息技术发源以来,有一个主题一直没有变过,那就是技术上的互操作。早期就有信息技术标准,刚才说到标准的强制性,必须实施。长期以来,研究互操作一直是信息技术领域非常重要的方向,因为每一家都要求使用自己的产品,每一家产品都具有独特的能力,所以即使有了标准,也可能会出现自己的“方言”。在这个前提下,我们说信息孤岛、数据孤岛,几乎从信息化建设以来就一直在提,却一直解决不了。现在到了大数据时代,对数据分割进行整合的要求更为迫切。毫无疑问,标准还是要做,因为数据的开放共享有技术层面的东西,更多人还是希望有个标准,如果大家都不讲同样的语言,不使用同样的格式,你是永远无法完成交流的。

从标准层面,我们需要解决数据基本的描述。怎样基于这种描述和模型管理数据,辅以相关的技术手段,来解决大数据标准可能带来的数据孤岛,需要我们的工作做在前面,一边建设一边推进标准工作。标准化就是从数据的表示描述和管理流程等多个视角来建立相关标准,同时需要技术上加强相关研究,从互操作技术入手,解决跨系统间的数据交互和共享,两手都要抓,才能建设形成数据资源开放共享的基本保障。

我们在大数据开放共享标准里面,围绕相关的技术标准、管理标准、安全标准开展相关工作,2015年借鉴了英国开放数据白皮书中数据开放程度的重要标准,并将数据的开放共享作为工作组的一项重点工作。

针对大数据资源开放共享的目标,重点列了四项国家标准,申请国标立项,第一部分是大数据开放共享的准则;第二部分是政府数据开放共享的基本要求;第三部分是开放程度的评价;第四部分是政府资源的目录体系。此外,对研究大数据交易流程和评估的标准,有两项国家标准已经申请国标立项,包括数据交易服务平台、交易数据的描述,还有数据交易平台中通用功能的标准,这个也是标准方面的工作。

大数据开放共享面临技术上的很大挑战。大数据时代,我们遗产系统的保留以及孤岛危机都带来了很大的挑战。比如我们网站数量357万,网页数量1899亿,还有基于Web的业务系统,数量大概千万以上,PC的应用在10万以上,APP数量在400万以上,其中深层的Web数据大概占96%,浅层网页上的数据占4%。怎么把深层的数据挖掘出来,深层的数据基本上没有现行的技术标准,基于网页的Html模式描述的基本都有相关接口标准,但很多深层数据是自由的形式,怎么办?我们看到在大数据领域面临的问题。第一,企业把90%的时间花在数据的采集、清洗、组织和管理,只有10%的时间用于真正产生数据价值的业务分析。第二,完成数据的简单开放,既是一个市场区域,也是一个用户的痛点。开放数据涉及几个问题:一是不愿意,因为大家都觉得数据很重要,要留在自己手上,最好能卖个大钱;二是不敢,因为涉及政府部门,没有法规支撑,到底什么数据可以拿出去,哪些数据最好是保密的;三是技术上没有支撑。我们调研了很多企业,完成一个数据接口的采集开放,大概需要100万的成本,因为数据开放需要对原有系统进行修改,难度比较高,风险也比较大,还有原系统的开发商可能由于人员流动、业务转型等原因就不接着做了,开发商因为技术锁定也掌握了相关的溢价权。实际上要做下来需要6到24个月的时间,而且有的是数据驱动,而不是根据应用驱动,而且协调相关数据利益方和系统方也需要时间。

这个怎么解决?这几年我们团队和同行,就怎么实现数据的开放共享提供了一套系统,实现高效的数据互操作系统,把现有的理想信息系统当成一个黑盒,我用一套方式走一遍,就可以抓好整个系统结构,抓好这个结构后我就可以抓住所有数据的访问接口,封装成一个相关的API,构建了现行的架构。同时,可以不碰源代码,在现行系统运行之后拿到这些东西,再通过分析,就可以访问所有数据,基于这些数据接口,可以重新塑造新的业务流程。这样的技术就是把运行系统通过黑盒的方式,拿出结构,就可以访问所有的数据,这样我不碰你的数据所在的地方,也不碰源头,你有你的数据权,你只需把我所需要的数据、加工过的信息反馈给我,这个已经形成了有效的解决方案,叫“燕云”系统。我们也做了一些成功的实践,已经在22个省189个“互联网+政府”应用中成功试用,这个将对万亿级的大数据工业化生产起到推动作用,这是我们设想的一个目标。从成本测算来看,投入成本可以降到1/10。

我做过一个测算,我们政府的系统大概在10万以上,几十万的数量,如果系统要完成数据的开放共享,按照几十万或百万的数量来搭建,这个就是千亿的市场,但是这个成本怎么解决,如果技术要完成数据的开放共享,哪怕减少到一半的成本,都会是一个巨大的挑战。

最后,我们标准工作组,围绕国家大数据战略,做好我们应该做的事情:一是立足本职,抓主要、抓重点。二是整体布局,按需规划,根据需求形成一个宏观的布局,一步一步走,有一个轻重缓急。三是应用创新要注重实效。最后还是要自主可控、长效发展。数据资源既是国家的基础性资源,也是战略平台资源,我们相关技术体系一定要有自主可控的能力,也要为自主可控的技术体系的建立做出我们应有的贡献。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈