首页 百科知识 新形势下青少年大数据共享平台建设的探索与思考殷沈琴

新形势下青少年大数据共享平台建设的探索与思考殷沈琴

时间:2022-10-23 百科知识 版权反馈
【摘要】:支持青少年研究数据和研究成果的管理元数据模板的描述和定制。遵循业界数据共享标准规范,支持对国内外科学数据平台数据的基于OMI—PMH协议的收割。汇集2007年以来《上海青年发展报告》的原始统计数据、2012年以来《中国都市青少年发展报告》原始统计数据、2014年以来上海各级团组织有关调研数据。
新形势下青少年大数据共享平台建设的探索与思考殷沈琴_青年研究:新视野、新问题和新方法(2016—2020)

一、研究背景

科学数据是现代科学研究和学科发展的核心与基础。随着大数据时代的到来,以数据密集型科研发现为核心的新型研究范式开始产生[1],这是当今科学研究必须面对和适应的事实。新时期的青年学学科建设和发展,既应遵循一般学科的普遍规律和路径,也应以开放姿态认识这一新变化,积极主动探索新道路。

2015年6月,上海青年管理干部学院、上海青年研究中心和上海团市委研究室共同发起主办,建成了立足上海、面向全国、国际接轨、全球互通的青少年研究数据平台。将大量独具特色的数据资源放在网上,实现数据的开放共享。平台上线将近两年,国家和地方政策又有很多新变化,给平台的进一步发展提供了政策支持、指明了发展方向。

(一)大数据发展成为国家战略,地方高度重视

科学大数据是科学研究的基石,大数据蕴含的巨大价值已被不少发达国家高度重视,美、英、法、日、澳等多国相继出台了大数据应用与发展战略。[2]2015年8月我国国务院发布的《促进大数据发展行动纲要》[3]是国家层面的大数据发展战略的政策文件,提出要“构建科学大数据重大基础设施,实现对科学数据的权威汇集、长期保存、集成管理和全面共享”。建设科学大数据,中央层面的方向和目标已经明确,需要各地结合自身情况具体落实。2016年底出台的上海市青少年“十三五”规划明确提出“构建青少年大数据共享平台,整合各个部门的资源,在青年工作联席会议框架下,建立定义明确、口径统一,涵盖思想动态、教育水平、健康状况、就业、创业、创新、犯罪预防等各方面,跨部门、跨领域的青少年发展数据指标的实时更新、共建共享和精确分析系统”[4],并对青少年领域大数据基础设施的建设提出了系统全面具体可行的规划。

中央政府层面的顶层设计和地方的“十三五”规划,都非常重视科学大数据的基础设施的建设,为推进青少年大数据共享平台提供了有力的政策支持和环境保障。

(二)建设青年研究智库成为共青团改革的重要举措

自2015年11月上海市和重庆市启动群团改革试点之后,群团改革正在全国范围内全面推开。[5]如何更好地分析青少年问题、建设青少年组织、制定青少年政策正成为各级党政部门和领导十分关心的焦点问题,也是共青团组织围绕中心、服务大局的重要职责所在。加强青少年工作理论和青少年问题研究、建成青少年研究智库正成为各地群团改革的重要内容。而全国各地团校面临群团改革的新形势、新任务,正进一步明确和转变职能,适度剥离学历教育,回归和聚焦共青团本职工作。由此,以各地团校为基础、加强青少年研究智库建设正成为各地群团改革可行而重要的举措。

(三)智库倡导“用数据说话、用数据决策”

作为党和政府科学决策民主决策和依法决策的重要支撑,国家治理体系和治理能力现代化的重要内容,智库建设受到党中央的高度重视。[6]国家战略勾画蓝图,智库领域大政新政频出,标志着智库春天的到来。2014年,教育部《中国特色新型高校智库建设推进计划》指出,“要大力推进中国特色新型高校智库建设,为党和政府科学决策提供高水平智力支持”,并提出,“在智库建设中要重点建设一批社会调查、统计分析、案例集成等专题数据库”[7]。

2015年1月20日,中共中央办公室和国务院办公室发布《关于加强中国特色新型智库建设的意见》,明确提出“新型智库”的概念,新型智库的八项标准中有两项涉及数据库建设,即“有多层次的学术交流平台”、“有功能完备的信息采集分析系统”[8]。

2016年底出台的上海青少年发展“十三五”规划中,明确提出“加强青少年发展问题的研究体系建设,建立青少年发展问题研究智库,建设青少年发展问题研究的数据库和监测平台,大力提升青少年发展问题的基础理论研究和工作实践研究水平”。

综上,在中国特色新型智库建设进程中,“用数据说话、用数据决策”成为重要的建设标准和导向,数据库及平台建设是重要的基础工程。

二、平台的建设基础与创新发展定位

(一)平台基础——青少年研究数据平台

上海青少年研究数据平台一期于2015年6月上线,引入先进数据存储、统计分析、数据挖掘和在线分析、数据可视化等其他智能应用技术,支持基于数据的深入研究分析,推动青少年研究数据的再应用和青年学科新知识的生成,为青少年学科建设和理论研究创新提供支持。平台由数据存储与管理、数据共享、数据出版与引证、数据分析等模块构成,具有以下功能:

1.数据存储与管理模块

数据资源管理结构遵循业界元数据规范及标准,采用社会科学数据的国际标准化组织(ISO)的规范—DDI(Data Documentation Initiative)[9]。支持青少年研究数据和研究成果的管理元数据模板的描述和定制。基于青少年研究数据的元数据规范,可灵活定义和描述可检索字段。支持用户角色和权限的分级管理。支持基于数据生命周期的青少年研究项目数据管理计划的制定,支持多种数据筛选和数据处理,能够自动转换数据格式,能够实现数据的长期保存,支持海量数据的快速查询。

2.数据共享模块

对青少年研究数据资源进行分类,大致可以分为三个类别:完全开放、依申请共享、不予共享。平台能够分级分层次控制对数据的访问权限。遵循业界数据共享标准规范,支持对国内外科学数据平台数据的基于OMI—PMH协议的收割。支持创建不同形式的收藏集,能够实现对课题数据的版本管理有利于团队,能够将研究数据与个人站点无缝链接。

3.数据出版与引证模块

支持青少年研究的数据集如同传统的纸质出版物一样,可以直接作为出版物出版。支持全球性唯一数据标识的设定,支持数据在公开出版物中的直接引证。

4.数据分析模块

支持对数据的重新编码和子集的抽取,提供多种高级统计分析模型,能够对数据进行多层次多角度展现,支持数据分析的可视化。

2016年实施青少年研究数据平台二期建设,侧重于打造数据出版、品牌数据集和专家空间。

(二)资源基础——自建资源和二次加工资源

一方面,汇总整理上海青年管理干部学院自有历年学术研究成果资料。已完成汇总整理历年(1999年起)《上海青年发展报告》、专题报告、年鉴、学报、丛书和调查资料,实现馆藏历史文献资料的数字化,形成逾600万字的自有特色数据资源和超过60万份的上海青少年群体、青年干部和青少年工作者调查样本框,并且在网站平台实现开放共享。汇集2007年以来《上海青年发展报告》的原始统计数据、2012年以来《中国都市青少年发展报告》原始统计数据、2014年以来上海各级团组织(团市委、团区委、高校团委、大型国企)有关调研数据。

另一方面,对专业学术资源数据库中相关元数据进行定向抽取、筛选、分类,初步形成青少年研究特色文献库,整合了包括青少年政策与事务、青少年思想道德教育、青少年心理与文化、青年运动与青少年组织等专题在内的详尽研究数据资料近10万份。

在此基础上,遴选优质数据资源,打造品牌数据集。

(三)创新形态——青少年数据共享平台

经过近两年上线运行,青少年研究数据平台积累了大量的文献资源、数据资源、专家和用户,对青少年研究领域的研究和决策需求有了更加深入的理解。在大数据研究快速发展、群团改革、“智库春天”、“十三五”规划”的大背景和新形势下,平台迎来巨大的创新发展空间,并逐渐明晰未来定位:以青少年数据汇聚为核心,基于大数据架构和技术,构建“双轮驱动”的青少年大数据共享平台,既服务于青少年社会科学研究,又服务于党政团决策支持,建成先进的青少年研究应用和决策支持平台。

图1 建设思路

建设思路(见图1)是利用先进大数据技术,在现有的青少年研究数据平台基础上,结合青少年研究和智库决策支持的需求,建设并融合问卷调查系统、青少年发展动态监测系统、青少年舆情分析系统和智库专家系统,构建青少年大数据共享平台。采集整合多方数据资源,方便快速准确检索、查询、挖掘、分析、引证青少年发展数据,推动青少年研究数据的再应用和青年学科新知识的生成,为青少年学科建设和理论研究创新提供支持。深入了解青少年发展问题,为涉及青少年发展问题的快速反应和科学决策提供数据支撑。

三、系统建设

青少年数据共享平台的总体设计框架归结为“三个体系、四层架构”(见图2)。其中,三个体系分别为:数据综合管理体系(综合管理)、数据标准及法律法规体系(标准法规)、数据安全及运维保障体系(安全运维)。四层架构包括数据层、技术层、应用层和展示层。

图2 系统架构图

(一)三个体系

1.青少年数据综合管理体系

为确保青少年数据应用研究和智库决策支持工作的持续推进,需要构建数据综合管理体系,对数据层、技术层、应用层及展示层进行相应的管理和规范,制定管理制度,明确职能分工和主要负责人,统一部署管理,实现常态化运行。在数据层,要基于数据生命周期的每一环节,编制标准规范文档。在技术层,大数据产生、聚集、分析和利用主要通过分布式文件处理系统来实现,构建大数据总体技术框架。在应用层,需要明确青少年数据集产品和服务的提供机制。在展现层,要构建五个系统的需求对接及对外推广机制。由此,自下而上形成纵向联动的综合管理体系,[10]为青少年大数据应用研究和智库决策支持体系提供组织保障。

2.数据标准和法律法规体系

青少年数据的来源多样、结构各异,如何采集集成进入统一的大数据平台,需要借鉴和遵循国际、国家和行业的标准,制定相应的青少年数据标准规范。该标准规范涵盖元数据、数据格式、数据组织、数据存储和传输、数据隐私处理、数据安全、数据销毁等方面,对数据文件的格式和数据文件的组织结构等进行规范化处理,编制数据文档和提供数据的背景信息,让数据变得可发现、可获取、可交互、可重用和可引证。

青少年数据的使用涉及青少年数据采集、数据安全、隐私管理、数据共享、数据使用和数据交易的一系列伦理和法律法规问题。例如,与数据复用和数据共享密切相关的法律及伦理问题,包括保密、知情同意、数据的安全操作和数据的共享策略。只要遵循最佳实践和合理方案,即使是敏感的、涉密的研究数据也能以符合法律、尊重伦理的方法进行共享。[11]

3.数据安全及运维保障体系

确保数据的安全性,需要注意物理安全、网络安全和计算机系统与文件安全,以防止未经授权的数据访问或对数据的不必要篡改、数据披露或数据破坏。所采纳的措施需考虑与数据性质以及所涉及的风险相匹配,需采用工具软件进行数据加密和定期数据备份等。

打造数据安全及运维保障体系,需要建立数据安全和日常运维管理制度,明确数据安全操作流程规范,并有一支稳定的责任明确的运维管理人员队伍。

(二)四层架构

1.数据层

数据层主要包括多源异构的青少年数据。按照采集方式可以分为:网络数据、日志数据、业务数据、科研成果数据、流式数据、调查统计数据。按照数据来源可以分为:政府业务数据、电信联通手机数据、互联网采集数据、科研数据等。按照格式可以分为:文本数据、数值型数据、统计数据、图像数据、声音数据、地理空间数据等。系统需要具备对复杂的原始格式数据进行整合分析的能力,将不同来源的数据汇集,按照统一的标准进行梳理入库。

2.技术层

利用大数据关键技术构建统一、开放和集成的青少年大数据共享平台,需要设计大数据应用的总体架构。大数据产生、聚集、分析和利用主要通过分布式文件处理系统来实现。

主流的技术是Hadoop+Map Reduce,其中Hadoop的分布式文件处理系统(HDFS)作为大数据存储的框架,分布式计算框架Map Reduce作为大数据处理的框架。[12]在Hadoop+Map Reduce之上,架构的是网络层。网络层之上,是大数据的访问框架,实现对传统关系型数据库和Hadoop的访问,主流技术包括:Pig、Hive、Sqoop等。大数据访问的框架层之上是大数据控制调度的框架,实现对大数据的组织和调度,为大数据分析做准备,主流技术包括Hbase、Avro、Flume、Zookeeper等。大数据的分析展现框架则通过相关的商业智能分析和展现工具集来实现。整体的技术架构具备集成性、先进性、可扩展性和实时性等特点。

3.应用层

应用层由数据的功能应用组件组成,涉及数据管理、存储、发布、检索、下载、共享和收割等功能。数据收割指基于OMIPMH协议,将其他共享平台的数据资源的元数据通过定时采集的方式导入到本地平台,实现元数据层面的归集。其他功能在前文二(一)部分已有介绍。

4.展现层

展现层根据青少年领域的不同的业务需求,将青少年大数据共享平台划分为五个系统。以青少年研究数据平台为核心,与调查问卷系统、青少年舆情分析系统、青少年智库专家系统、青少年发展动态监测系统等四个系统构成整体。这几个系统之间可以就数据进行交互,共同实现青少年应用研究和智库决策支持的需求。

调查问卷系统是传统的数据收集方式,也是青少年数据的重要来源之一,青少年数据主要来自政府部门的统计数据和问卷调查。

青少年舆情分析系统,利用软件工具和通过精准的监测关键词设置,实时监测网媒、平媒、行业媒体、论坛、微信和微博等中国主流媒体类型,从而了解青少年舆情动态,进行预警分析和应对危机突发事件

青少年智库专家系统,汇聚青少年领域的智库专家,汇总整理全国范围内青少年研究领域的专家信息,初步形成青少年政策与事务、青少年思想道德教育、青少年心理与文化、青年运动与青少年组织等领域的专家资源库,为实现政府“点菜”做支撑。

青少年发展动态监测系统,通过对青少年发展指标体系的数据进行定期采集和分析比对,了解青少年发展动态,为政府青少年相关政策提供决策支撑。

四、资源建设

资源建设的目标是建成权威的青少年研究数据资源,归集各方青少年及青少年研究特色数据资源,采用先进数据管理技术和方法,坚持共建共享的运行机制,建立符合国际引证规范的科学的青少年研究文献资料库、原始数据库集、专家库、项目库等,为数据共享和应用奠定基础,从而实现数据的“一次采集、多次使用”。建设的途径包括:整合校内学术资源;集成上海市青少年资源;汇聚全国的青少年数据资源;引荐国际青少年数据资源。

(一)整合校内学术资源

首先对校内学术资源包括项目、专家文献、数据等进行整合,前文已经提及自建资源和二次加工资源,今后每年根据学校的经费和人员的承担能力,持续进行资源建设。

(二)整合上海市青少年数据资源

与共青团上海市委各相关部门、上海市青年工作联席会议办公室、上海市社区青少年事务办公室等相关单位加强沟通,建立数据信息资源的开放共享机制。如上海共青团年度统计系统,上海世博会志愿者信息库,以及留存于共青团系统各部门的其他青年数据等。拟待条件成熟时,借助上海市青年工作联席会议机制平台,进一步推动政府数据公开。加强与组织部、教委、人保、社区办、妇联、工会等党政部门的沟通协作,建立数据信息资源的开放共享机制。

(三)汇聚全国的青少年数据资源

与全国有影响的青少年研究社科机构、高校和团组织加强数据共享和调研协作,制定数据规范及共建共享规则,建立文献资料库、原始数据库集、专家库、项目库等。依托全国青年工作院校协会和团校组织网络建立全国性数据调查和共享的组织体系和运行机制。联合部分兄弟团校连续两年组织实施教育部哲学社会科学发展报告《中国都市青少年发展报告》项目,开展全国性调查和定性、定量数据收集工作。

(四)引荐国际数据资源

通过国际组织、发达国家政府开放数据网站、知名学术机构的数据中心等途径获取国际青少年数据资源,例如联合国、欧盟美国政府开放数据、英国政府开放数据、美国密西根大学ICPSR、芝加哥大学NORC等平台的青少年相关数据资源,建立数据资源的导航、分类和描述,为国际青少年比较研究提供数据支撑。同时引荐国际完整的长期跟踪调研的样本范式,给国内青少年调查研究提供借鉴参考。

五、组织建设

青少年研究数据平台发展到青少年数据共享平台,从点到线辐射到面,离不开良好的组织架构。

(1)建立青少年数据资源共建共享组织网络。推动数据资源的有效归集,不仅为青年学科建设、社会科学研究以及党政决策、青年工作提供数据资源和研究应用服务,而且推动青少年研究国内外同行在数据层面的协作与共享,最终实现青少年研究数据的再应用和青年学科新知识的生成。

(2)建设区域性或全国性的青少年研究智库联盟。推动青少年智库建设从“单兵作战”到“抱团出海”。实现多学科协同,构建青少年研究创新范式。实现多校协同,打造青少年研究的学术共同体。实现多领域协同,广泛凝聚党政决策部门、学术界和实践领域的智慧力量。

结 语

一手的、全面的、时序较长的数据,在学术研究上占据优势,支撑智库思想观点的创新性和实用性。[13]未来,将进一步扩大参与平台试用的用户范围和科学数据库种类、数量;制作宣传视频材料,加强用户宣传、推广力度,让数据平台为师生所共知、共建、共享;形成青少年研究品牌数据发布系列,畅通社会舆情传播渠道;建设社会调查与数据中心实验室,优化人才培养交流的机制。通过建成中国权威的青少年大数据共享平台,为中国社会科学发展贡献优秀实例,为全球青年研究提供中国范式。

参考文献

[1]Tony Hey、Stewart Tansley、Kristin Tolle.第四范式:数据密集型科学发现[M].北京:科学出版社,2012.

[2]魏航,王建冬,童楠楠.基于大数据的公共政策评估研究:回顾与建议[J].电子政务, 2016(1):1117.

[3]国务院关于印发促进大数据发展行动纲要的通知(20161005).http://www.gov. cn/zhengce/content/201509/05/content_10137.htm.

[4]上海市青少年发展十三五规划[Z].http://www.shanghai.gov.cn/shanghai/download/gongkai/hff1653.pdf.

[5]群团指的是什么?怎么改?专家解读群团改革试点方案[EB/OL].http://www. mnw.cn/news/china/1026969.html.

[6]光明日报智库研究与发布中心.2015中国智库年度发展报告[M].北京:社会科学文献出版社,2016.

[7]中国特色新型高校智库建设推进计划[EB/OL].http://www.gov.cn/gzdt/2014

02/28/content_2625304.htm.

[8]中共中央办公厅、国务院办公厅印发《关于加强中国特色新型智库建设的意见》[EB/OL].http://www.gov.cn/xinwen/201501/20/content_2807126.htm.

[9]Whatisa DDIProfile?[OL].http://www1.unece.org/stat/platform/display/gsim/DDI+Profiles.

[10]于施洋.一带一路——大数据决策支持体系建设[J].电子政务.2017(1):27.

[11]Louise Corti,Veerle Vanden Eynden,Libby Bishop,Matthew Woollard.Managing and Sharing Research Data:AGuideto Good Practice[M].SAGEPublications Ltd.2014.

[12]赵刚.大数据技术和应用实践指南[M].北京:电子工业出版社,2015.

[13]朱旭峰,韩万渠.中国特色新型高校智库的兴起、困境与探索——以中国人民大学智库建设为例[J].高等教育评论,2015(1).

[1] 殷沈琴,女,博士,复旦大学文献信息中心副教授,主要研究科学数据管理、政府数据管理;张恽,男,博士,上海青年管理干部学院副院长,副教授,主要研究青年问题与共青团工作。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈