从大数据到数据科学

时间：2023-03-12 理论教育版权反馈

【摘要】：大数据应用和数据科学应用逐渐升温，那么，我们的教育距离真正的大数据或者数据科学到底有多远呢？在这篇文章里，我试图用2014年11月国家统计局公开的2013年度高等教育统计数据为例，说明数据、大数据、数据科学在教育中的应用及其前景。本科和职业学院的比例，或多或少反映了当地省份对于教育的诉求。

——以教育部（国家统计局）2014年统计数据为例

大数据应用和数据科学应用逐渐升温，那么，我们的教育距离真正的大数据或者数据科学到底有多远呢？在这篇文章里，我试图用2014年11月国家统计局公开的2013年度高等教育统计数据为例，说明数据、大数据、数据科学在教育中的应用及其前景。

各位如果有兴趣，可以在以下网站下载这些数据：

http：//old.moe.gov.cn/publicfiles/business/htmlfiles/moe/s8492/list.html

1.从数据到大数据

首先，我们要搞清楚数字和数据的区别，一般来讲数据是具体的，在特定时间特定条件下的具体事物的数字描述。数字是抽象的、一般的及无具体条件要求的。按照中国字的字面理解，有根据数字或者一组数字，表达一个特定事物的特征，我们就可以称之为数据了。明明是教育部的事情，为什么要国家统计局来发布呢？那是因为，如果这些数据被教育部发布，很可能只是数字不是数据，那是因为，教育部及其下属部门自己统计的全国各省市的高等院校的数字，也是各省市自己填写的，所谓“数字出干部”，而作为中国权威的国家统计主管部门，国家统计局的数据无疑要权威得多，因此我们可以称为数据。事实上，国家统计局自己有非常专业的队伍，例如城调队、农调队，不仅仅是简单接收国家教育部的数字发布，还会根据自己部门的抽样或全样调查来修正数据。因此，虽然这些数据来自各省市及大学的申报，但我还是认为是基本靠谱的，是有根据的，况且一下子拿到了这么全的公开数字，很感动。

仅仅拿到了这些数据，是没有用的，虽然这些数据在网上公开已经8个月了，没有人关心，也很少有人写文章分析，这些东西只是数据而已，没有形成有用的信息。我把这些数据下载，合并同类项，得到以下几条简单的结论，这就是信息了，大家看看这几条简单的结论是不是很惊讶呢？

全国本科院校户籍人口资源排名：北京、天津、上海，其中北京每22万户籍人口拥有一个本科院校，排名第三的上海每50万人一个本科院校，而排名最差的是河南、四川和青海，分别是每190万人、180万人、176万人一个本科院校。

怎么样？有了信息，我们就可以发挥人的聪明才智，才能拥有智慧。什么叫智慧呢？你如果是一个高考移民，你一定想办法去北京、天津、上海，而千万不要去河南、四川和青海吧。如果你真的这样想，还不是智慧，只是智能。那是因为，青海虽然每176万人才一个本科院校，但青海作为一个省只有几百万人口，全国各省市都会给青海名额，因此青海是比较适合高考移民的省份。如果你仅仅依靠几条简单的信息进行排名，考虑的变量和计算方法是比较机械的，只能称为“智能”，远不能称之为智慧，你如果还能像我刚才想青海高考这样很多变量，恭喜你，你拥有了智慧。

那么，什么又是大数据，什么又是小数据呢？很显然，国家统计局这个仅仅几百K的文件，是一个小数据文件，我要想得到以下的这个结论，其实还真得不到，全国高职院校人口资源排名：天津、上海、北京，户籍人口每38万人、50万人、54万人拥有一个高职院校，而相对最不重视高职教育的三个省是青海、贵州、四川，分别是141万、147万、160万人才有一个高职院校。

为什么呢？因为国家统计局的这个文件里面并没有户籍人口信息，我要另外下载文件，去百度找，还有，我下的这些结论有点武断了，为什么呢？那是因为天津、上海、北京虽然职业学校比例很高，但也是工业的聚集地，也是人口的流入区，而青海、贵州、四川是人口的流出区，工业也不发达，职业教育的需求没有那么旺盛。如果我们用常住人口的概念去替换户籍人口，再考虑职业缺口和未来发展，结论就会更加严谨。要想更加严谨和准确，那么，就要考虑增加变量以及更多的数据，这些数据还不是大数据，因为这些简单的数据，不具备大数据的特征。

全国最重视职业教育的三个省份是：内蒙古、海南及福建，职业学校与本科学校的比例是2∶1到1.7∶1，而我们认为的传统职业学校的强省广东、重庆、江苏、浙江，比例分别为1.37∶1、1.1∶1、0.82∶1。

上面这组信息，是我简单地将职业教育和本科教育的比例进行对比，可以看到非常明显的儒家文化影响圈对于职业教育的影响。本科和职业学院的比例，或多或少反映了当地省份对于教育的诉求。全国各省户籍人口人均户籍拥有的大学固定资产前三名为：北京、上海、天津，分别为8400元、4200元、3000元，而后三名广西、贵州、青海，只有人均固定资产不足500元。

这些数据是真的吗？那要看你认为什么是“真”。事实上，国家统计局、国家教育部、国资委、国税总局，每年对各省市的大学都有各种各样的统计要求，我所接触的大学校长和资产处处长，自己都不清楚什么数据是真的。然而，水分归水分，当上报的数据放在一起的时候，还是有很大说服力的。我刚刚说过，对于固定资产的定义，国税总局、国资委、教育部等，都有微妙的不同，各个大学在不同的信息系统的输入，也逐渐有很大的不同，这就形成了由于统计口径不同而造成的数据差异。每年全国百所教育部直属的高校会在各种系统中填报自己的各种口径的数据，教育部、财政部、国税总局、国资委等单位会要求下属单位按照自己部门的数据格式在线去填报各种报表。中国的各主管部门还是很负责任的，为了保证自己部门的数据的准确性，要求配合的IT公司设置很多“坑”，如果你填的不准确（例如资金不平衡或者和历史不对照），就让你过不去。于是，各高校必然就被迫形成几本账。各高校在填报这些系统的时候，例如房产和固定资产，由于折旧和制度的不同，再加上各种资产存在的地方不同，这数据，有结构化的，也有非结构化的，在全国范围，已经足够大了。好了，仅仅是半结构化、非结构化和结构化存在不同系统中的各类数据，还不能称为大数据。我们要分析全国的教育走向，总想得到那些“佐证”材料，这些材料虽然是数码化的数据，但并不是加减乘除这么简单。例如，教育部的一些主管部门，在进行国家示范中心的评审中和国家虚拟化实验室的评审中，除了让申报的学校提供报表和文字外，还要求提供光盘、录像、音频资料，各种各样的数字形态的数据综合在一起，有点像大数据了。但是还不是，我就见过很多大学，在申报国家示范中心建设中，互相挪用别的学校的资料，甚至完全不相干学院的资料，让东西显得非常专业数据非常充分，这种造假很难被识破。这就牵涉到一个数据获取手段和数据质量的问题了。如果我们的数据应用者能够真正下去走一走，看一看，如果有一个系统能够实时监控动态显示各种资产和大学实验室的状况，那么是不是就决策相对科学一些呢？当然，这就很接近大数据决策了，然而，事实上这种大数据应用在中国还没有出现。

2.数据处理

为什么教育的大数据应用理想很丰满，现实很骨感呢？那是因为不仅仅是管理问题，教育应用还有很多技术问题有待解决。在2014年两会期间，中国教育报社希望找到教育大数据的应用，最终找到了上海东华大学的智慧实验室，这个大学将十几个部门、十几个学院、100多个系统的数据联合起来，通过对700多间实验室的刷卡、门禁、视频、音频、物联网技术的整合，完成24小时开放和预约，可以称作一个初始版的大数据应用了，然而系统做了5年才完成，中间的酸甜苦辣，不在软件、不在物联网，更多的是在数据处理方面。

首先，要得到从资产、教务、研究生、后勤等部门的数据，虽然全校学生只有2万多，但是每天晚上校园信息中心传送过来的各部门数据达到数十万条，各个系统的数据格式和数据一致性并不统一，有的学生退学了、有的参军了、有的请假了、有的休学了，还有一些老师本身是副教授，但同时是博士生，还有的系统中去世5年的老教师明明还在。这些，就需要数据筛选和数据清洗。然而，经过筛选的数据，到了二级学院，并不能直接应用。因为各二级学院还会有自己的特殊情况：例如有些临时工人、有些临时外聘人员、有些访问学者和退休返聘人员等等，就会造成整个校园的数据统一和数据流程的问题。这些需求排摸清楚后，需经过一手数据和二手数据的整合、数据确认、数据转换、缺值处理，才到了数据组织和存储的技术处理。实验室系统产生的数据，为了避免重复出现以往的数据问题，要通过数据交换重新回到数据中心，按照统一的数据标准与数据安全规范，形成数据仓库。

东华大学智能实验管理系统

东华大学通过这么一个复杂的系统，希望得到一个什么样的结果呢？从短期结果来看，最先实现的是解决经费和用房问题。东华大学延安路校区的房产每平方在上海市价是6万，而松江校区的房产也要3万/平方，如此贵的房产和里面的实验设备，像大多数大学一样，很多实验室重复建设每年用不了几次，而每当期末考试的时候，学生又没地方学习，每当老师想和同学商量点事情的时候，却找不到地方。每年的实验用房和实验经费的分配，成了各个学院矛盾的焦点之一。由于有了实时在线的使用记录和资产统计记录，再向教育部申报的时候，就不用到处造假了，实验系统的数据会自动导出给教育部、财政部等部门所需要的数据，而不需要各部门统一填报了。如今的东华大学，实验用房和实验经费，由于有了客观的数据，矛盾缓解了许多。

从长期来讲，有一个根本性的问题，那就是我们这些年由于大学扩招忘记了一个问题，那就是假如一门实验课36学时，到底是学生学习36小时呢？还是老师教36小时呢？在传统的授课环节，这没有任何区别，但对于实验课，区别就大了。例如，一个医学院，36学时的小动物解剖，照理说学生要动手36小时，能够将所需要的解剖技能修炼成熟，就不会将来拿病人做实验。然而，我们扩招以后的实验排课，由于手术台不够、兔子不够，医学院的学生分组、分班无法有效考核，最终成为了老师教36个小时，如果学生分批上课，每个学生又只能完成一个角色，那么事实上学生动手也许只有8学时。东华大学的实验系统，试图解决学生的36学时的分批、分组、24小时开放的问题，这才是问题的关键。在5年后的今天，如果你去东华大学的各个实验室，明显看到各个实验室人气足了、学生多了。

3.小数据和大数据

相对海量无结构的大数据而言，结构严谨的统计抽样和报表可称之为小数据。例如，本文开头时候所讲的国家统计局的高等院校省市统计数据。例如，我们可以根据国家统计局的这个文件，得出下述简单的结论：

在固定资产投入中，教学仪器所占比例，北京、青海、上海排名前三，占固定资产28%到34%，而后三名是云南、重庆和海南，用在教学仪器上的经费都不足16%；在教学仪器上，最重视信息化投资的是西藏、云南、重庆，信息化投资占教学仪器的投入40%左右，而最不重视信息化投入的是安徽、黑龙江和天津，信息化投入占仪器投入的20%左右；而最重视软件投入的是北京、四川和上海，软件占固定资产的投入1.3~1.8%，而河北、河南、云南、甘肃，软件在固定资产的投入不到0.5%。

上面这些简单的结论，是基于小数据的几个重要假设才成立的：代表性、数据质量、抽样数据、样本小并设计越高明（Small is beautiful）。在国家统计局的统计报表中，将固定资产、固定资产中教学仪器投入、教学仪器投入中的信息化投入、信息化投入中的软件投入作为代表性的指标，而依靠的是填报数据的准确性和数据抽样的精确性以及样本的设计高明。事实上，个人认为，仅仅这么简单的几个数据，确实体现了各个省市的投资规模和投资水平。我们看到，北京上海不仅在投资规模上远远超过全国其他省市，在投资结构上也与其他省市完全不一样，更加注重教学仪器而不是房产大楼、更加注重信息化投入而不是课桌板凳、更加注重软件投入而不是投影机。然而，这些数据是否就能反映教学水平，那就另当别论了。

国家教育部还有另外一个评估，是实验室评估，通过各个大学所提供的7张表，自动计算各个大学的多个指标，更加能够反映出学生实验室中的教学水平。其中实验室使用率、教师参与实验教学比率、大型仪器使用率等指标，更加精炼了各种指标。这些指标原先是填报制的，是在小数据环境下高度抽象的指标体系。

东华大学教务处处长吴良教授，根据教育部的7张表及要求，制作了9个指标系统，通过从物联网数据中自动获取刷卡、门禁、排课、预约、使用情况，自动实时显示出大数据的结论，把小数据的系统，变成了一个大数据的系统。围绕着教育部的7张表和9个指标系统，由于有了大数据的支撑，就不一定完全采用这种评价方法了。东华大学计算机学院的乐嘉锦教授带领学生团队，做了非常多有趣的大数据分析应用：学生学业成绩与地域的关系、与早餐的关系、与星座的关系、与情侣的关系等等。

教师不用填写一个字，物联网获取全景报表。

大数据应用与小数据相比，用相关性代替了因果性，例如国家统计局的固定资产、教学仪器、信息化投资、软件投资等这些各个省市的比例，就假设了投资高效果好的因果关系，而东华大学乐嘉锦教授所做的星座和学习成绩的关系，说明处女座的学习相对于白羊座要认真严谨，信不信由你，没有理由，但绝对相关。

我们经常听到中国的平均收入、平均薪水及平均寿命，事实上中国国人数据思维缺失的一大证据就是用平均数太多，用中位数太少。在东华大学吴良教授眼中，各个学院学科不同，实验室的使用率相差很大很正常，然而吴良教授关心的是中位数而不是平均数。某个特殊的学科使用率特别低，某个特殊的学科使用率特别高都是正常的，但是，一项激励政策，如果让整个的中位数使用率降低了，就要考虑政策是不是出了问题。通过大数据的处理方式和展现方式，东华大学非常直观地展现了各个学院的排名和中位数情况。

类似像东华大学这样的通过物联网进行实验设备信息的收集，上海已经有了上海海洋大学、上海金融学院、上海商学院、上海中医药大学、上海建桥学院、上海应用技术学院、上海健康医学院、上海农林职业技术学校等十多所大学，这种实验系统的实时与全量数据的采集方式，与传统的手工填报相比，数据种类更加多、数据及时性更加快、数据的准确性更加好，更加重要的是，完成了一个数据生产者和数据消费者的融合。

传统的统计数据和小数据，一般情况下数据生产者不是数据消费者。例如，像国家统计局、国家教育部、国税总局、国资委等部门要求各高校填报的教育数据的上报系统，由于数据的消费方是部委领导和国家领导，而数据的生产者是各个大学的实验资产处和试验中心负责人及各专业老师和实验员，数据的生产者永远不会消费这些数据，填报的时候很郁闷，而数据的消费者永远也很难去到数据生产的现场，永远不知道这些数据的真实性。而通过物联网和大数据，数据的生产者可以随时组合消费和自定义自己的行为，而数据的消费者，也可以通过点击报表数据，并一层层点下去，一直点到数据生产的那个门禁系统查看真实的生产环境。上海市教委在2014年启动了上海市高校教师激励计划，其初衷是好的，其中有一条教师坐班答疑比例。上海的各个试点高校为了完成坐班答疑指标，给专任教师规定了每周1天到两天的坐班时间，但是坐班不坐班又没人知道，于是上海市教委又组织了督导组在各个大学检查，以至于试点高校的各教务处长和各学院办公室主任成了通风报信的造假者。在信息化的今天，收集到教师进校和实验室的时间并不是难事，如果像防贼似的防止老师造假，最后得到的也是造假的结论。诺贝尔奖之所以到今天能成为权威的科学奖，其最重要之处在于不需要获奖候选人填报一个字，其背后也是大数据思维。一个科学家发表的论文及其影响，是需要诺贝尔奖委员会去收集的，而教师与学生的互动，为什么非要像监狱长一样去监管呢？

4.数据分析

我们再回过头来看前面国家统计局数据中我得到的一个简单的结论：

全国各省市师生比（除去研究生和博士生）最高的是海南、安徽和广东，师生比达到1∶20到1∶17，而北京、上海和青海，师生比达到1∶8到1∶12。

这个结论虽然重要，但似乎一直没人说，因为在我之前，研究教育的不是为学校服务，就是为领导服务，就是没有人为学生服务，因此像我这种研究角度很少。我们的教育理论非常多，都说一切以学生为中心，但是你去看全国的各种教育研究报告，很少去研究以学生为中心的教育研究。

前面说过数据的质量问题，在这次教育部（或者国家统计局）中，各个大学填报数据中，我认为最假的，就是两个，一个是土地面积，另一个就是师生比。土地面积问题不说，因为根本不合理，每个学生一分地的做法是50年前的标准，目前的高楼大厦和信息化共享多数空间，根本不需要那么多土地。师生比的问题很严重，公立学校的师生比贫富不均，倒也好理解，但是中国是生师比将近20∶1，确实很严重，尤其是班级规模普遍大于40人的情况下，教学效率低下。私立大学的师生比，从我考察的几十所中国私立大学的班级规模来看，事实情况应该超过公立学校两倍，也就是至少事实上的私立大学的生师比中国应该高于40∶1甚至50∶1，大量校外灌水的教师、外聘教师使得真正的生师比无法得到验证，但是你只要去大学的课堂上去看，普遍超过公立学校两倍的班级规模，已经证明了一切。

出于对学生的关心，中国教师中大量是专任教师身份却没有做教师工作的人系统性存在，更加让生师比这件事严峻起来，党团组织中的教授、讲师、处长、行政岗位中兼职的教师，都让事实上的生师比非常大。也许是不好统计，也许是回避这个问题，私立大学生师比的问题在下载的数据中不好估计，相比起生师比这个小问题，“没用的课”的问题，无论是教育部还是国家统计局更没有办法公布。

出于对学生角度的数据分析，三个横亘在中国高等教育上的问题：大量没用的课、过多的专业和课程、生师比、实验课，也许是未来不好解决的问题，我很悲观。

张小彦博士的数据分析层次图

张晓彦（http：//www.gvsun.com/www.gvsun.com庚商公司董事）把数据分析的设计分成数据层、信息层、知识智能层、决策层，不同层次的数据分析工具和方法以及着眼点是不一样的。在数据层，着眼于多元数据的收集（网上数据采集、数据上传和提交、数据托管和维护）；在信息层，着眼于数据的无缝整合变成信息（数据混搭、数据仓库、数据转换）；在知识智能层，着眼于高级分析（决策建模、数据挖掘、空间分析）；而决策层，着眼于视觉化展示（交互式地图、动态图表、实时报告）。

一般领导很忙，现代社会的一个标志就是工具化，每个人都能当领导。大数据与小数据在决策上非常大的不同在于，一个决策者更加倾向是用户，用户可以个性化地得到及时的动态数据，而不需要精确计算的专家的结构化意见。对于一个非专业的用户和领导来说，关心的是界面和连接，而可视化是目前最好的工具。

小数据和大数据的分析方法有非常大的不同。在传统的小数据时代，更多的是使用一些结构化的分析工具，例如SPSS等，通过非常专业的数据处理专家，将结果反馈给决策者。而大数据不一样，更多的是需要可视化的工具，让用户能够自主地选择变量，可视化地展示用户看得懂的表达方式。

5.要数据，更要通过数据讲故事的人

不仅仅是大数据，还有小数据，还有各种各样的处理数据的方式，世界上著名的盖洛普机构对未来几年的科技进行预测，预言我们即将度过大数据的热潮，进入数据科学的热点时刻。

高德纳（Gartner）对未来科技热点的预测。

我们再看最后通过国家统计局的数据，我得到一个结论：

全国各省市中，北京、上海、青海、浙江2013年生均实验仪器投入达到2100元到7800元，排名前四，而河北、甘肃、山西、河南，排名垫底，生均实验仪器不足1000元。

上面的结论虽然惊人，但是读者已经不过瘾了，因为通过前面的分析，读者飞快地掌握了这套思路，如果有数据，有技术支持，那么每个读者都可以按照自己的思维模式，得到自己的结论、演示自己不同的证据。

但是，要想每一个拥有想法的人都能按照自己的想法去组织数据，这件事并不容易。数据科学时代最大的好处在于，非计算机和数据的专业人员，也能够根据自己的想法来组织数据。目前的数据科学的进步，已经使得各种各样的科学计算和统计计算透明化和工具化，用户不需要知道具体的计算方法，只需要按照自己的喜好选择计算工具，就能得到很多结论，也就是越来越标准的数据科学工具会退到后台进行计算，走向前台的是想法。

计算走向后台，变量却走向前台。用户只需要突发奇想去改变参数，就可以及时得到不同变量下的预测与决策结果，决策者更多地将经历集中在业务本身而不是数据处理方法。传统的用户有一个想法，想成熟后写出来，再找数据工程师去实现的节奏，被“自助式SELF-SERVICE”的数据平台所代替。

未来数据科学时代，自助式的数据分析与处理平台越来越多，2015年发布的TABLEAU，就增加了通过数据讲故事的功能。未来的一些年，也许我们不再使用PPT，更多的人直接使用讲故事的工具，将公开的资料倒入数据科学的平台，只要讲故事的人有想法，就能马上用数据验证自己的想法。

张小彦：用数据讲的故事。https：//public.tableau.com/profile/iddpp-！/vizhome/WorldIndicators-325/Story

回到本文的开始，国家统计局将全国2700所高校的数据公开，是数据公开的需要，也是希望更多的人去分析和提高中国的教育质量，然而数据发布至今，实际上使用的人并不多。原因在于，真正的数据科学家，不懂教育，去写这么一个没有水平不会发表核心期刊的文章，有点小儿科。而多数教育工作者，看到一大堆数据，脑子都是昏的，会熟练使用EXCEL也要训练有素才行，况且还要结合大量的网络信息才能交叉分析。而今后讲故事的工具大量面世，这些问题会很快解决。

更加重要的是，之所以大家不太关心这些数据，那是因为大家都认为这些层层上报的数据未必准确，即使准确也和自己的大学、自己的实验室毫无关系。那么我想，如果全国的各个公立大学的实验室，各种使用财政支出的教育经费，其使用情况都使用大数据方式，对于全国的各个学科无疑是有压力的，也无疑会促进社会资源的效率提升，我们的很多教育家，就不会永远停留在理念和理论的争论，而是会用数据讲自己的故事。

用数据讲自己的故事，数据科学也许没有那么远。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈