首页 百科知识 局部全样本与个体精准性

局部全样本与个体精准性

时间:2022-07-05 百科知识 版权反馈
【摘要】:在《大数据时代》一书中,迈尔·舍恩伯格给出了著名的关于大数据时代的三大特征:①不是随机样本,而是全体数据;②不是精准性,而是混杂性;③不是因果关系,而是相关关系。全样本的重要架子不仅仅在于统计分析,更重要的在于精准营销。也就是说,我们从全样本中,完全反过来“精准”研究全体中的所有个体特性,这是重大的商业模式变革。

在《大数据时代》一书中,迈尔·舍恩伯格(Mayer Schonberger)给出了著名的关于大数据时代的三大特征:①不是随机样本,而是全体数据;②不是精准性,而是混杂性;③不是因果关系,而是相关关系。当然,迈尔·舍恩伯格不是统计学家,我们不必苛求他在统计学术语使用方面的精确性。但是他指出了大数据带来变革的一种非常重要的方面,就是“全样本”。

有些总体虽然是具体存在的,但是却又是无限的。比如进行水质检验时从井水或河水中采的水样,临床化验中从病人身上采的血液或其他活体组织标本,是样本;而整个一口井或一条河的某一段所有的水,某病人全身所有的血液或某个组织器官,则是总体。这样的“全样本”虽然存在,但是是无限的,无限的“全样本”可以被获取么?

有些总体又是假想的,只是理论上存在的一个范围。例如试验某一治疗流感新药的疗效,最初接受治疗的一批流感患者,不论数量多少,都只是一个样本。若该药疗效得到肯定,从而加以推广,那么此后凡在相同条件下接受该药治疗的所有流感患者,都属于这个总体。可是当初试用时,这个总体还并不存在,是假想的。这时候,还存在“全样本”么?

哲学角度和具体实践而言,“样本不完全”是绝对的,“全样本”只是个相对说法。在实际中全面了解总体的情况,往往难以办到,即便可以办到也是不可能的。比如,不可能对所有灯泡进行试验,记录每一个灯泡的使用寿命,否则产品都在测试中耗尽了。所以常通过观测部分个体,以获得总体的信息。那么迈尔·舍恩伯格所说的“全体数据”是什么意思呢?

命题2.4 大数据带来的思想变革之一在于局部全样本。

也就是说,大数据通过对过去信息的离散化表达,使得信息能够被低成本获取、低成本传递,因此使构建局部全样本成为可能。局部全样本的本质,在于对信息不对称的数据表达。正如前文所说,信息的表达数据化,导致信息传递低成本、信息获取低成本、信息处理低成本,最终的表现形式就是达到了局部全样本。

全样本的重要架子不仅仅在于统计分析,更重要的在于精准营销。客户信息是最重要的全样本,借助于大数据技术,我们可以精准分析特定客户需求。尽管大部分数据都是不可见的,似乎也并不携带任何个人信息,但事实并非如此。现代数据科学已经发现几乎任何类型的数据都能用来识别创造它的人,就好比指纹一样。比如说你在网上下载的电影、你的手机发出的定位信息,甚至是你被监控摄像机所拍下来的步态都可以用来识别你。也就是说,我们从全样本中,完全反过来“精准”研究全体中的所有个体特性,这是重大的商业模式变革。因此我们给出与迈尔·舍恩伯格相反的观点,即如下命题:

命题2.5 大数据技术下的局部全样本可以达到个体精准。

现在越来越多的网友有这样的疑问,为什么只要在电商网站搜索过或购买过某些产品,之后无论上什么网站,都会向我推送这些商品的广告?这就是大数据的“个体精准”表现。目前许多网站均“用户数据共享”,尤其是淘宝与微博联姻之后,以及DSP(Demand-side Platform,需求方平台)兴起,网购之后个人的隐私和行为更容易被广告商缠上,个人信息也“被透明”。这就是大数据时代所带来的著名的“精准推送”。

另外,针对迈尔·舍恩伯格的第三个观点“不是因果关系,而是相关关系”,本书的理解是,可能他想表达的意思是强调相关关系比以前更加重要。因果关系是一切商业模式的前提,但是相关关系的分析却是验证因果关系的一个重要手段。本书认为,随着样本能够做到局部全样本,那么就可以更有力地挖掘数据关系与价值掘取,并可以得出或者验证因果关系,以利于社会与经济发展的研究与应用。当然,相关性不等于因果。对相关关系的分析,往往是为了寻找正确或主要的因果关系。比如气象局通过海量的数据测算(这是最典型也是每天每个国家都要不间断运行的复杂的也是最大的数据运算),预报有雨,以后也确实下了雨,但我们不能说下雨是因为气象局预报的结果。本书给出如下命题,即:

命题2.6 随着大数据技术下的局部全样本化的实现,通过“相关关系”可以更有力地强化、发现与判断“因果关系”。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈