首页 理论教育 数理统计思想及其发展

数理统计思想及其发展

时间:2022-03-12 理论教育 版权反馈
【摘要】:数理统计是一门以概率论为基础的关于数据的收集、整理、分析和推断的数学学科,它通过对大量随机现象的观察、研究,以发现其内在规律性,并以此对其作出一定的判断和预测。[2]数理统计着重于通过对试验数据或者某些特定指标的研究,来发现随机现象的规律,并做出某些预测和估计。收集数据,是数理统计研究内容的一个方面,它研究如何对随机现象进行观察或试验,以便获得能够很好地反映整体情况的局部数据。

一、数理统计思想的相关认识

数理统计是一门以概率论为基础的关于数据的收集、整理、分析和推断的数学学科,它通过对大量随机现象的观察、研究,以发现其内在规律性,并以此对其作出一定的判断和预测。

(一)数理统计的特性

首先,数据必须带有随机性的影响,才能成为数理统计学的研究对象。在数理统计中,研究的随机变量分布是未知的,只能通过对其进行大量的观察或试验,从得到的信息(如观察值等)中进行分析、找寻事件的发生规律,对随机变量的分布或特性作出种种推断。如考虑一个国家的全面人口普查,假定人力、物力、时间允许我们对国内每一个人的状况调查,而这种调查又是准确无误的,则我们可以利用普查所获得的数据通过既定的方法,把所感兴趣的指标计算出来。总之,数据是否具有随机性,是区别数理统计方法和其他数据处理方法的根本点。

数据的随机性来源有二:一是抽样的随机性,出于经济原因的考虑或时间的限制或问题性质决定。不可能或没有必要得到研究对象的全部资料,而只能用“一定的方式”抽取其中一部分进行考察。这样所得到的数据的随机性就是来自抽样的随机性;二是试验过程中的随机误差,即在试验过程中未加控制或无法控制或不便控制,甚至是不了解的因素所引起的误差。在实际问题中这两类随机性常常交织在一起。[1]

其次,收集数据要用有效的方法。一是建立一个在数学上可以处理并尽可能简单方便的模型来描述所得数据,二是数据中要包含尽可能多的、与所研究问题有关的信息。

最后,有效地使用数据。就是要用有效的方法去集中和提取试验数据中的有关信息,对所研究的问题作出合理的、尽可能精确和可靠的结论。

(二)数理统计的思想方法

从理论上讲,只要对随机现象进行足够多次的观察,其规律性一定能够显现出来。但实际上人们常常无法对所研究对象的全体进行观察,而只能选取具有代表性的一小部分(即样本)来进行试验,利用试验数据提供的局部信息对整体(即总体)的特性进行合理的推断。这种由样本来推断总体的方法实际上是由特殊到一般的归纳推理方法,即统计的研究方法。[2]

数理统计着重于通过对试验数据或者某些特定指标的研究,来发现随机现象的规律,并做出某些预测和估计。具体地,数理统计的基本思想是:

(1)确定一个客观存在的总体;

(2)得到上述总体的一个样本;

(3)根据样本得出的数据来推测总体的某些特性。

数理统计作为数学的一个分支,其方法本质是归纳式的,统计方法的归纳性,源于它所做出的结论是根据观察到的大量的个别情况“归纳”起来所得,而不是由一些假设、命题和已知的事实,按逻辑推理得到。

(三)数理统计的内容[3]

数理统计的内容十分丰富,大体上可分为收集数据和统计推断两个方面。

1.收集数据

收集数据,是数理统计研究内容的一个方面,它研究如何对随机现象进行观察或试验,以便获得能够很好地反映整体情况的局部数据。其内容包括抽样技术、试验设计等。

2.统计推断

统计推断是数理统计的核心部分,它研究如何对收集到的局部数据进行整理、分析,并对所考察的对象的整体特性作出尽可能准确可信的估计和推测。其内容归纳如下:

注:资料来源于陈文英等主编,《概率论与数理统计》,科学出版社,2012,125。

(四)数理统计学的应用

数理统计是概率论的应用,并且这种应用在自然科学管理科学、工程技术、农林科学、计量经济学以及人文社科等学科中越来越广泛,几乎在人类活动的一切领域中都能不同程度地找到它的应用,且其研究内容也随着科技社会的不断发展而迅速拓展。

随机性的普遍存在,为数理统计学的应用提供了一个广阔的用武之地。[4]

(1)在农业方面,诸如在若干个种子品种中挑选一些优良品种,及通过田间试验决定种子最优的生产条件方面,“试验设计”及“方差分析”已经是常规手段;在工农业生产中,新产品、新工艺、新材料的开发研究,大批产品的抽样检验,元件和设备的可靠性分析等,皆依赖于统计方法。

(2)统计方法在医疗卫生中有广泛的应用。例如,一种药品的疗效如何,要通过细心安排的试验并使用正确的统计分析方法,才能比较可靠地做出结论。其他,如分析某种疾病的发生是否与特定因素有关(一个著名的例子是吸烟与患肺病的关系),关系大小如何,再比如在污染大气的许多有害成分中,哪些成分对人体有何种程度的影响,这些问题常常是用统计方法去研究的。

(3)现在用统计方法进行社会调查很普遍。如社会学家在研究各种社会问题,心理学家在研究各种心理学问题时,离不开实地调查的工作,而这些工作常用“抽样调查”的方式进行。统计方法在确定调查规模和制定适当的抽样方案,以及对所得来的资料进行正确分析上,都是很有用的。

(4)经济活动离不开种种数量指标及其关系,因而这个领域是统计方法得到较早和较多使用的一个领域。例如在市场预测方面,现在有一门“数量经济学”的学科,其内容主要就是将统计方法用于分析种种经济问题的数量方面。

(5)统计方法在气象预报、地震和地质探矿等方面有一些应用。在这类领域中,人们对事物的规律性认识尚不充分,使用统计分析方法可能有助于获得一些对潜在的规律性的认识,而用以指导人们的行动。不过,在人们对事物的规律性认识很不充分的情况下,一些起较大作用的系统性因素,只好当作随机性因素来处理,这样,统计分析的精度或可靠性就较差。

(6)自然科学的任务是揭示自然界的规律性。一般是先根据若干观察或试验资料提出某种初步理论或假说,然后再从种种途径通过试验去验证。统计方法在这里起相当的作用。一个好的统计方法有助于提取观察或试验数据中带根本性的信息,因而有助于提出正确的理论或假说。在有了一定的理论或假说后,统计方法可以指导人们如何去安排进一步的观察或试验,以使所得数据更有助于判定理论或假说是否正确。统计学同时也提供了一些理论上健全的方法,以估计观察或试验数据与理论的符合程度如何,一个著名的例子是遗传学中的孟德尔(Mendal)定律。这个根据观察资料提出的定律,经历了严格的统计检验。数量遗传学的基本定律——哈迪-温伯格(Hardy-Weinberg)平衡定律,也是属于这种性质。

综上所述,统计方法有很广泛的实用性,它与很多专门学科都有关系,而且随着计算机的普及和计算技术的廉价化,以前因计算上的困难而限制其应用的统计方法重新被不同领域的学者所认识而焕发出新的活力,从而为统计学的应用打开了一个前所未有的广阔空间。

二、数理统计思想的形成与发展

(一)数理统计思想的形成[5]

数理统计思想起始很早。但17世纪以前,统计只是和反映或表示国家情况的事实记录制度相联系在一起。据记载,中国早在公元前2238年尧舜时代就有人口调查的事例,此外,古代埃及、罗马以及波斯等也有人口调查的记载,这可作为统计思想的早期萌芽。而统计学作为学理研究则始于古希腊的亚里士多德时代,迄今已有2300多年的历史

一般认为,数理统计学是英国统计学家格兰特于17世纪60年代创立的。他最早用数学方法研究人口现象进行统计推断。1662年,他组织调查伦敦市死亡人数,从数量上去掌握整体的推断,来揭示人口现象的数学规律。他的专著《自然和政治方面观察死亡统计表》被认为是数理统计学中的第一部重要的科学文献。他这一学问曾被称为“政治算术”。他对生命统计、保险统计及经济统计进行了数学的研究,提出的“大数恒静定律”成为统计学的基本原理。到了18世纪,统计才开始向一门独立的学科发展,用于描述表征一个状态的条件的一些特征,这是由于受到概率的影响。当时各国对人口和资源的测定很感兴趣,对有关经济、社会和政治等方面的统计数据的搜集与解释成为当时政府所特别关注的目标。统计学的数学性质逐步加强,特别是概率论日益成熟,为统计学的兴起不断地提供理论根据,并应用到各种统计方法中。1763年贝叶斯发表的《论机会学说问题的求解》对后世的统计思想产生深远影响。

18世纪末至19世纪中叶,已产生将概率论引进统计学而形成的数理学派。首先是数据分析开始借助于概率模型来研究,最早的代表是德国数学家高斯,他为了描述天文观测的误差而引进正态分布,并使用最小二乘法作为估计方法,是近代数理统计学发展初期的重要里程碑。20世纪以来,最小二乘法经过俄国数学家马尔可夫和其他学者的工作,成为数理统计学中的一个重要方法。

19世纪中叶,以比利时统计学家A.凯特勒(1796—1874年)和英国人类学家高尔顿(1822—1911年)的工作为代表,统计学有了许多新发展。高尔顿最早把统计方法应用于生物学。他对遗传学尤为感兴趣,搜集了很多资料,从豌豆到人类,专门研究数据的模型及相关关系。他首先引入了回归和相关的概念。1889年他出版《自然的遗传》一书,提出了相关系数和回归直线,创立了回归分析。高尔顿还提出了中位数、四分位数、百分位数及四分位偏差等概念。凯特勒主张用研究自然科学的方法研究社会现象,正式将古典概率引进统计学,使统计学发展到一个新阶段,并使统计方法获得普遍应用。他对天文学、数学、物理学、生物学、社会统计学及气象学均有研究。将统计方法应用到上述范围中,并强调了正态分布的用途,指出这一分布可适用于许多学科范畴。他曾致力于比利时国势调查以及组织国际统计活动,引进了“平均人”的概念,起了总体概念的先导作用。

(二)数理统计思想的发展

从19世纪到第二次世界大战结束,是数理统计学发展的极其重要的时期,现在越来越多的人倾向于把现代数理统计学的发展和达到成熟定在这个时期的始末。数理统计学中的许多根本性的重要概念、原理和方法,统计学中主要的分支学科,都是在这个时期建立和发展起来的。[6]

英国是数理统计的研究中心,它代表了当时科学与生产力发展的最高水平,以费希尔和皮尔逊为首。英国数学家K.皮尔逊(K.Pearson,1857—1936年)是对生物学进行统计研究的第一人,他将数理统计应用于生物遗传和进化诸问题,得到生物统计学和社会统计学的一些基本结论,进一步发展了回归和相关的理论。1891年他提出“概率”和相关的概念,后来他又提出“总体”“众数”“标准差”“变差系数”“均方根误差”“正态曲线”“平均变差”等一系列数理统计基本术语。1900年,他引进著名的χ2检验法,以说明实际数据与分布族的拟合分布优劣问题,并证明其极限分布是χ2分布,这个结果是大样本统计的先驱性工作。他发展了回归分析理论,引入了复相关系数和净相关系数,他还提出了第一个小样本分布——χ2分布以及χ2检验拟合优度检验。

费希尔是数理统计作为一个进一步完善的数学学科的奠基者,他的理论研究成果有:数据信息的测量、压缩数据而不减少信息、对一个模型的参数估计等。他提出了“方差分析”和“试验设计”这两个统计学理论,系统地发展了正态总体统计量的抽样分布,这标志着相关、回归分析和多元分析等分支学科的初步建立。他还提出了极大似然估计法,至今,还支配着统计学的发展。

一门学科的形成,其标志是该学科面貌内容的确定,对统计学来说就是χ2分布、t分布和F分布的导出及其在统计方法中的应用。[7]到了20世纪40年代,现代数理统计学已形成了自己完整的体系。

二战后,数理统计学在理论上也出现了若干根本性的新进展,主要是贝叶斯统计、统计决策理论和多元分析的兴起。

20世纪60年代后,电子计算机的应用日益广泛和深入,有力地促进了数理统计的发展,使得过去一些停留在理论上的方法付诸实现。比如,涉及数十个自变量的大型回归问题的变量选择问题,有了计算机才得以实现。利用计算机进行模拟和仿真,在短时间处理大量数据,从多个角度进行透彻分析,使“数据分析”从中提取更多的有用信息成为可能。[8]

由于统计学与其他科学新理论的结合,不断产生新的边缘科学和新的统计分支,数理统计学急速发展,愈加严谨系统、愈加数学化,也使得统计方法的应用范围愈加广泛,统计学的地位也日趋重要。

[1] 曹莉,文海玉编,《应用数理统计》,哈尔滨工业大学出版社,2012,1。

[2] 陈文英等主编,《概率论与数理统计》,科学出版社,2012,124。

[3] 陈文英等主编,《概率论与数理统计》,科学出版社,2012,124~125。

[4] 魏立力,马江洪,颜荣芳编著,《概率统计引论》,科学出版社,2012,145~146。

[5] 傅海伦,贾冠军著,《数学思想方法发展概论》,山东教育出版社,2009,134~135。

[6] 傅海伦,贾冠军著,《数学思想方法发展概论》,山东教育出版社,2009,135。

[7] 傅海伦,贾冠军著,《数学思想方法发展概论》,山东教育出版社,2009,136。

[8] 吴烔圻,林培榕编著,《数学思想方法》,厦门大学出版社,2009,119。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈