概率论和数理统计的产生和发展

(采访陈喜儒)

记者:陈喜儒院士,请您谈谈概率论与数理统计的诞生和发展。

陈喜儒院士:让我们从数理统计开始。数理统计是收集数据、分析数据并对所研究的问题得出某些结论的科学和艺术。数理统计调查的数据存在随机(偶然)误差。这就给基于这个数据得出的结论带来了一个不确定性,它的量化依赖于概率论的概念和方法。数理统计与概率论的密切关系正是基于此。

统计学起源于收集数据的活动,从个人事务到治理国家,都需要收集各种相关数据。比如在中国的古籍中,有很多关于户口、金钱、兵役、地震、水灾、旱灾的记载。如今,所有国家都有统计局或同等机构。当然,仅仅收集和记录数据的活动不能等同于统计学的建立。需要对收集到的数据进行整理和分类,并以精炼、醒目的形式表达出来。在此基础上,可以对所研究的事物进行定量或定性的估计、描述和解释,并预测其未来可能的发展。例如,根据人口普查或抽样调查的数据,描述我国人口状况,根据适当的抽样调查结果,定量评价受教育年限与收入的关系,以及某些生活习惯和爱好(如吸烟)与健康的关系。根据过去某一项或某些经济指标的变化,可以预测它们未来的走势,而做这些事情的理论和方法就可以构成一门科学——数理统计学的内容。

这样的统计是从什么时候开始的?恐怕很难找到一个明显的、公认的出发点。有一种观点得到了一些著名学者的支持,即英国学者格兰特于1662年出版的《死亡公报的自然与政治观察》一书标志着这一学科的诞生。中世纪欧洲黑死病盛行,死了很多人。从1604开始,伦敦教会每周发布一次“死亡公告”,记录在那一周死去的人的姓名、年龄、性别和死因。后面还包括那一周的出生情况——根据受洗人的名单,这个基本可以反映出生情况。几十年来,积累了大量的资料。格兰特是第一个整理和使用这些巨大材料的人。他原本是一个小店主的儿子,后来追随父亲的脚步,自学成才。因为这本书,他入选了当年成立的英国皇家学会,体现了学术界对这本书的认可和重视。

这是一本有八张表的非常小的书。以今天的眼光来看,这只是一项常规的资料整理工作,但在当时却是一项原创性的科研成果。其中提出的一些概念可以说一定程度上沿用到了今天,比如数据简化(大量的混沌数据必须经过整理和归约才能突出其中包含的信息)、频率稳定(某些事件、某些事件在较长的时期内存在基本稳定的比例,这是统计推断的基础)、数据修正、生命表(反映人口中的寿命分布,这仍然是保险精算学的基本概念)。

格兰特的方法被他同时代的政治经济学家帕蒂引入到社会经济问题的研究中。他主张在这类问题的研究中,不要空谈,要让实际的数据说话。他的工作总结在他死后1690出版的《政治算术》一书中。

当然,也应该指出,他们的工作还处于描述阶段,不是现代意义上的数理统计。当时概率论还处于起步阶段,不足以为数理统计的发展提供充分的理论支持。然而,我们不能否认他们工作的重大意义。作为现代数理统计发展的源头之一,他们和后来的学者在人口、社会和经济领域工作,特别是比利时天文学家和统计学家凯特勒655。

数理统计的另一个重要来源来自天文学和大地测量学中的误差分析。在早期,测量工具的精度并不高,人们希望通过多次测量获得更多的数据,以便得到对被测对象更准确的估计。测量误差是随机的,适合用概率论即统计学来处理。伽利略在很远的地方就做了这项工作。他对测量误差的性质做了一般性的描述。法国伟大的数学家拉普拉斯对这个问题研究了很长时间。今天概率论中著名的拉普拉斯分布就是他研究的产物。这一领域最著名、影响最深远的研究成果有两个:一个是法国数学家、天文学家勒让德在19世纪初(1805)研究彗星轨道计算时发明的“最小二乘法”,他在巴黎估算子午线长度的工作中使用了这一方法。现在这种方法的发明归功于高斯,但高斯使用这种方法的最早文字是1809,比勒让德晚。一个是现在逐渐被认可的——这个发明是两个人独立完成的,似乎更合适。另一个重要成果是德国学者高斯1809提出在研究行星绕太阳运动时,应该用正态分布来描述测量误差的分布。正态分布也常被称为高斯分布,它的曲线呈钟形,非常像颐和园玉带桥的形状,所以有时被称为“钟形曲线”,它反映了这样一种非常普遍的情况:世界上的各种事物中,“两头小中间大”,比如人的身高,过高或过矮的不多,但大多数都在中间——当然,这只是非常粗略的一种。正是它的数学特性使它得到了广泛的应用。

正态分布在数理统计中起着极其重要的作用。今天仍在普遍使用的许多统计方法是基于这样的假设,即所研究的量具有或接近正态分布。经验和理论(概率论中所谓的“中心极限定理”)都说明了这种假设的现实性。现实世界的很多现象看起来都是混沌的,比如不同的人身高体重不一样。批量生产的产品质量指标不一。看似没有规律,但一般都服从正态分布。这说明乱中有秩序。提出正态分布的高斯,一生在很多领域做出了很多伟大的贡献。但在有高斯图像的德国10马克钞票上,只画了一条正态曲线,可见人们对他的贡献评价很高。

20世纪以前数理统计发展的一个重要成果是19世纪后期由英国遗传学家和统计学家高尔顿提出并由现代统计学创始人之一K .皮尔逊等英国学者发展的统计相关和回归理论。所谓统计相关,是指一种没有定论的关系,比如一个人的身高X和体重Y之间的一般关系,当X大(小)的时候,Y趋于大(小),但是没有定论:Y不能由X决定..在现实生活和科技的各个领域,有很多这样的例子,比如受教育年限与收入的关系,经济发展水平与人口增长率的关系等等。,都属于这种性质。统计学相关理论对这种关系的程度进行量化,而统计回归是对统计学相关变量之间关系的近似估计,如上面提到的身高x和体重y,称为回归方程。在现实世界中,现象往往涉及许多变量。它们之间存在着复杂的关系,其中很多是非确定性的。相关回归理论的发明为通过实际观察对这种关系进行定量研究提供了工具,具有重大的认识和现实意义。

到20世纪初,由于上述几个方面的发展,数理统计学已经积累了大量的成果——由于篇幅所限,我们无法一一列举所有的重要成果,如抽样调查理论和方法上的进展,但在此之前,我们还不能说现代意义上的数理统计学已经建立,其主要标志之一就是这门学科还缺乏一个统一的理论框架。这个任务完成于20世纪上半叶,狭义上可以定义为1921—1938。几位大师发挥了主要作用,特别是英国的费希尔·k·皮尔逊,发展了统计假设检验理论的奈曼和e·皮尔逊,提出统计决策函数理论的沃尔德。我国著名的统计学家鲍旭(1910—1970)在这项工作中也取得了很大的成就。

二战结束以来,数理统计得到了迅速发展,主要有以下三个原因:一是数理统计理论框架的建立和概率论、数学工具的进步,为统计理论向面和深度发展打开了大门、提供了手段,早期许多粗糙的理论和方法在理论上得到完善和深化,新的研究课题不断提出;二是出于实际需要,不断提出复杂的问题和模型,吸引了学者的研究兴趣;第三,电子计算机的发明和普及,一方面提供了必要的计算工具——统计方法的实施往往涉及大量的数据处理和运算,人力无法在合理的时间内完成,所以早些年人们虽然知道一些统计方法,但由于人力力所不及,很少付诸实践。计算机的出现解决了这个问题。赋予统计方法现实的生命力。同时,计算机也有助于推动统计理论的研究,统计模拟就是其表现形式之一。许多统计学家在承认上述成就的同时,也指出了这一时期发展中的一些问题或偏差。主要是数理统计理论研究中“数学化”的味道越来越重,相当一部分研究工作停留在数学层面。早期理论研究与实际问题相结合的优良传统已经淡化,一些学者也提出了补救的建议。与此同时,实际问题越来越多地涉及大量结构复杂的数据。按照目前的数理统计规范,似乎超出了我们的能力范围。我们需要一些具有根本性创新的理念,使统计学的发展达到一个新的水平,以满足应用的需要。考虑到这一背景,一些统计学家乐观地认为,数理统计正面临新的突破。

当我们谈到数理统计的发展时,我们侧重于实际需要的推动。因为概率论的概念和方法是数理统计的理论基础,所以概率论的进步必然会促进数理统计的发展。

概率,也称概率和概率,是指一种不确定情况发生的可能性。比如扔硬币,“国徽出现”(国徽朝上)就是一种不确定的情况。因为在投掷之前,我们无法确定所指的情况(“国徽”)是否发生。如果硬币是偶数,投掷高度足够,则双方出现的几率相等。我们说“国徽”的概率是1/2;同时掷出一个均匀的骰子,“四点”的概率是1/6。除了这些以及类似的简单情况,计算概率并不容易,往往需要一些理论上的假设。在现实生活中,概率往往是通过经验方法来确定的。比如某个地区有n个人,有m个人患有某种疾病,就说这个地区的人患这种疾病的概率是m/n。

概率的概念起源于中世纪以来欧洲流行的用骰子赌博。不难理解,某种情况能够被观察到并引起研究兴趣的可能性,必须满足两个条件:一是该情况能够在重复次数下被观察到(在重复次数下出现频率更高的概率更大),一是该情况与当事人的利益相关或为其所关注,而这些条件必须通过掷骰子赌博来满足。

当时有一个“赌书共享问题”引起了热议,用了100多年才得到正确的解决。在这个过程中,诞生了概率论的一些重要的基本概念。我们举一个这个问题的简单案例:A和B赌博,各押30元和60元,每局赢的几率相等,都是1/2。惯例:谁先赢三局,谁就赢所有的赌注。60元已经赌了三局,A 2胜1负。但是因为某种原因停止赌博,问这60块钱的赌注怎么分给两个人,这才公平。乍一看,他认为应该按照2: 1分配,即A得40元,B得20元。有人提出了一些其他的解决方案,结果是不正确的,正确的。前三种情况A最后都赢了,只有最后一种是B,两者的比例是3: 1。因此,投注的公平分配应基于3: 1的比例,即甲赢45元,乙赢15元。

当时,一些学者,如惠更斯、巴斯噶、费马等人,对这种赌博做了大量的研究,并发表了一些著作。比如惠更斯的一本书,在欧洲很长一段时间被当作概率论的教材。这些研究发展和深化了原有的概率及相关概念。但是,在概率论的这个初级阶段,最重要的里程碑是伯努利的著作《思辨》。这本书出版于他去世后的1713年,不仅总结了前人在概率赌博上的成就,还有一个极其重要的内容,就是现在以他命名的“大数定律”。大数定律是一个关于(算术)平均值的定理,也就是几个数的和X1,X2...Xn。但要解释理论基础并不容易,这是伯努利大数定律要回答的问题。从某种程度上说,这个大数定律是整个概率论最基本的定律之一,也是数理统计的理论基石。

虽然概率论起源于赌博,但它很快在现实生活中找到了许多应用。第一,在人口、精算等方面。,机会原理在其发展过程中出现了几个里程碑,其第三版于1756年出版,法国数学家拉普拉斯的解析概率论于1812年出版。1933年,苏联教育家安德雷·柯尔莫哥洛夫完成了概率论的公理系统。在几条简洁的公理下,他发展了概率论的整个宏大建筑,就像展示了欧几里德公理体系下的整个几何。此后,概率论发展成为现代数学的一个重要分支,许多深奥抽象的数学理论被运用。在其影响下,数理统计理论也在向更深的方向发展。