统计学的发展过程
统计学是一门非常古老的科学。一般认为其理论研究始于古希腊亚里士多德时代,至今已有2300多年的历史。它起源于对社会和经济问题的研究。在两千多年的发展过程中,统计学至少经历了“城邦政治”、“政治算术”、“统计分析科学”三个发展阶段。所谓“数理统计学”并不是独立于统计学的新学科。确切地说,它是统计学在第三发展阶段形成的所有收集和分析数据的新方法的总称。概率论是数理统计的理论基础,但它属于数学而不是统计学。[1]与“城邦政治”阶段没有明显的分界点,本质区别不大。
《政治算术》的特点是统计方法与数学计算、推理方法相结合。分析社会经济问题的方式更注重定量分析方法的运用。
1690年,威廉·配第出版了《政治算术》一书,作为这一阶段的开始标志。
威廉·配第用数字、重量和尺度量化社会经济现象的方法,是现代统计学的一个重要特征。因此,威廉·配第的《政治算术》被后世学者评价为现代统计学之源,威廉·配第本人也被评价为现代统计学之父。
佩蒂的书中使用了三种类型的数字:
第一类是对社会经济现象进行统计调查和实证观察所得到的数字。由于历史条件的限制,书中经过严格统计调查得出的数据很少,很多数字都是根据经验得出的。
第二类是用某种数学方法计算出来的数字。其计算方法可分为三种:基于平均值的方法”;第三类是用于理论推理的说明性数字。佩蒂把这种用数字和符号进行的推理称为“代数算法”。从配第使用数据的方法来看,“政治算术”阶段的统计学已经鲜明地体现了“收集和分析数据的科学与艺术”的特点,统计实证方法与理论分析方法融为一体,即使是现代统计学也依然继承。[2]“政治算术”阶段的统计学与数学相结合的趋势逐渐发展为“统计分析科学”。
19世纪末,欧洲大学开设的“国情概要”或“政治算术”等课程名称逐渐消失,取而代之的是“统计分析科学”。当时“统计分析学”的课程内容仍然是分析和研究社会经济问题。
“统计分析科学”这门课程的出现是现代统计学发展阶段的开始。1908年,Student(化名William Sleey Gosset)发表了一篇关于t分布的论文,这是统计发展史上划时代的文章。它开创了用小样本代替大样本的方法,开创了统计学的新时代。
比利时统计学家阿道夫·奎莱是现代统计学的第一个代表。他将统计分析科学广泛应用于社会科学、自然科学和工程技术科学,因为他确信统计学可以作为一种通用的研究方法来研究任何科学。
现代统计学的理论基础概率论开始研究赌博的时机,大概是从1477开始的。数学家们进行了长期的研究来解释支配机会的一般规律,并逐渐形成了概率论的理论框架。在概率论进一步发展的基础上,到十九世纪初,数学家们逐渐建立了观测误差理论、正态分布理论和最小二乘法。因此,现代统计方法有比较坚实的理论基础。统计学:收集、处理、分析和解释数据并从数据中得出结论的科学。
描述统计学:研究数据收集、处理和描述的统计方法。
推断统计学:研究如何利用样本数据推断总体特征的统计方法。
变量:每次观察都会导致不同结果的特性。
分类变量:观察结果被表示为某一类变量。
秩变量:也称有序分类变量,观测结果显示某种有序变量。
度量变量:也称为数量变量,观察结果是数值变量。
均值:均值是平均值,有时尤其是算术平均值。这是用其他方法计算出来的平均值。解决方法是先把所有的数加起来,然后除以数的个数。这是一种测量集中趋势或平均值的方法。
中位数:即选择中间的数字。求中位数需要先从小到大排序,再看中间的数字是多少。
众数:众数是数据集中出现频率最高的数字。为了将统计学应用于科学、工业和社会问题,我们从研究矩阵开始。这可能是一个国家的人民,一块石头里的水晶,或者某个特定工厂生产的商品。一个矩阵甚至可能由多次相同的观测程序组成;这类数据集合组成的矩阵称为时间序列。
出于实际原因,我们选择研究矩阵的一个子集,而不是研究矩阵的每一条数据,这个子集称为样本。有一定经验的设计实验所收集的样本称为数据。数据是统计分析的对象,用于两个相关的目的:描述和推断。描述性统计处理叙述性问题:数据是否可以有效地概括,无论是用数学还是用图片,来表示矩阵的性质?基本的数学描述包括均值和标准差。图像摘要包含多种表格和图形。
推断统计用于对数据中的数据进行建模,计算其概率并对矩阵进行推断。这种推断可以通过对真/假问题的回答(假设检验)、数字特征的估计(估计)、未来观察的预测、相关性的预测(相关性)或关系的建模(回归)来呈现。其他建模技术包括方差分析(ANOVA)、时间序列和数据挖掘。
相关概念特别值得讨论。数据集的统计分析可能会显示两个变量(矩阵中的两个属性)倾向于一起变化,就好像它们是关联的一样。例如,关于人们收入和死亡年龄的研究期刊可能会发现,穷人的平均寿命往往比富人短。这两个变量叫做相关性。但实际上,我们不能直接推断这两个变量之间存在因果关系;参见相关推论因果关系(逻辑谬误)。
如果样本是矩阵的代表,那么由样本做出的推论和结论可以推广到整个矩阵。最大的问题是决定样本是否足以代表整个矩阵。统计学提供了很多方法来估计和修正样本收集和数据收集过程中的随机性(误差),就像上面提到的通过经验设计的实验一样。见实验设计。
要理解随机性或概率,必须要有基本的数学概念。数理统计(通常称为统计理论)是应用数学的一个分支,它利用概率论来分析和验证统计学的理论基础。
只有当系统或矩阵满足方法论的基本假设时,任何统计方法才是有效的。统计数据的误用可能导致描述或推断中的严重错误,这可能影响社会政策、医疗实践以及桥梁或核能发电计划的可靠性。
即使正确应用了统计学,对于非专家的人来说,结果也可能难以陈述。例如,统计数据的显著变化可能是由样本中的随机变量引起的,但这种显著性可能与公众的直觉相反。面对日常生活中引用统计数据获得的信息,人们需要一些统计技巧(或疑惑)。测量尺度
统计学1 * * *有四种测量尺度或四种测量方法。这四种度量(名、序、等距、等比)在统计过程中具有不同的实用性。
根据定义,比率测量值为零,数据之间的距离相等。
区间测量数据之间的距离相等且被定义,但其零值不是绝对的而是自定义的(如智能或温度测量);
序数测度的意义不体现在它的值上,而在它的序之上;
标称测量的测量值没有定量意义。下面列举了一些著名的统计验证方法和验证实验数据的步骤。
费希尔最小显著差异检验(费希尔最小显著差异检验)
“学生”t检验
曼-惠特尼U检验
回归分析(回归分析)
相关性(相关性)
皮尔逊积矩相关系数。
斯皮尔曼等级相关系数(斯皮尔曼等级相关系数)
卡方分布
建国时期
德国的施利茨曾经说过:“统计是动态的历史,历史是静态的统计”。可见,统计学的产生和发展是与生产发展和社会进步密切相关的。
统计学的萌芽产生于欧洲,17世纪中期到18世纪中期是统计学的创始时期。在这一时期,统计理论初步形成了一定的学术派别,主要包括国家趋势派和政治算术派。