概率论与数理统计概要

1.1.1随机现象:

概率论与数理统计的研究对象是随机现象,即在一定条件下并不总是有相同结果的现象,即不能确定结果的现象统称为随机现象。现实生活中有很多随机现象,比如一个同校统一专业的学生考上研究生的现象就是随机的。你不能说哪个学生一定能考上某个学校,但是你可以根据这个学校前几年的数据来估算这个学校的考研率,在一定程度上可以大致估算出这个学校某个学生考上研究生的可能性。当然,一个学生能不能考上研究生,和这个学校的考研率没有必然联系,因为它具有随机性和不确定性,但是有一定的相关性在里面。全概率论研究的是随机现象的模型(概率分布),概率分布是一种工具,可以用来描述一种随机现象的特征。有阴的地方就有阳,有随机事件的时候自然对应确定性现象(比如每天太阳的升起和落下)。

1.1.2样本空间:

随机现象所有可能的基本结果的集合称为样本空间,集合中的元素也称为样本点。当样本点数为可数或有限时,称为离散样本空间,当样本点数为无限或不可数时,称为连续样本空间。(列表就是把它们按照一定的顺序一个一个的列出来,比如某一天到达某个商场的人数是整数1,2,3。。。。比如电视机的寿命是100.1小时,100.01小时,100.438+0小时。您永远不能按顺序列出小于100的下一个元素。

1.1.3随机事件:

随机现象由一些样本点组成的集合称为随机事件,是指随机事件是样本空间的子集,而样本空间中单个元素组成的集合称为基本事件,样本空间本身也是一个事件称为必然事件,样本空间的最小子集即空集称为不可能事件。

1.1.4随机变量:

用来表示随机现象结果的变量称为随机变量,随机变量的值表示随机事件的结果。事实上,随机事件的结果往往可以与一个随机变量的值一一对应。

1.1.5随机事件之间的运算和关系;

既然我们把随机事件定义为集合事件之间的运算,那么它也可以看作是集合之间的运算。集合之间的交、并、补、差等运算也存在于随机事件之间,运算规则是一致的。集合之间有包含、相等、不相容、对立,也有事件。随机事件之间的运算性质满足交换定律、关联定律、分布率和德摩根定律。

1.1.6事件域:

事件域是由样本空间的一些子集组成的集合类,并且满足三个条件。事件域中元素的数量是样本空间子集的数量。例如,具有n个样本点的样本空间在其事件域中具有元素。定义事件域主要是为定义事件概率做准备。

概率论中最基本的问题是如何确定一个随机事件的概率。虽然一个随机事件的结果是不确定的,但是它的结果具有一定的规律性(即随机事件发生的概率),而用来描述这种规律性的工具就是概率,但是我们如何定义概率呢?如何衡量描述事件的可能性?这是一个问题。

在概率论的历史上,对于不同的随机事件,有过各种各样的概率定义,但那些定义只适用于某一类随机事件。那么如何给出适用于所有随机现象的概率的最一般定义呢?1900年,数学家希尔伯特提出建立概率的公理化定义,即建立满足所有随机事件的概率的普适定义,用概率的本质东西来描述概率。1933年,前苏联数学家安德雷·柯尔莫哥洛夫第一次提出了概率的公理化定义,它不仅总结了历史上几种概率定义* * *相同的特点,还避免了它们各自的歧义。无论什么随机现象满足定义中的三个公理,都可以说是概率。该定义发表后,得到了几乎所有数学家的一致认可。(题外话,数学家如果有重大发现,需要写论文得到学术圈人士的一致认可,他的发现才能作为公理写进教科书。之所以称之为公理,是因为它既是普遍适用的原理,也是公认的真理)。

1.2.1概率的三个公理化定义;

每一个随机事件都必须伴随着她的样本空间(就像有些成功的男人背后都有老婆一样)。每个随机事件都属于样本空间的事件域,如果样本空间选择不同,同一随机事件的概率通常会不同。

如果概率满足上述三个公理,则由样本空间、事件域和概率组成的空间称为概率空间,满足上述三个公理的概率可以称为概率。

概率的公理化定义并没有给出计算概率的方法,那么在知道概率是什么之后,如何确定概率就成了另一个问题。

1.2.2确定概率的频率方法:

频率法确定概率的应用场景是在可以大量重复的随机实验中进行的。使用频率的稳定值来获得概率的估计值的思想如下:

为什么会想到用频率来估计概率?因为人们长期的实践表明,随着实验次数的增加,频率会稳定在某一常数附近,我们称之为频率的稳定值。后来伯恩哈德大数定律证明其稳定值是随机事件的概率,可以证明频率满足概率的三个公理化定义,说明频率是“伪概率”。

1.2.4确定概率的经典方法:

古典问题是概率论学习史上最早的问题,包括帕斯卡研究的骰子问题,都是古典问题。他简单直观,我们不需要做大量实验,就可以在经验事实的基础上,感性理性地分析清楚。

经典方法确定概率的思路如下:

显然,经典概率满足概率的三个公理化定义,经典概率是确定概率的最古老的常用方法。求经典概率归结为求样本空间中样本点的总数和事件样本点的个数,所以计算中经常用到排列组合的工具。

1.2.5确定概率的几何方法;

基本理念:

1.2.6确定概率的主观方法:

现实世界中,有些随机现象是无法随机检验的,或者进行随机实验的成本太大,得不偿失。这个时候怎么确定概率?

贝叶斯统计学派认为,事件发生的概率是人们根据经验对事件发生可能性的个人信念,因此给出的概率称为主观概率。举个例子,我说我考上研究生的概率是100%(这当然是吹牛,但也包括自信和自己对自己学习情况的了解,以及自己对所报考院校的了解)。比如一个创业者说,根据他多年的经验和当时的一些市场信息,一个新产品在市场上畅销的可能性是80%(这种情况下,如果有熟人私下告诉你,你还可以相信,但要小心。如果一个陌生人当着很多人的面说,你会相信吗?只有傻瓜才会相信,对吧?这么受欢迎,为什么不自己做,把蛋糕送给老子?)。主观概率是根据实际情况对某件事情发生的可能性的估计,但这种估计的好坏还有待考证。

明白了就不用记这个了。我是一个很勤奋的人,懒得去记和写其他公式。。。。下面只分析条件概率、全概率公式和贝叶斯公式:

1.3.1条件概率:

所谓条件概率,就是事件A发生时B发生的概率,即如果P (b)>则A B是样本空间中每两个事件;0表示:

是在b发生的前提下,a发生的条件概率,简称条件概率。

这个公式不难理解。实际上,上述公式的意思是“在B发生的条件下,A发生的概率等于事件A和事件B的样本点数***大于最后B的样本点数”,可以验证这个条件概率满足概率的三个公理化定义。

1.3.2乘法公式:

1.3.3总概率公式:

设它是样本空间的一个划分,也就是说,它是互不相容的,如果有:

这个公式也很好理解,因为样本是互不相容的,它们的和事件是样本空间,所以事件A中的样本点数等于事件A和* * *中的样本点数之和。

1.3.4贝叶斯公式:

贝叶斯公式是在全概率公式和乘法公式的基础上推导出来的。

如果它是样本空间的一个划分,它是互不相容的,并且如果:

公式的证明以条件概率为基础,然后分子分母可以分别用乘法公式和全概率公式代替。在公式中,已知的概率称为先验概率,而在公式中,称为后验概率。全概率公式和乘法公式从原因推导出结果,贝叶斯公式从结果推导出原因。

1.3.5事件独立性:

上面,我们介绍了条件概率的概念。在条件A下,条件B发生的概率是,如果条件B的发生不受A的影响?直觉上,这将意味着

所以引入下面的定义来说,如果涉及到任意两个事件A和B,那么事件A和事件B是相互独立的。

除了两个随机事件相互独立满足的定义,当然还会有很多随机事件独立满足的定义。对于n个相互独立的随机事件,要求事件中的任意随机事件相互独立。

1.3.6伯努利概率类型:

定义:如果实验E只有两种可能的结果,然后重复实验N次,则形成N重伯努利检验或伯努利概率形式。很明显,每个伯努利检验事件的结果是相互独立的,所以伯努利检验明显服从二项分布,然后引入二项分布。

1.4.1离散随机变量:

之前已经说过,用来表示随机现象结果的变量叫做随机变量,比如一个随机变量的值可以是1,2,3...很明显,随机测试的结果与随机变量的值是一一对应的,所以我们将随机测试结果的统计规律研究成随机变量的统计规律,同时这是人为建立的,也是合理的,在只能取有限的数或一列值的情况下调用随机变量。

1.4.2随机变量的分布列表;

列出随机变量的值及其对应的值,即概率,称为分布表。分布表使随机变量的统计规律一目了然,便于计算其特征数的方差和均值。分发列表满足以下两个属性:

满足上述两个属性的列表称为分发列表。

1.4.3分布函数:

设x为随机变量,对任意实数x,称为随机变量x的分布函数写成。

分布函数满足以下三个特性:

上述性质是函数为分布函数的充要条件。

1.4.4数学期望和方差:

让我们看一个例子。某手表厂在其生产的产品中随机抽查N=100只手表的日走时误差。数据如下:

此时,这100只手表的平均每日走时误差为:记录每日走时误差频率的地方。

平均值是频率乘以频率之和,所以理论上频率应该用概率代替,因为频率在时间上是稳定的。这时我们把频率被概率代替后得到的平均值称为数学期望(其实后面大数定律得到的平均值在数学期望中也是稳定的),数学期望在一定程度上反映了随机变量X的结果的平均程度,即整体的大小,记为。

定义:设x为随机变量。如果x的均值存在,则称为随机变量的方差。

显然方差也是一个均值,那么它是什么呢?它代表随机变量的平均偏差。我们可以推导出随机变量的均值偏差之和等于零,所以均值偏差之和的均值也等于零,但是我们希望用偏差来描述不同分布之间的差异。如果我们用平均偏差之和的平均值,那么任何分布都是零,所以我们在偏差上加一个平方来避免偏差和零。那么方差这个代表分布特征的数字的意义是什么呢?很多人好像学完了概率统计,却连方差的意义都不懂。其实方差是用来描述数据之间的差异的,而描述数据之间的差异,无论是空间上的向量还是平面上的点,都不如用距离来描述它们之间的差异。在物理学中,要想正确合理地比较两个运动物体的速度和加速度,就需要选择一个合适的参照系进行比较。同样,在比较数据之间的差异时,我们往往以均值作为它们的参考(其实也可以用其他值进行比较,但那样可能会造成方差过大的现象)。离均值的距离越大,两者的差异越大,距离分为正负之分。所以为了区分正负,我们还需要在离均值的距离上加一个平方,这就是方差概念的来源。我们通常用方差来描述一组数据之间的差异。方差越小,数据越集中,数据越大,数据越分散。同时,在金融中也用于评估股票价格的波动性等风险。当然,我们希望股价波动越稳定,方差越小,收益越稳定。

因为均值和方差描述了随机变量及其分布的一些特征,所以称为特征数。

1.4.5连续型随机变量的密度函数;

连续型随机变量的值可能会填满某个区间,所以连续型随机变量的概率分布就不能再用分布列表的线来表示了,而要用其他的工具来表示,也就是概率密度函数。

概率密度函数的由来:比如工厂测量一个加工件的长度时,我们把测得的零件按长度叠起来。横轴是部件的单位长度,纵轴是部件单位长度的频率。当有大量的原件时,就会形成一定的图形。为了稳定这个图,我们把纵轴修改为单位长度的频率。随着组件数量的增加,频率会逐渐稳定在概率上。当单位长度越小时,原始数越多,图形越稳定。当单位长度趋于零时,图形呈现平滑曲线。此时纵坐标从“单位长度上的概率”变为“一点上的概率密度”。此时形成的光滑曲线的函数称为概率密度函数,它表现出X在某些地方取值的可能性较大,在某些地方取值的可能性较小的一个统计规律,概率密度函数为

虽然概率密度函数不是密度,但是小区间概率的近似值可以通过将其乘以一个小的无穷小来获得,即

区间上的概率可以通过微分元素的累加得到,无非就是区间=上的积分。

由此可以得到X的分布函数。对于连续的随机变量,密度函数的积分是分布函数,分布函数的导数是密度函数。

密度函数的基本性质:

1.4.6连续型随机变量的期望和方差;

设随机变量x的密度函数为。

数学期望:

差异:

1.4.7切比雪夫不等式(切比雪夫,1821-1894);

设随机变量x的数学期望和方差存在,对于任意常数,有:

之所以有这个公式,是因为人们认为事件{ 0 }发生的概率应该与方差有关,这是可以理解的。方差越大,X的值的偏差就越大,也就是说偏差值越大于某个常数A,该值大于某个值的概率就越大。上述公式表明,大偏差发生概率的上界与方差有关,方差越大,上界越大。

1.4.8常见离散分布:

1.4.9常用连续分布: