正态分布某一点的概率怎么算_一文搞懂“正态分布”所有重要知识点

原标题:一文搞懂“正态分布”所有重要知识点

e7601dc65d645980e5f82e300508e5b4.png

作者:丁点helper

来源:丁点帮你

正态分布,这个我们从中学就学过的内容,真有这么重要吗?我想,真正学懂统计的人对这一点是不会质疑的,且不谈特别高深的统计理论,彻底弄懂正态分布是灵活运用统计学中各种假设检验方法、看懂p值,理解均数置信区间的前提。今天,我尝试带着大家搞懂对于正态分布你需要知道的所有知识点。

作为统计学的基础,我们会主要注重思维理解,复杂的数学计算在此略去。这并非意味着数学不重要,对数学的仔细专研恰恰会特别辅助理解和掌握,只是对于大部分数学基础不好的同学这个难度不小,所以我们在这里会尽可能少用难懂的数学理论,用简单的语言讲清最基础、最重要的逻辑。本篇文章主要来自于我们微信公众号“丁点帮你”的SPSS与统计思维的系列课程的第七讲 二项分布和正态分布,在这里形成文字是为了不方便看视频的同学学习和回顾。

1. 从名字说起

为什么叫“正态分布”,也有地方叫“常态分布”,这两个名字都不太直观,但如果我们各取一字变为“正常分布”,就很白话了,而这正是“正态分布”的本质含义,Normal Distribution。它太常见了,基本上能描述所有常见的事物和现象:正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢?就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见。

你可能不禁要问,这是为什么?我们认为,这其实与我们前面所讲的同质与变异的概念相关(参见课程第三讲 统计学核心思维与统计描述)。因为我们研究的对象具有同质性(比如都是成年的中国男子),所以其特征往往是趋同的,即存在一个基准;但由于个体变异的存在(当然变异不会太大),这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征。

2. 连续型随机变量研究区间概率

了解了正态分布的基本思想,我们来看看实际应用中我们需要掌握的要点。首先,正态分布属于“连续型随机变量分布”的一类。我们知道,对于连续型随机变量,我们不关注“点概率”,只关注“区间概率”,这是什么意思?

我们看这个例子,假定随机变量X指是“北京市成年男子的身高”,理论上它可以取任意正数,所以我们把它当做一个连续型随机变量(连续型变量,就是指可以取某一区间或整个实数轴上的任意一个值的变量)来看待。这里,我们先想一想如何计算P(X =1.87)? 即身高恰好完全exactly等于1.87的概率是多少,这就是所谓的“点概率”。更极端一点,让随机变量Y是[0,1]这个区间上的任意一点,那么Y的取值有多少个呢?无数多个,我们数不清楚,所以Y 取某一个具体的值的概率是1除以无数,即可以看做是0。于是,这里透露一个很重要的结论:连续型随机变量取任意某个确定的值的概率均为0。因此,对于连续型随机变量,我们通常不研究它取某个特定值的概率,而研究它在某一段区间上的取值,比如身高在1.70~1.80的概率。

3. 概率密度函数

对于初学者来讲,“概率密度”可能是最不友好的一个概念,直接谈概率不行吗,好好的为什么要生出一个“密度”?的确,没有太多数理基础,这个概念着实不太好理解。虽然文字和数学公式上你可能感觉很陌生,但我们特别熟知的那条中间高、两边低的“钟形曲线”恰恰就是正态分布的概率密度曲线。前面我们讲了区间概率,这里你就可以通过区间的角度来理解概率密度曲线:曲线越高,也就代表着这个区间的数据越密集,简单理解成在同样大小的房子里,这个房间的人数更多、更挤。除此之外,另一个关于概率密度函数的重要知识点是,积分(这里简单理解为“密度曲线下面积“即可)等于概率。随机变量X在某个区间比如(a,b)即a

下图中的三条曲线f(x),就是概率密度函数,各种形式的概率就是相对应的曲线下面积。这里,数学基础不太好的同学不用特别深挖积分的计算过程,但对这三张图与对应的概率表达形式,同学们要熟知。

e7601dc65d645980e5f82e300508e5b4.png

4. 均数和标准差

前面说对于正态分布的概率密度函数以及积分不用特别关注,那真正需要关注的是什么呢?就是均数和标准差。这里需要明确的是,一旦谈及正态分布,我们首先要想到它的两个参数:均数和标准差。每次一遇到正态分布就迅速找这两个概念,最好形成条件反射,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

关于正态分布均数和标准差的性质,我们这里简单总结一下:1)概率密度曲线在均值处达到最大,并且对称;2)一旦均值和标准差确定,正态分布曲线也就确定;3)当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;4)正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 ;5)均值可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度:标准差越大,正态曲线越扁平;标准差越小,正态曲线越陡峭。这是因为,标准差越小,意味着大多数变量值离均数的距离越短,因此大多数值都紧密地聚集在均数周围,图形所能覆盖的变量值就少些(比如1±0.1涵盖[0.9,1.1]),于是都挤在一块,图形上呈现瘦高型。相反,标准差越大,数据跨度就比较大,分散程度大,所覆盖的变量值就越多(比如1±0.5涵盖[0.5,1.5]),图形呈现“矮胖型”。

我们可以对照下图直观地看一下,图中黄色曲线为A,蓝色曲线为B,紫红色曲线为C。如图,我们可以看到均数的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦。A和B的均值一样,但标准差不同,所以形状不同,根据我们的描述,图形越瘦高,标准差越小,图形越扁平,标准差越大。确实如此,图中B的标准差是1/2,小于A的标准差1。

ea3deb6caf36608ce2352349137ecb79.png

5. 标准化与查表求概率

接下来,我们通过一个例子来看如何通过查表法计算正态分布变量在某个区间的概率。首先,我们看这个问题,说小明每天上学的通勤时间是一个随机变量X,这个变量服从正态分布。统计他过去20天的通勤时间(单位:分钟):26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34。现在我们想知道他上学花30~45分钟的概率。

首先,我们将问题转化为数学表达式,要算他上学花30~45分钟的概率,就是求P(30 < X < 45)。之前我们一直强调,一个变量服从正态分布,就要立马考虑到它的均数和标准差是多少。这里我们简化一下用他过去20天的样本数据来代替。所以,我们首先计算这20天通勤时间的样本均数及标准差,分别为38.8(分钟)和11.4(分钟)。

然后,我们进行标准化,这一步很重要,也称z变换。通过标准化,所有服从一般正态分布的随机变量都变成了服从均数为0,标准差为1的标准正态分布。对于服从标准正态分布的随机变量,专门用z表示。因此,求P(30 < X < 45),就转换成了求P(-0.77 < Z < 0.54),标准化的具体计算为:

30 →(30-38.8)/ 11.4 = - 0.77

45 →(45-38.8)/ 11.4 = 0.54

X → Z

P(30 ≤ X ≤ 45)= P(-0.77 ≤ Z ≤ 0.54)

这里简单提醒一下,经过标准化后,原来的曲线的形状不会变化,即不会改变胖瘦,只是位置发生平移,比如下图中的例子,经过标准化实际上只是均数从1010移到了0。

baa1724cbb0ec20bf68677cb60ae4d11.png

完成z变换,我们就通过可以利用z值表找到对应的概率值。下图就是z值表,一般的统计教科书后面都有,同学们也可以在网上查到。找不到的同学,可以关注我们的微信公众号后台留言索取。

09a148760a0844a5d684d6d476333311.png

再三强调,图中阴影部分的面积代表的是Z ≤ z的概率(注意是“≤”)。另外,还有两个根据定义成立的两个公式:一是P(Z ≥ z)= 1- P(Z ≤ z);二是P(Z≤-z)= 1-P(Z ≤ z)大家也需要了解。下面我们正式看看怎么查表,前面我们已经把问题转化成求P (-0.77 ≤ Z ≤0.54) = P (Z ≤ 0.54)–P (Z ≤ -0.77),于是,我们需要找当Z≤0.54和Z≤-0.77的概率值然后相减即可。

先看Z≤0.54的P值,对照下图,首先看表格最左边那一列,找到0.5,然后,因为0.54的第二位小数是4,所以定位到顶行找到“4”那一列,得到0.7054;同样的方法,我们找到Z≤-0.77对应的P值0.2206。最后我们就能算出,P (-0.77 ≤ Z ≤0.54) = 0.4848,约等于0.5。因此,我们可以说,小明上学通勤时间花费30~45分钟的概率是50%,这个概率还挺大的,占了一半。我们通过这个具体的例子详细讲解了随机变量在某个区间的概率求解,不是因为这个计算有多重要,而是想提前给你打好基础,方便理解假设检验及p值等相关概念。

17ac1d1eda81ffd8f345bb8cd752d2eb.png

P (Z ≤ 0.54) = 0.7054

3bf4fd1f617d08dda560e1de4a06e9ed.png

P (Z ≤ -0.77) = 0.2206

6. 三个百分数:68%,95%,99.7%

熟悉了Z变换、查表求概率,我们来看看正态分布运用十分广泛的三个百分数:68%,95%,99.7%。先看标准正态分布,我们知道一个变量服从标准正态分布,它的均数是0,标准差是1,那除了这两个数字之外,我们还能获得更多的信息吗?可以,这三个百分数告诉了我们答案。看下面这3个图:

fa6a33324fab631480917babddfa01b7.png

59e814701894240e561faef82f446056.png

320703ba239bfe4dc929c31b1cfcd397.png

虽然理论上正态随机变量可以取无数个值,定义域是整个实数轴,但实际上在[-1,1]这个区间就包含了它可以取的68%的值,[-2,2]区间包含了95%的值,[-3,3]包含了它可能取的99.7%的值。这里的1,2,3分别代表一个、两个和三个标准差(标准正态分布的均数为0,标准差为1)。所以,根据这些,我们就可以推断,一个服从标准正态分布的变量,它的取值很不可能超过2,极不可能超过3。这个用处非常大,一下子把我们要研究的重心从整个实数轴缩小到[-3,3]这个区间。另外,这里虽然是以标准正态分布为例进行说明,但这个性质是完全可以推到普通的正态分布的变量的。百分数不变,不过均数和标准差不再是0和1,而是代入具体分布的均数和标准差即可。下面我们来看一个实际应用的例子。

某小学学生身高的平均值和标准差分别为1.4(米)和0.15(米),我们知道身高一般是服从正态分布的,由此我们可以知道这个学校有68%的学生的身高在1.25到1.55,这里的1.25和1.55就是1.4加减0.15得到的(均数加减一个标准差),有95%的学生身高在1.1到1.7之间(均数加减两个标准差),由此便极大地提升了我们对数据的掌握程度。讲完这些你会发现一种巧妙的求解均数和标准差的方法:如果我们知道了某个变量的95%区间的取值(关于均值对称),我们就可以算出对应的均数和标准差,进而几乎知道了一切。

e5f8c91cd919b0c101fd51c41227573b.png

以上即为梳理的有关正态分布的关键知识点,希望大家在遇到假设检验和p值等概念的理解障碍时能回头看看这些最基础的要点,相信对你会有所帮助。返回搜狐,查看更多

责任编辑:

王照梓
关注 关注
  • 9
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
正态分布一点概率怎么_统计基础篇之十三:怎么理解正态分布(二)
weixin_33313117的博客
01-17 7630
本篇着重谈一下正态分布的各种计。对于连续数据分布来说,给出的都是概率密度函数,要想计概率,就要用到积分。假设一个随机变量服从正态分布N(μ,σ^2)分布,求a<X≤b的概率P。于是有其中-∞<a<X≤b<∞。在μ和σ未知时,可以用样本的和S来代替。大家看到这个公式是不是头疼了?我相信很多人不会做微积分了,其实我也不会了。不过也不用怕,统计学家们为了让使用者更方便计,想了各种各样的办法。这些办...
正态分布(Normal distribution)又名高斯分布(Gaussian distribution)
热门推荐
rns521的专栏
11-09 38万+
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要概率分布,在统计学的许多方面有着重大的影响力。 若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为: X∼N(μ,σ2), 则其概率密度函数为 正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度
一文搞懂正态分布”所有重要知识点
CDA数据分析师
10-23 6529
作者:丁点helper 来源:丁点帮你 正态分布,这个我们从中学就学过的内容,真有这么重要吗?我想,真正学懂统计的人对这一点是不会质疑的,且不谈特别高深的统计理论,彻底弄懂正态分布是灵活运用统计学中各种假设检验方法、看懂p值,理解均数置信区间的前提。今天,我尝试带着大家搞懂对于正态分布你需要知道的所有知识点。 作为统计学的基础,我们会主要注重思维理解,复杂的数学计在此略去。这并非意味着数学不重要,对数学的仔细专研恰恰会特别辅助理解和掌握,只是对于大部分数学基础不好的同学这个难度不小,所以我们在这..
正态分布及其概率
数据客
08-17 22万+
上一篇讲了三个典型的离散分布(离散分布概率:几何分布、二项分布和泊松分布https://blog.csdn.net/weixin_41140174/article/details/99634408),这篇开始进入连续型概率分布,最常用的“正态分布”。 1. 连续型概率分布和离散型概率分布 离散型概率分布:几何分布、二项分布、泊松分布都是离散型概率分布,一般是求事件出现次数的概率,次数是整数,其...
正态分布一点概率怎么_标准正态分布+标准正态分布概率表+分布函数+积分...
weixin_39841640的博客
01-17 6728
X~N(μ,σ²):一般正态分布:均值为μ、方差为σ²http://blog.csdn.net/zhanghongxian123/article/details/39008493对于标准正态分布来说,存在一张表,称为:标准正态分布表:该表计的是:P(X<=x)【某个数落在某个[-@,x]】的概率。也就是下面阴影图形所示的面积:如果x=1.96.则将1.96拆分为1.9和0.06.横轴1.9...
zhengtaifenbu.rar_正态分布_正态分布 概率_正态概率分布
09-23
根据输入数据计出其正态分布概率。精准度可达1e-5.
正态分布下的最大似然估计_正态分布的最大似然估计_
09-30
以简单的举例来实现正态分布下的最大似然估计,并绘图进行对比
practice.rar_labview_labview正态分布_labview高斯分布_shortery6y
07-14
LabVIEW实现计标准正态分布,LabVIEW环境下可直接运行
ZT.rar_Box muller_c# 正态分布_zt.r_正态分布函数
09-21
能够产生标准正态分布数据的函数。该程序根据Box-Muller方法生成正态分布函数
017_标准正态分布概率1
08-08
分布如图:其概率密度公式为:其中为标准差,为均值当μ=0,σ=1时称随机变量X服从标准正态分布,其概率密度为:标准正态分布概率即为φ(x)的标准正态分布概率
正态分布详解.rar_正态分布_正态分布 数理统计_跑狗网5043论坛
07-14
正态分布的一个很好的课件,非那种艰涩的纯抽象讲解,有各种具体的案例,比较适合初学者深刻理解正态分布的内涵
正态分布随机数.rar_C++_正态分布_随机数
07-15
实现正态分布随机数,可以控制平均值和标准差
norplot.rar_300_数据正态分布_正态分布;_面积
07-14
根据生成的300*1 数据,计得出该组数据,(标准)正态分布密度曲线下的面积
gailv.rar_VWE_对数正态_对数正态 拟合_数据 正态分布_数据正态分布
07-15
实现概率密度函数的画法,可以拟合出一组数据的正态分布函数和对数正态分布函数。包括柱状图和曲线图
3σ定律(three-sigma rule)/ 68–95–99.7原则
贾己人的博客
05-21 8万+
在统计上,68–95–99.7原则是在正态分布中,距平均值小于一个标准差、二个标准差、三个标准差以内的百分比,更精确的数字是68.27%、95.45%及99.73%。若用数学用语表示,其式如下,其中X为正态分布随机变数的观测值,μ为分布的平均值,而σ为标准差: 在实验科学中有对应正态分布的三西格马定律(three-sigma rule of thumb),是一个简单的推论,内容是“几乎所有...
概率论与统计学】最常用常考的6种概率 经验分享
weixin_44115606的博客
06-16 3481
本文介绍在概率论与数理统计,统计学这两门课中,以及平时的作业中最常用的两种需要加以应用的六种概率。按照数据的类型可以分为两类,一类是针对连续型变量(均匀分布、指数分布、正态分布),另一类则针对离散型变量(0-1分布、二项分布、泊松分布)。 一、离散型变量 1、二项分布 在每次试验中只有两种可能的结果,而且两种结果发生与否互相独立互斥,每次的实验结果都互不影响无关,事件发生与否的概率在每一次独立试验中都保持不变。 期望E(X) = np 方差D(X) = np(1-p); 2、0-1分布 已知随机变量
2020-11-12
qq_21028619的博客
11-12 768
参数估计的非正则性笔记(1)参数估计的非正则性半正态分布的性质引用链接插入图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右KaTeX数学公式 参数估计的非正则性 半正态分布的性质 引用链接 链接: https://wikimili.com/en/Half-normal_distribution. The half-normal distribution is a special case of the folded normal distribution. Let X f
正态分布一点概率怎么_概率分布知识总结
weixin_39847556的博客
12-19 6723
随机变量随机变量分为离散型随机变量与连续型随机变量离散型随机变量的概率公式概率质量函数(PMF),统计图中的形状为离散概率分布连续型随机变量的概率公式概率密度函数(PDF),统计图中的形状为连续概率分布离散概率分布离散随机变量(概率质量函数PMF),其中常见的包括伯努利分布、二项分布、几何分布和泊松分布一、伯努利分布(0-1分布)单次随机试验,只有"成功(值为1)"或"失败(值为0)"...
正态分布一点概率怎么
最新发布
06-11
要计正态分布一点概率,可以使用标准正态分布表或者计机软件来进行计。如果使用计机软件,可以使用一些统计计库中的函数来计,例如Python中的scipy.stats.norm或者R语言中的dnorm函数。如果使用标准正态分布表,需要先将正态分布转化为标准正态分布,然后查表获得对应的概率值。具体的计方法可以参考统计学相关的教材或者网上的教程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
80
原创
27
点赞
127
收藏
19
粉丝
关注
私信
写文章

热门文章

  • 正态分布某一点的概率怎么算_一文搞懂“正态分布”所有重要知识点 24279
  • dataframe选择某行某列的元素_pandas入门: 数据选择 11093
  • 计算机函数concatenate,Excel中concatenate函数的使用方法,看完你学会了么 6037
  • matlab比较矩阵对应元素,matlab中矩阵元素的比较 4019
  • php case 多个条件判断语句,PHP switch case语句 3591

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 文件服务器fdb,NFS网络文件系统-中
  • 无盘服务器内存问题,无盘服务器内存占用过高
  • ajax 转字符编码,通过AJAX发布时字符编码错误
2021年125篇
2020年9篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司上饶网站seo优化推荐东莞阿里店铺托管庆阳SEO按天扣费推荐济源seo优化那曲网站优化按天扣费价格甘南网站搭建多少钱宜春模板网站建设推荐和田网站优化按天扣费价格宿州SEO按效果付费报价湛江设计公司网站哪家好嘉兴百搜标王价格黔东南网络营销公司阳泉网站建设设计公司绵阳关键词排名邯郸百姓网标王哪家好铜仁企业网站制作报价迁安企业网站制作价格咸阳网络营销推荐周口营销网站公司玉树网站优化推广报价宜昌推广网站多少钱绍兴网站设计推荐河源seo网站推广推荐宜春企业网站建设哪家好横岗建站推荐濮阳网页制作推荐鄂州网站推广方案多少钱汕尾品牌网站设计报价邵阳网页制作多少钱厦门网站排名优化哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化