大数定律中的大数是多大?大数定律经常被误解。我们经常使用它,但有一个重要的警告。**尽管样本均值(几乎肯定)收敛于期望

100算大吗?这取决于我们是否将其与0.001或100000进行比较?就像生活中的很多事情一样,“大”这个词是相对的。

让我们进行一个实验:掷骰子,就像在基础概率课程中所做的那样。掷数千次骰子,每次都计算投掷的平均值。

(请记住,掷骰子的期望值为(1+2+3+4+5+6)/6=3.5。)

这是前10次的可视化。

首先,掷出5,然后掷出1,依此类推。

现在看看如果实验数量增加到100和1000会发生什么:

数字“越大”,样本均值就越接近真实的期望值。大数定律恰恰说明了这一点:样本均值收敛于期望值。

如果想更精确的话,大数定律有两个版本:弱和强。

弱大数定理如下。

换句话说,随着样本数量(n)的增加,样本均值X与期望值μ相差很远的概率会收敛到零。(稍后我们将更深入地研究这一点。)

看来在骰子实验中n=1000已经足够“大”了。那么其他情况呢?

我们再看一个例子!考虑这张来自德克萨斯州的刮刮乐。

官方网页指出:

本场比赛的总奖金超过8.29亿美元!

奖品起价为150美元!

有机会赢取20,000,000美元

门票只需100美元!

听起来很棒,但相比被这些数字愚弄我们更了解数学。如果深入挖掘,就能找到获胜的可能性。这是官方网站的价格表。

知道了这些,就可以轻松计算出我们的机会和期望值:

赢得某物的机会是26.34%,

每张票的预期收益为75.28958美元。(不包括100美元的入场费。)

看来花100美元买票并不值得,因为预期价值仅为约75.3美元。

现在让我们进行一个与骰子示例类似的实验。我们(假设)购买越来越多的彩票,同时计算平均奖金。我们购买的彩票越多,我们就越接近预期价值~75美元。

我们的前十张彩票就没那么幸运了。

我们再买九十个吧!有了一百张票,我们就越来越近了,但我们希望在橙色线的长期运行中能够顺利进行。

让我们进行更大的跳跃:将n增加到10,000。

现在图形出现了平滑的曲线,但这根本不是我们所期望的!它徘徊在67美元左右,不是期望值。

让我们更进一步。有了100万张彩票,奇怪的事情又发生了:我们很幸运,获胜了几次拉高了平均数。现在,我们的距离更远了!

看来一百万还不是一个“大”数字!

再搞多点!有了一千万张彩票,我们有几次更大的胜利,拉高了平均水平,但效果越来越小。慢慢地,但我们正在接近期望值。

现在我们终于得到了预期的平滑曲线,徘徊在真实平均值附近。

尽管我们可以在第一个实验中用一千次来说明大数定律,但在第二次实验中,一百万次才勉强够用。

大数!=大的数字。

我们该如何解释第二个实验中发生的奇怪事情呢?

让我们放大(弱)大数定律!

本质上,概率P(|X-μ|>ε)从概率意义上衡量了样本均值与真实平均值(即期望值)的距离。

ε越小,概率距离越大。从数学上来说,以下内容成立。

现在,弱大数定律指出

也就是说,概率距离会变得尽可能小。

宽松地说,这意味着样本均值等于真实均值μ加上越来越集中到零的分布o(1)。换句话说,我们有

分布意义上的渐近展开。o(1)项表示随着n的增长而越来越集中到零的分布。您可能熟悉小O和大O表示法;它是相同的,但具有概率分布。

弱大数定律和我们的渐进展开是否可以解释我们的彩票会发生什么?也就是说,为什么我们需要一千万个样本才能相当接近真实平均值?

答案是简短而严厉的“不”。

我们需要更大的船渐近扩张。我们的工具将是中心极限定理,这是概率论中最著名的结果之一,它解释了为什么样本均值类似于高斯分布。

让我们直接潜入深水区,看看中心极限定理(CLT)。它指出,从分布意义上来说,√n缩放的中心样本均值收敛于标准正态分布。(“中心”指减去期望值。)

重申一下,收敛在分布意义上成立。这只是累积分布函数逐点收敛的奇特方式。(我知道。概率论中的收敛性非常复杂。)

让我们来解开它:就渐近展开而言,大数定律和中心极限定理意味着:

也就是说,样本均值等于

期望值μ

缩放正态分布(ascalednormaldistribution)

一个消失得比1/√n快的分布(adistributionthatvanishesfaster,than1/√n)

这3项的和。

也就是说,就我们的渐进展开而言,我们有

通过将常数μ合并到正态分布中,可以将其写成更简单的形式。更准确地说,我们有

这意味着我们的渐近展开采用以下形式

换句话说,对于较大的n,样本均值近似等于方差为σ2/n的正态分布。n越大,方差越小;方差越小,正态分布越集中在期望值μ附近。

这终于回答了我们的问题:大数定律中那个神秘的数字有多大?这取决于分布的方差!

我们可以从渐进展开式中看出,如果方差增大10倍,则需要大约10倍的样本数量才能使平均值与原来一样接近。这是因为σ2/n项,其中σ2代表样本X、X2、…、X的方差,n代表样本数量。

让我们回顾一下掷骰子和彩票的例子。掷骰子的方差为35/12≈2.916,而德克萨斯州彩票的方差约为157000000。这大了5000万。这意味着,平均而言,我们需要5000万倍大的样本,才能使样本平均值与掷骰子的情况一样接近真实平均值。

值得注意的是,由于大数定律是一种概率陈述,因此像“我们还需要5000万个样本”这样的说法是可以从概率角度理解的。如果幸运的话,经过几千个样本后,样本平均值可能非常接近真实平均值。

大数定律经常被误解。

我们经常使用它,但有一个重要的警告。尽管样本均值(几乎肯定)收敛于期望值,但收敛速度取决于样本的方差。方差越大,收敛越慢。

这对于许多实际应用来说是个坏消息。例如,这就是蒙特卡罗方法收敛速度慢的原因。在现实生活中,比如赌博,您甚至可能在最终开始获胜之前就耗尽了钱。(尽管大多数赌场游戏的预期值为负,所以从长远来看你总是会输。)

THE END
1.大数定律大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。但是注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数“定律”。而我们说的大数定理通常是经数学家证明并以数学家名字命名。 https://www.meipian.cn/3drbzh4z
2.大数定理详解(转载)再不努力就死翘翘了大数定理详解(转载) 注:此文出处来自http://blog.sina.com.cn/s/blog_5ecbb4950101kzhu.html 1、大数法则 一位数学家调查发现,欧洲各地男婴与女婴的出生比例是22:21,只有巴黎是25:24,这极小的差别使他决心去查个究竟。最后发现,当时的巴黎的风尚是重女轻男,有些人会丢弃生下的男婴,经过一番修正后,依然...https://www.cnblogs.com/tcent/p/4983935.html
3.[概率论与数理统计]笔记:3.5大数定律与中心极限定理根据夹逼定理, \[P\{|\frac{\mu_n}{n}-p|<\epsilon\}=1 \] 所以 \[P\{|\frac{\mu_n}{n}-p|\ge\epsilon\}=0 \] 结论 当\(n\to\infty\)时,\(\frac{\mu_n}{n}\stackrel{P}{\longrightarrow}p\). 也就是说当试验次数很多时,事件发生的频率会依概率收敛于事件发生的概率。 http://www.681314.com/A/VEI8kzeSfV
4.大数定律在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。 在抛硬币的场景中,有一种场景下的概率经常让人算错,假设你连续抛了5次硬币,都是朝上,那么第6次抛硬币还朝上的概率是...https://www.jianshu.com/p/b869dfc63d46
5.大数定律公式大数定律公式:g=log*vn。概率论历史上第一个极限定理属于伯努利,后人称之为“大数定律”。概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。 概率论,是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为决定性现象。例如...https://edu.iask.sina.com.cn/bdjx/6e5XZNPmheL.html
1.概率基础——大数定律大数定理大数定律是概率论中的一个重要定理,它描述了随机变量序列的均值在概率意义下收敛于其数学期望的现象。简单来说,大数定律说明了当试验次数足够多时,样本平均值将逼近于总体均值。在实际应用中,大数定律为统计学和概率论提供了重要的理论基础,也是估计总体参数的一种重要方法。 https://blog.csdn.net/weixin_39753819/article/details/136318979
2.大数定理(数学术语)大数定理 数学术语 大数定理是由雅各布·伯努利(1654年-1705年)首先提出,这个定律于1713年公诸于世,刊登在伯努利最有创造力的著作《猜度术》上,《猜度术》出版之时伯努利已谢世8年之久[1]。看基本内容 1分钟 “大数定理”是什么意思? 视频解读 3.21万观看 《猜度术》的出版是概率论成为独立数学分支的标志,大数定...https://baike.sogou.com/m/v7697469.htm
3.大数定理大数定理 06-27 12:06 房价全面下跌时代,年轻人如何抓住翻身机会? 恭喜各位,又一次见证历史的机会。现在房价开始全面回调,大部分城市房价普跌30%左右。但也正因为房价下跌,成交萎靡,楼市开始了一轮接一轮的刺激。先和大家同步一下目前的新政策:1、首套首付最低可以做到15%2、首套房贷利率可以突破下限3、设立保障...https://emcreative.eastmoney.com/app_fortune/person/index.html?uid=4005054834994830
4.常见大数定律文艺数学君大数定律讨论的是在什么条件下,随机变量序列的算术平均依概率收敛到其均值的算术平均。本文主要介绍常见的几种大数定律,并用Mathematic来进行相应的模拟,并介绍运用大数定律计算的例子。 这一篇文章是介绍常见的大数定律,一下所有的代码是基于Mathematica来实现的。 https://mathpretty.com/8808.html
5.大数定律大数定律与概率论其他而我们说的大数定理通常是经数学家证明并以数学家名字命名的大数定理,如伯努利大数定理。大数法则是近代保险业赖以建立的数理基础。也称为风险大量原则、大数定律、平均法则,是人们在长期的实践中发现,在随机现象的大量重复中往往出现几乎必然的规律。 大数定律的作用...https://www.shenlanbao.com/zhishi/10-25169
6.概率论基础8大数定理腾讯云开发者社区概率论基础 - 8 - 大数定理 发布于2022-08-05 13:08:20 9370 举报 文章被收录于专栏:又见苍岚 概率论历史上第一个极限定理属于伯努利,后人称之为“大数定律”。概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。 https://cloud.tencent.com/developer/article/2066845
7.概率论——大数定律与中心极限定理51CTO博客三、中心极限定理 一、依概率收敛 定义:设随机变量 与随机变量序列 ,如果对任意的 ,有 ? 则称随机变量序列 依概率收敛于随机变量 ,记为 ? 注:以上定义中将随机变量 写成数 二、大数定律 在满足一定的条件下,所有大数定律的结论均为:随机变量均值依概率收敛到均值的期望,即: ...https://blog.51cto.com/u_15887260/5876702
8.浅谈机器学习中的大数定律·MachineLearningMastery博客文章...大数的定律是概率和统计学的一个定理,它表明多次重复实验的平均结果将更接近真实或预期的潜在结果。 大数法则解释了为什么赌场从长远来看总能赚钱。 第79页,赤裸统计:剥夺数据的恐惧,2014。 我们可以将实验的试验看作一个观察。实验的独立和独立重复将进行多次试验并导致多次观察。实验的所有样本观察都来自理想化的观...https://www.kancloud.cn/apachecn/ml-mastery-zh/1952405
9.果断收藏!数据分析中常犯的18个统计学错误,请务必跳过这些坑...大数定理---正态分布的“左磅”,随着样本数的增加,样本的平均值可以估计总体平均值; 中心极限定理---正态分布的“右臂”具有稳定性,大数定理说明大量重复实验的平均结果具有稳定解决了变量均值的收敛性问题中心极限定理说明随机变量之和逐渐服从某一分布,解决了分布收敛性问题。 http://www.xyhlrj.com/Article/Index/3990