100算大吗?这取决于我们是否将其与0.001或100000进行比较?就像生活中的很多事情一样,“大”这个词是相对的。
让我们进行一个实验:掷骰子,就像在基础概率课程中所做的那样。掷数千次骰子,每次都计算投掷的平均值。
(请记住,掷骰子的期望值为(1+2+3+4+5+6)/6=3.5。)
这是前10次的可视化。
首先,掷出5,然后掷出1,依此类推。
现在看看如果实验数量增加到100和1000会发生什么:
数字“越大”,样本均值就越接近真实的期望值。大数定律恰恰说明了这一点:样本均值收敛于期望值。
如果想更精确的话,大数定律有两个版本:弱和强。
弱大数定理如下。
换句话说,随着样本数量(n)的增加,样本均值X与期望值μ相差很远的概率会收敛到零。(稍后我们将更深入地研究这一点。)
看来在骰子实验中n=1000已经足够“大”了。那么其他情况呢?
我们再看一个例子!考虑这张来自德克萨斯州的刮刮乐。
官方网页指出:
本场比赛的总奖金超过8.29亿美元!
奖品起价为150美元!
有机会赢取20,000,000美元
门票只需100美元!
听起来很棒,但相比被这些数字愚弄我们更了解数学。如果深入挖掘,就能找到获胜的可能性。这是官方网站的价格表。
知道了这些,就可以轻松计算出我们的机会和期望值:
赢得某物的机会是26.34%,
每张票的预期收益为75.28958美元。(不包括100美元的入场费。)
看来花100美元买票并不值得,因为预期价值仅为约75.3美元。
现在让我们进行一个与骰子示例类似的实验。我们(假设)购买越来越多的彩票,同时计算平均奖金。我们购买的彩票越多,我们就越接近预期价值~75美元。
我们的前十张彩票就没那么幸运了。
我们再买九十个吧!有了一百张票,我们就越来越近了,但我们希望在橙色线的长期运行中能够顺利进行。
让我们进行更大的跳跃:将n增加到10,000。
现在图形出现了平滑的曲线,但这根本不是我们所期望的!它徘徊在67美元左右,不是期望值。
让我们更进一步。有了100万张彩票,奇怪的事情又发生了:我们很幸运,获胜了几次拉高了平均数。现在,我们的距离更远了!
看来一百万还不是一个“大”数字!
再搞多点!有了一千万张彩票,我们有几次更大的胜利,拉高了平均水平,但效果越来越小。慢慢地,但我们正在接近期望值。
现在我们终于得到了预期的平滑曲线,徘徊在真实平均值附近。
尽管我们可以在第一个实验中用一千次来说明大数定律,但在第二次实验中,一百万次才勉强够用。
大数!=大的数字。
我们该如何解释第二个实验中发生的奇怪事情呢?
让我们放大(弱)大数定律!
本质上,概率P(|X-μ|>ε)从概率意义上衡量了样本均值与真实平均值(即期望值)的距离。
ε越小,概率距离越大。从数学上来说,以下内容成立。
现在,弱大数定律指出
也就是说,概率距离会变得尽可能小。
宽松地说,这意味着样本均值等于真实均值μ加上越来越集中到零的分布o(1)。换句话说,我们有
分布意义上的渐近展开。o(1)项表示随着n的增长而越来越集中到零的分布。您可能熟悉小O和大O表示法;它是相同的,但具有概率分布。
弱大数定律和我们的渐进展开是否可以解释我们的彩票会发生什么?也就是说,为什么我们需要一千万个样本才能相当接近真实平均值?
答案是简短而严厉的“不”。
我们需要更大的船渐近扩张。我们的工具将是中心极限定理,这是概率论中最著名的结果之一,它解释了为什么样本均值类似于高斯分布。
让我们直接潜入深水区,看看中心极限定理(CLT)。它指出,从分布意义上来说,√n缩放的中心样本均值收敛于标准正态分布。(“中心”指减去期望值。)
重申一下,收敛在分布意义上成立。这只是累积分布函数逐点收敛的奇特方式。(我知道。概率论中的收敛性非常复杂。)
让我们来解开它:就渐近展开而言,大数定律和中心极限定理意味着:
也就是说,样本均值等于
期望值μ
缩放正态分布(ascalednormaldistribution)
一个消失得比1/√n快的分布(adistributionthatvanishesfaster,than1/√n)
这3项的和。
也就是说,就我们的渐进展开而言,我们有
通过将常数μ合并到正态分布中,可以将其写成更简单的形式。更准确地说,我们有
这意味着我们的渐近展开采用以下形式
换句话说,对于较大的n,样本均值近似等于方差为σ2/n的正态分布。n越大,方差越小;方差越小,正态分布越集中在期望值μ附近。
这终于回答了我们的问题:大数定律中那个神秘的数字有多大?这取决于分布的方差!
我们可以从渐进展开式中看出,如果方差增大10倍,则需要大约10倍的样本数量才能使平均值与原来一样接近。这是因为σ2/n项,其中σ2代表样本X、X2、…、X的方差,n代表样本数量。
让我们回顾一下掷骰子和彩票的例子。掷骰子的方差为35/12≈2.916,而德克萨斯州彩票的方差约为157000000。这大了5000万。这意味着,平均而言,我们需要5000万倍大的样本,才能使样本平均值与掷骰子的情况一样接近真实平均值。
值得注意的是,由于大数定律是一种概率陈述,因此像“我们还需要5000万个样本”这样的说法是可以从概率角度理解的。如果幸运的话,经过几千个样本后,样本平均值可能非常接近真实平均值。
大数定律经常被误解。
我们经常使用它,但有一个重要的警告。尽管样本均值(几乎肯定)收敛于期望值,但收敛速度取决于样本的方差。方差越大,收敛越慢。
这对于许多实际应用来说是个坏消息。例如,这就是蒙特卡罗方法收敛速度慢的原因。在现实生活中,比如赌博,您甚至可能在最终开始获胜之前就耗尽了钱。(尽管大多数赌场游戏的预期值为负,所以从长远来看你总是会输。)