贝叶斯定理厉害在哪里? 贝叶斯定理太有用了,不管是在投资领域,还是机器学习... 

我将从以下4个角度来科普贝叶斯定理及其背后的思维:

1.贝叶斯定理有什么用?

2.什么是贝叶斯定理?

3.贝叶斯定理的应用案例

英国数学家托马斯·贝叶斯(ThomasBayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。

在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。

这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。

然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。

为什么贝叶斯定理在现实生活中这么有用呢?

这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。因为生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就只能在信息有限的情况下,尽可能做出一个好的预测。

比如天气预报说,明天降雨的概率是30%,这是什么意思呢?

我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨(下雨的天数/总天数)

而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。

同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。

贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出未来事情发生概率。

贝叶斯定理的思考方式为我们提供了有效的方法来帮助我们做决策,以便更好地预测未来的商业、金融、以及日常生活。

总结下第1部分:贝叶斯定理有什么用?

在有限的信息下,能够帮助我们预测出概率。

所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。

贝叶斯定理长这样:

到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。

其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。

我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他现在想知道女神是不是喜欢他呢?

谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。

首先,我分析了给定的已知信息和未知信息:

1)要求解的问题:女神喜欢你,记为A事件

2)已知条件:女神经常冲你笑,记为B事件

所以,P(A|B)表示女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。

从公式来看,我们需要知道这么3个事情:

1)先验概率

对应这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女神喜欢一个人的概率。这里我们假设是50%,也就是不喜欢你,可能不喜欢你的概率都是一半。

2)可能性函数

可能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率-主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数-调整因子),最后重新理解了“人工智能”这个信息(后验概率)

3)后验概率

带入贝叶斯公式计算出P(A|B)=P(A)*P(B|A)/P(B)=50%*1.5=75%

在得到概率值后,小鹿自信满满的发了下面的表白微博:

稍后,果然收到了女神的回复。预测成功。

现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的关键思想了:

因此,贝叶斯定理可以理解成下面的式子:

后验概率(新信息出现后的A概率)=先验概率(A概率)x可能性函数(新信息带来的调整)

贝叶斯的底层思想就是:

如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。

可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。

如果用图形表示就是这样的:

其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的概率值,完全不受其他环境影响。

前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。

为了后面的案例计算,我们需要先补充下面这个知识。

1.全概率公式

这个公式的作用是计算贝叶斯定理中的P(B)。

这时候来了个事件B,如下图:

全概率公式:

看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。

案例1:贝叶斯定理在做判断上的应用

有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。

然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。

问题:这颗巧克力来自1号碗的概率是多少?

好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。

第1步,分解问题

1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?

来自1号碗记为事件A1,来自2号碗记为事件A2

取出的是巧克力,记为事件B,

那么要求的问题就是P(A1|B),也就是取出的是巧克力(B),来自1号碗(A1)的概率

2)已知信息:

1号碗里有30个巧克力和10个水果糖

2号碗里有20个巧克力和20个水果糖

取出的是巧克力

第2步,应用贝叶斯定理

1)求先验概率

由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示来自1号碗,A2表示来自2号碗)

2)求可能性函数

P(B|A1)/P(B)

其中,P(B|A1)表示从1号碗中(A1)取出是巧克力(B)的概率。

因为1号碗里有30个巧克力和10个水果糖,所以P(B|A1)=巧克力数(30)/(糖果总数30+10)=75%

现在贝叶斯公式里只剩P(B)了,只有求出P(B)就可以得到答案。

根据全概率公式,可以用下图求得P(B):

图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。

同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。

而P(A1)=P(A2)=0.5

将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=62.5%

所以,可能性函数P(B|A1)/P(B)=75%/62.5%=1.2。

3)带入贝叶斯公式求后验概率

将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%

现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单:

第1步.分解问题

1)要求解的问题是什么?

识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)

2)已知条件是什么?

第2步.应用贝叶斯定理

第3步,求贝叶斯公式中的2个指标

案例2:贝叶斯定理在医疗行业的应用

每一个医学检测,都存在假阳性率和假阴性率。假阳性,就是没病,但是检测结果显示有病。假阴性正好相反,有病但是检测结果正常。

即使检测准确率是99%,如果医生完全依赖检测结果,也会误诊。也就是说假阳性的情况,根据检测结果显示有病,但是你实际并没有得病。

你可能会觉得,检测准确率都99%了,误测几乎可以忽略不计了吧?所以你觉得这人肯定没有患艾滋病了对不对?

让我们用贝叶斯定理算一下,就会发现你的直觉是错误的。

假设某种疾病的发病率是0.001,即1000人中会有1个人得病。现在有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。

现在有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?

好了,我知道你面对这一大推信息又头大了,我也是。但是我们不是有贝叶斯模板套路嘛,下面开始。

1)要求解的问题:病人的检验结果为阳性,他确实得病的概率有多大?

病人的检验结果为阳性(新的信息)记为事件B,他得病记为事件A,

那么要求的问题就是P(A|B),也就是病人的检验结果为阳性(B),他确实得病的概率(A)

2)已知信息

这种疾病的发病率是0.001,即P(A)=0.001

试剂可以检验患者是否得病,准确率是0.99,也就是在患者确实得病的情况下(A),它有99%的可能呈现阳性(B),所以P(B|A)=0.99

2.应用贝叶斯定理

疾病的发病率是0.001,即P(A)=0.001

P(B|A)/P(B)

其中,P(B|A)表示在患者确实得病的情况下(A),试剂呈现阳性的概率,从前面的已知条件中我们已经知道P(B|A)=0.99

现在只有求出P(B)就可以得到答案。根据全概率公式,可以用下图求得P(B)=0.05094

所以可能性函数P(B|A)/P(B)=0.99/0.05094=19.4346

我们得到了一个惊人的结果,P(A|B)等于1.94%。

也就是说,筛查的准确率都到了99%了,通过体检结果有病(阳性)确实得病的概率也只有1.94%

你可能会说,再也不相信那些吹的天花乱坠的技术了,说好了筛查准确率那么高,结果筛查的结果对于确诊疾病一点用都没有,这还要医学技术干什么?

没错,这就是贝叶斯分析告诉我们的。我们拿艾滋病来说,由于发艾滋病实在是小概率事件,所以当我们对一大群人做艾滋病筛查时,虽说准确率有99%,但仍然会有相当一部分人因为误测而被诊断为艾滋病,这一部分人在人群中的数目甚至比真正艾滋病患者的数目还要高。

你肯定要问了,那该怎样纠正测量带来这么高的误诊呢?

造成这么不靠谱的误诊的原因,是无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。

根据贝叶斯定理,我们知道提高先验概率,可以有效的提高后验概率。

所以解决的办法倒也很简单,就是先锁定可疑的人群,比如10000人中检查出现问题的那10个人,再独立重复检测一次。因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。

这也是为什么艾滋病检测第一次呈阳性的人,还需要做第二次检测,第二次依然是阳性的还需要送交国家实验室做第三次检测。

案例4:贝叶斯垃圾邮件过滤器

垃圾邮件是一种令人头痛的问题,困扰着所有的互联网用户。全球垃圾邮件的高峰出现在2006年,那时候所有邮件中90%都是垃圾,2015年6月份全球垃圾邮件的比例数字首次降低到50%以下。

最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤,效果不好,漏网之鱼多,冤枉的也不少。

因为典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现,所以在做贝叶斯公式计算时,肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算,联合概率的结果超过90%将说明它是垃圾邮件。

4.生活中的贝叶斯思维

贝叶斯定理与人脑的工作机制很像,这也是为什么它能成为机器学习的基础。

如果你仔细观察小孩学习新东西的这个能力,会发现,很多东西根本就是看一遍就会。比如我3岁的外甥,看了我做俯卧撑的动作,也做了一次这个动作,虽然动作不标准,但也是有模有样。

同样的,我告诉他一个新单词,他一开始并不知道这个词是什么意思,但是他可以根据当时的情景,先来个猜测(先验概率/主观判断)。一有机会,他就会在不同的场合说出这个词,然后观察你的反应。如果我告诉他用对了,他就会进一步记住这个词的意思,如果我告诉他用错了,他就会进行相应调整。(可能性函数/调整因子)。经过这样反复的猜测、试探、调整主观判断,就是贝叶斯定理思维的过程。

同样的,我们成人也在用贝叶斯思维来做出决策。比如,你和女神在聊天的时候,如果对方说出“虽然”两个字,你大概就会猜测,对方后面九成的可能性会说出“但是”。我们的大脑看起来就好像是天生在用贝叶斯定理,即根据生活的经历有了主观判断(先验概率),然后根据搜集新的信息来修正(可能性函),最后做出高概率的预测(后验概率)。

其实这个过程,就是下图的大脑决策过程:

所以,在生活中涉及到预测的事情,用贝叶斯的思维可以提高预测的概率。你可以分3个步骤来预测:

1.分解问题

简单来说就像小学生做应用题的感觉,先列出要解决的问题是什么?已知条件有哪些?

2.给出主观判断

不是瞎猜,而是根据自己的经历和学识来给出一个主观判断。

3.搜集新的信息,优化主观判断

比如我们刚开始看到“人工智能是否造成人类失业”这个信息,你有自己的理解(主观判断),但是当你学习了一些数据分析,或者看了些这方面的最新研究进展(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(调整因子),最后重新理解了“人工智能”这个信息(后验概率)。这也就是胡适说的“大胆假设,小心求证”。

THE END
1.FBS胎牛血清使用方法与常见问题总结小牛血清是Hyclone新西兰的,标签上写已经经过2μm滤膜过滤处理。根据上述培养液的情况,是否说明培养液已被污染?如果是正常的血清是不是在镜下不应该看到杂物,哪怕是极少量的?根据上述血清的描述,是不是说明血清也存在问题,还能用吗?补充:细胞培养以来生长状态就不好。买血清的时候厂家说明不用灭活,所以未灭活。https://www.bio-equip.com/showarticle.asp?ID=453105929&view=1
1.写字楼的分层空气过滤如何提升呼吸质量在选择和安装分层空气过滤系统时,写字楼管理者应充分考虑建筑的布局与使用情况。例如,金地威新闵行科创园在其空气过滤系统的设计中,依据不同区域的人员流动和使用频率,合理布局空气净化设备,确保每个办公区域都能享受到优质的空气供应。这种个性化的设计能够更好地适应不同需求,从而提升整体空气质量。 https://www.jindiweixin.cn/20241116.html
2.准备买个水族箱,麻烦问下除过底滤的,背后过滤和上过滤哪个好?从过滤效果来看,底滤系统表现最佳,其次是顶滤,接着是侧滤,而三合一水泵中的滴流盒效果则稍显逊色。 在噪声控制方面,侧背包、侧溢流和无溢流下水设计在噪音控制上表现相当,且均优于角溢流和三通溢流。 在美观程度上,无溢流下水设计显得最为优雅,其次是侧溢流,角溢流和背包设计在美观上平分秋色,而三重溢流则稍显...https://www.yoojia.com/article/9678508093296415173.html
3.当我们把对象值赋值给另外一个变量时,复制的是对象的指针,指向同...一种引用数据类型:(本质上是由一组无序的键值对组成) 引用数据类型:Object。包含Object、Array、 function、Date、RegExp。 JavaScript不支持创建任何自定义类型的数据,也就是说JavaScript中所有值的类型都是上面8中之一。 null 和 undefined 的区别? 相同: ...https://blog.csdn.net/qq_54753561/article/details/122149197
4.前置过滤器哪个牌子好(前置过滤器厨房前置过滤器哪个牌子好)如果你想要购买一个前置过滤器,那么你应该考虑购买哪个品牌的产品呢?目前市面上有很多不同的品牌,所以你可能会感到有些困惑。不过没关系,小编来帮你介绍一下目前市面上比较受欢迎的几个前置过滤器品牌。 首先是3M,3M是一家在全球都很有名气的公司,他们的产品质量得到了广泛的认可。3M的前置过滤器能够有效地净化水...http://www.baidudw.com/jingyan/1008240
5.还在提信息茧房?来好好了解一下过滤气泡和回声室吧来好好了解一下过滤气泡和回声室吧 来源: 羊村传播 原创 王伟鲜 从尼葛洛庞帝的“我的日报(Daily Me)”,到桑斯坦的“回声室(Echo Chamber)”和“信息茧房(Information Cocoons)”,再到帕里泽的“过滤气泡(Filter Bubble)”... 从上个世纪末到现在,关于个性化定制网络社会的研究从未停下脚步。 在国内...https://xueshu.blogchina.com/561731206.html
6.计算机网络基础知识整理「建议收藏」腾讯云开发者社区采用分组交换技术,在通信之前不需要建立连接,每个节点首先将前一节点送来的分组收下并保存在缓冲区中,然后根据分组头部中的地址信息选择适当的链路将其发送至下一个节点,这样在通信过程中可以根据用户的要求和网络的能力来动态分配带宽。分组交换比电路交换的信道利用率高,但时延较大。分组转发的带来的问题:排队时延...https://cloud.tencent.com/developer/article/2063158
7.十大前置过滤器品牌前置过滤器哪个牌子好2024年前置过滤器十大品牌最新发布,前置过滤器排行榜前十名品牌有霍尼韦尔、汉斯希尔、美的、沁园、海尔、史密斯、3M、安吉尔、倍世、倍世康。前置过滤器10大品牌排行榜由品牌研究部门收集整理大数据分析研究得出,帮助你了解前置过滤器哪个牌子好。https://www.maigoo.com/maigoo/5096qzglq_index.html
8.水垢过滤品牌排行榜十大品牌京东JD.COM为您提供水垢过滤排行榜、水垢过滤哪个牌子好、水垢过滤十大品牌等相关资讯,从水垢过滤价格、评价、图片等多方便比较,为您推荐品牌水垢过滤,网购水垢过滤上京东,放心又轻松!https://m.jd.com/phb/737c77ade1f6b18772f.html
9.看不见的病毒最初是如何被人类发现的?科学家花了整整41年科学湃尚柏朗氏过滤器使用陶瓷做滤芯,即使是非常微小的细菌也无法通过陶瓷滤芯上的滤孔进入滤液。 现在从患有花叶病的烟草叶液中提取的滤液居然有传染性,如何解释? 问题是使用最先进的光学显微镜也无法从滤液中找到致病因子;而且,无论是在有氧的环境下,还是在无氧的环境下,对滤液进行培养后,结果都显示滤液中没有任何细菌...https://www.thepaper.cn/newsDetail_forward_6077196