为什么贝叶斯公式重要

公式

\[ P(A_i|B) = \frac {P(A_i)*P(B|A_i)}{\sum_j {P(A_j)*P(B|A_j)}} \]

举例

贝叶斯公式直观来说就是一个从已知推测未知的过程,这在日常生活中非常常见,例如警察破案就是一种典型的从结果(已知)推原因(未知)的过程。

某地警察发现一人死亡,调查发现此人很有可能死于某种毒品或某种药物,警察需要知道哪种可能性更大。以下为调查过程:

  1. 要计算分别死于某种毒品或药物概率——后验概率 posterior probability
  2. 调查发现此人生前吸食这种毒品和服用这种药物的概率分别为5%和90%——先验概率 prior probability
  3. 从医院统计获悉这种毒品致死率为50%,而药物致死率为9%——条件似然 conditional likelihood
  4. 此人一定死于毒品或药品的概率为 (50%*5% + 9%*90% = 10.6%)——整体似然 total likelihood 又或者称为归一化因子,用来使得整体概率和为1

此时拿出贝叶斯公式开始计算,以计算服用毒品致死的概率举例:

\[ P(服用毒品|死亡) = P(服用毒品) * \frac {P(死亡|服用毒品)}{P(死于毒品或药品)} \]

将上述调查数据带入上式得出 \( P(服用毒品|死亡)=5\% * \frac {50\%}{10.6\%} ≈ 23.6\% \),同理可得 \( P(服用药物|死亡)=90\% * \frac{9\%}{10.6\%} ≈ 76.4\% \),计算此人更有可能是死于药物的,这是因为虽然此人吸食毒品,且毒品的致死率比药物要高很多,但因为此人吸食毒品的概率较低,所以可以得到这个结论。

但经过警察进一步的调查发现,死者生前非常亢奋,且已知吸食这种毒品引发亢奋的可能性为90%,而药物引发兴奋的概率为1%,则上述公式可更新为:

\[ P(服用毒品|死亡 U 亢奋) = P(服用毒品) * \frac {P(死亡|服用毒品)*P(亢奋|服用毒品)}{P(死于毒品或药品)} \]

得到 \(P(服用毒品|死亡 U 亢奋) = 5\% * \frac {50\%*90\%}{2.3\%} ≈ 97.8\%\),而 \(P(服用药物|死亡 U 亢奋) = 90\% * \frac{9\%*1\%}{2.3\%} ≈ 3.5\%\),其中,\(2.3\%≈5\%*50\%*90\% + 90\%*9\%*1\%\),所以随着新证据的加入表明死者更有可能死于吸毒。

随着后续越来越多证据的加入,最终警察断定该人死于吸毒。结案。

结论

贝叶斯公式的本质就是使用已知条件对先验概率进行不断地纠正。

从上面举例可以看出,随着已知的东西越来越多,对未知的判断就越来越准确。这在机器学习甚至人类认知过程中都是非常重要的。

例如在股市预测过程中,我要预测明天是涨还是跌,在没有任何现实背景知识下,股票涨跌的概率都是50%(此为先验概率),但我知道现在是熊市,则我要计算的是 \( P(涨|牛市) \) (后验概率),然后我又知道会有一轮新的政策,则我要计算的是 \( P(涨|牛市 U 政策) \) (后验概率),后来我又得知消息说央行准备降息刺激经济,则我要计算的变为 \( P(涨|牛市 U 政策 U 降息) \) (后验概率)。随着得到的消息越来越多,我的预测将越来越准确。

所以我们要多学习。

其他

先验知识(归纳偏置)和先验概率

机器学习中经常提到说在模型中添加一些先验知识,其本质就是说使得模型的归纳偏置更高,即调整模型使得其更适用于某种特定任务。

例如对于全连接网络来说,它是万金油,可以用来处理图片、视频、文本等信息。这是因为它本身不含有先验知识(归纳偏置低)

但我们知道,对于图片的模式匹配,往往只需要图片的一部分纹理信息符合要求即可(例如判断一张图片是猴子还是人类,只需要看图片中有没有尾巴),对于此处的“一部分纹理”我们就能使用卷积的方式来得到,因此在处理图片的网络模型中,我们就会在其中加入卷积操作。但于此同时,也会降低它对文本的处理能力。也就是说,卷积神经网络对图像的归纳偏置更高。这里在网络模型中加入卷积的操作就是给模型加入先验知识(即我们已经知道处理的是图片,对于更加针对的目的,也可以再加入更有目的性的处理操作)

对于处理文本的模型也是一样,在全连接网络的基础上出现了RNN、LSTM等,它们更专注于处理文本信息,而对图片处理则不是很好。

而先验概率则是用于在贝叶斯公式中推断后验概率,虽然先验知识和先验概率都是对事物进行预先假设或预设,但是它们所应用的场景和方法并不完全相同。

为什么transformer网络一般都很大

transformer使用多头注意力机制,这种方式并不是针对某一类问题产生的(图片、文本、视频等),所以它的归纳偏置(上文有解释)就很低,所以就需要更深的网络模型和更多的参数来更好地拟合结果

参考

https://github.com/lixianmin/cloud/blob/master/writer/R/bayes.md

Leave a Comment