机器学习-朴素贝叶斯


=Start=

缘由:

想通过快速整理《机器学习实战》一书中出现过的各种机器学习算法的原理及其优缺点和适用范围来快速学习、了解常见的机器学习算法。

正文:

参考解答:
1、贝叶斯公式

贝叶斯定理(Bayes’ theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。通常事件A在事件B发生的条件下的概率,与事件B在事件A发生的条件下的概率是不一样的;然而这两种是有确定关系的,这种关系就是贝叶斯定理

P(A|B) = ( P(A) * P(B|A) ) / P(B)

从公式来看,我们需要知道这么3个事情:

1)先验概率

我们把P(A)称为”先验概率”(Prior probability)即在不知道B事件发生的前提下,我们对A事件发生概率的一个主观判断。

2)可能性函数

P(B|A)/P(B)称为”可能性函数”(Likelyhood)这是一个调整因子,即新信息事件B的发生调整,作用是,使得先验概率更接近真实概率。可能性函数你可以理解为新信息过来后,对先验概率的一个调整。

  • 如果”可能性函数”P(B|A)/P(B)>1,意味着”先验概率”被增强,事件A的发生的可能性变大;
  • 如果”可能性函数”=1,意味着B事件无助于判断事件A的可能性;
  • 如果”可能性函数”<1,意味着”先验概率”被削弱,事件A的可能性变小。

3)后验概率

P(A|B)称为”后验概率”(Posterior probability)即在B事件发生之后,我们对A事件概率的重新评估。

所以,贝叶斯定理:  后验概率=先验概率*可能性函数

2、朴素贝叶斯分类原理

从朴素贝叶斯分类的原理来看,对于一个未知类别的样本X,可以先分别计算出X属于每一个类别的概率,选择其中概率最大的类别作为其分类。

还是上面的碗中球的例子,可能不是很恰当,但可以帮助理解。我们给每次拿球进行分类,碗A和碗B是两种分类,每次拿到球的颜色就是我们的特征,假如拿到了白色球,根据我们刚才的计算结果,来自碗A的概率是60%大于碗B是40%,那么如果我们对这次行为进行分类,这次拿球动作我们分类为碗A。这个不恰当的例子可以帮助我们理解朴素贝叶斯算法。

3、朴素贝叶斯分类的优缺点

优点:

  1. 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
  2. 对小规模的数据表现很好,能够处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。
  3. 对缺失数据不太敏感,算法也比较简单,常用于文本分类,欺诈检测。

缺点:

  1. 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
  2. 需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
  3. 由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
  4. 对输入数据的表达形式很敏感。
参考链接:

=END=


《 “机器学习-朴素贝叶斯” 》 有 2 条评论

  1. 机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率
    https://www.jianshu.com/p/c61ae11cc5f6
    https://zhwhong.cn/2017/04/14/ROC-AUC-Precision-Recall-analysis/

    AUC,ROC我看到的最透彻的讲解
    https://blog.csdn.net/abcjennifer/article/details/7359370
    https://blog.csdn.net/u013385925/article/details/80385873

    ROC和AUC介绍以及如何计算AUC
    http://alexkong.net/2013/06/introduction-to-auc-and-roc/

    机器学习之分类器性能指标之ROC曲线、AUC值
    https://www.cnblogs.com/dlml/p/4403482.html

    精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?
    https://www.zhihu.com/question/30643044

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注