贝叶斯分类器
贝叶斯决策论
贝叶斯决策论(Bayesian decision theory)是基于概率进行分类决策的基本方法
在所有相关概率均已知的理想情况下,贝叶斯决策论假设:决策问题可以用概率来形式化描述
考虑如下多分类问题,假设有
那么我们可以基于后验概率
其中
我们的目标是寻找一个分类器
显然,若分类器
由此即产生了如下贝叶斯判定准则:为最小化总体风险,只需选择使得条件风险
此时$h^
特别的,若
显然条件风险中的后验概率可以通过贝叶斯公式得到
其中
显然
贝叶斯决策论假设
朴素贝叶斯分类
注意上述贝叶斯决策理论的一个重要前提是所有相关概率均已知
然而实际中概率往往未知,且要根据给定数据集
因为多维样本的样本空间大小往往远大于数据集大小,即无法用频率来估计概率
针对这个问题,朴素贝叶斯分类器假设所有属性相互独立,即每个属性独立地对分类结果产生影响
基于该假设,类条件概率
若$xi
若$xi
显然,要计算连续属性
该问题即参数估计问题,其中包括极大似然估计、贝叶斯估计等许多具体方法,此处不展开说明
具体可以看 极大似然估计和贝叶斯估计 和 非参数估计—Parzen窗法与近邻法
拉普拉斯修正
上述朴素贝叶斯中连续乘法的存在可能导致
针对这个问题,我们可以使用拉普拉斯修正(Laplacian correction)对估计概率值进行平滑
其中
半朴素贝叶斯分类
朴素贝叶斯假设各个属性具有独立性,然而现实中这个条件往往难以满足
半朴素贝叶斯的基本思想是考虑一部分属性间的相互依赖信息
其中独依赖估计(One-Dependent Estimator,ODE)是常用的一种具体策略
独依赖估计假设每个属性仅依赖其他一个属性,即
其中
若
当
因此问题的关键在于如何确定每个属性的父属性
SPODE
最简单的父属性选择方法是所有属性都依赖同一个属性,该方法称为SPODE (Super-Parent ODE)
其中被依赖的属性称为超父 (supe-parent) ,supe-parent可通过交叉验证等模型选择方法来确定
树增强朴素贝叶斯TAN
树增强朴素贝叶斯TAN (Tree Augmented naive Bayes) 基于最大生成树获得依赖关系,其步骤如下
计算任意两个属性间的条件互信息
以属性为节点构建无向完全图,边权为这两个属性的条件互信息
构造该完全图的最大生成树,任意指定一个根将生成树转换为有根树,就确定了各个属性的父属性
平均独依赖估计AODE
平均独依赖估计 (Averaged One-Dependent Estimator) 是一种基于集成学习的独依赖估计,其表达式如下
其中
通俗的说,AODE的思路是将有足够训练数据支撑的SPODE集成起来作为结果