date: 2020/05/01

哦 - 周柏豪:所以说得跟长辈多请教人生经验呐~


贝叶斯决策论

假设有个分类标记,而将真实标记为的样本分类为的损失记为,那么可以定义将样本分类为期望损失(expected loss),也即样本条件风险(conditional risk)


我们希望找到一个判定准则,最小化总体风险


贝叶斯判定准则:为了使总体风险最小化,只需将每个样本选择使条件风险最小化的类别,即

此时,

称为贝叶斯最优分类器;

称为贝叶斯风险,反映了分类器能达到的最好性能。


假设要最小化分类错误率,且错误分类的权重相同的,那么可以令

此时

也就是选择后验概率最大的分类标记


可惜后验概率很难直接获得,好在可以从有限的训练集上估计出来。有两种估计策略,一是直接对建模来得到类似决策树、神经网络、SVM的判别式模型(discriminative models);二是先对联合概率分布建模,通过贝叶斯定理检测获得来得到生成式模型(genrative models),也即

其中,

是用于归一化的“证据因子”,与类别标记无关,那么

是先验概率,按照大数定律,在数据集包含充分的独立同分布样本时,可以直接用类别标记出现的频率来估计;

是条件概率,但期望样本出现所有属性的组合方式几乎是不可能的,因此我们需要估计这个条件概率。


为了估计条件概率,可以先假定样本具有某种确定的概率分布形式,然后基于样本对概率分布的参数进行估计。对概率模型,训练过程其实就是参数估计的过程。

  1. 频率主义学派:参数虽然未知,但客观上是固定值,可以通过优化似然函数等准则来确定参数;
  2. 贝叶斯学派:参数是未观察到的随机变量,其本身也有一个分布,可以先假设服从一个先验分布,然后根据可观察的数据来估计一个后验分布


极大似然估计

极大似然估计(Maximum Likelihood Estimation,MLE)

是训练集中类别标记为的样本集合,假设样本独立同分布,那么参数的似然为

考虑到连乘可以导致下溢出,通常采用对数似然(Log-Likelihood)

极大似然估计

接下来假设概率分布满足正态分布,即,那么按照极大似然将有

估计出正态分布参数,就可以估计出条件概率,进而得到贝叶斯分类器。

但这里存在一个问题,极大似然需要预先假设概率分布满足某种分布,而现实中却往往难以做出接近真实分布的假设。


朴素贝叶斯分类器

朴素贝叶斯分类器(naive Bayes classifier)

对于已知类别,假设所有属性相互独立,那么

其中,是属性数量,是第个属性值。

朴素贝叶斯分类器的表达式可以写作,

是训练集中类别标记为的样本集合,则

若第个属性是离散型的,记中第属性取值为的样本集合,则

若第个属性是连续型的,不妨假设,均值和方差是训练集上的统计值,则


为了避免样本中未出现的属性值将其他属性的贡献抹去(如某个导致条件概率的乘积为0),通常采用拉普拉斯修正来进行平滑,即


在应用朴素贝叶斯分类器时,

  1. 根据训练集可以预先确定一系列
  2. 按照测试样例的属性找到一系列对应的先验的条件概率
  3. 对每个类别标记分别计算,能使其最大的即为预测的类别



(……本章未完待续……)