统计估计和机器学习

估计概率分布密度的非参数方法

我们知道最佳决策或最佳分类是:

Decide ωk=\argminωi[p(ei|x)]=\argminωi[1p(ωi|x)]=\argmaxωi[p(ωi|x)]=\argmaxωi[p(ωi)p(x|ωi)]

要设计一个自动模式识别系统,我们需要知道x所有值的概率分布/密度函数(PDF),以便系统能够对接收到的数据x的任何值做出决策。在实践中,PDF通常是未知的,只能通过收集的示例/样本{xi}=[x1,x2,,xn]来估计,以便设计模式识别系统。

根据一组训练样本D={xi}对随机变量x确定一些规则或者一些确定性值是统计估计或者机器学习的任务。

概率分布/密度函数(PDF)是关于随机变量的完整信息。

直接估计后验概率p(ωk|x)函数比较困难,因此我们学习先验概率p(ωk)和类条件概率函数p(x|ωk)

c先验概率可以通过以下方式轻松估计:

p^(ωk)=nkn

其中,nkn分别是ωk类的训练样本数和总训练样本数。

由于所有类别的估计方法相同,我们将p(x|ωk)的符号简化为p(x),并假设我们有n个样本{xi}=[x1,x2,,xn],根据概率定律p(x)独立同分布(independently and identically distributed,i.i.d.,一组随机变量之间相互独立,并且具有相同的概率分布)。

根据概率密度函数的定义,x落在区域R中的概率P为:

P(x)=Rxp(t)dtp(x)V

其中V是区域Rx的体积。

如果在该类的n个训练样本中,有k个样本落在区域R中,则P的估计值为P^(x)=kn。因此,PDF p(x)的估计值为

P^(x)=knV

这被称为非参数方法来估计概率密度函数,因为没有应用任何模型假设。

Parzen窗口方法

基于n个训练样本估计PDF的过程是:给定x的值,选择一个以x为中心、大小(体积)为V的区域/单元,计算该区域/单元中的样本数k。然后估计x处的概率密度p(x)为:p^(x)=knV

显然,区域/单元的形状和大小不同会导致PDF的估计值不同。

一般来说,x是多维的x=[x1,x2,,xd]。如果我们选择一个边长为hd维超立方体作为区域,样本xi=[xi1,xi2,,xid]将落入超立方体,如果

|xjxij|h<12 for  j=1,2,,d

因此,我们可以用数学方式将落入单元格k的样本数量表示为

k=i=1nK(xxih)

其中Parzen窗口核函数定义为

K={1, j=1,2,,d|uj|<120,Otherwise

然后估计x处的概率密度p(x)为:

p^(x)=1nhdi=1nK(xxih)

例子

由于矩形核函数不光滑,因此矩形核函数产生的PDF不光滑。实际上,我们可以选择任何函数作为核,只要满足:

K(u)0+K(u)du=+K(xxih)dxxih=+1hdK(xxih)dx=1

因此,任意PDF函数都可以作为核函数,这种方法称为Parzen窗口方法,实际上是将离散点{xi}=[x1,x2,,xn]插值成连续函数PDF p(x)

例子

概率神经网络和RBF神经网络几乎等同于Parzen窗口方法。

k最近邻k-NN规则

估计PDF的方法如下

p^(x)=knV

Parzen窗口方法选择一个以x为中心、大小固定(体积)V的区域/单元,并计算该区域/单元中的样本数k,以估计PDF。

我们还可以选择固定数量的样本k,并计算刚好包含k个样本的大小/体积,以这种方式估计PDF。

这种方法称为k最近邻k-NN估计

两个一维密度的几个k最近邻估计:

p^(x)=knV(k)

例子

k-NN技术还可用于从一组n个标记样本中估计后验概率P(ωi|x)

假设我们在x周围放置一个体积为V的单元并捕获k个样本,其中ki被标记为ωi

联合概率的估计值为pn(x,ωi)=kinV

因此,我们可以通过以下方式估计P(ωi|x)

Pn(ωi|x)=pn(x,ωi)j=1cpn(x,ωj)=kik

1st-NN分类器的分类边界,也简称为NN分类器。

对于大量训练样本,NN 分类器P的错误率被界定为

PPP(2cc1P)

估计概率分布密度的参数方法

我们发现,从训练样本中学习到的条件PDF可能与总体的真实PDF有很大偏差,尤其是在训练样本数量较少的情况下。

如果我们对该问题的一般知识允许我们对条件PDF进行建模,即使用数学解析函数来表示具有未知参数的PDF。这些问题的严重性可以大大降低。在这里,我们将条件PDF参数化,这称为参数化方法。

神经网络和深度学习也是参数方法。

最大似然 (ML) 估计

但我们从最简单的开始。假设p(x|ωk)是高斯密度,其均值为μk,协方差矩阵为Σk。虽然我们不知道它们的值,但这一知识将问题从估计未知函数p(x|ωk)简化为仅估计未知参数μkΣk

现在我们将使用一组独立于概率密度p(x|θ)抽取的训练样本D={xi}=[x1,x2,,xn]来估计未知参数向量θ

让我们看一个例子来产生如何根据训练数据D合理地估计给定概率密度p(x|θ)的参数的想法。

该图显示了一维中的几个训练点,已知或假定它们来自特定方差的高斯分布,但均值未知。虚线显示了具有4个不同均值的四个PDF。

现在我们用数学的方式阐述我们的想法。

显然,样本xk发生的概率为p(xk|θ)。由于训练集中所有样本都是独立收集(发生)的,因此所有样本发生的概率为

p(D|θ)=k=1np(xk|θ)

直观上,我们应该选择参数,使得概率密度p(x|θ)最好地支持实际观察到的训练样本,即使得所有训练数据发生的概率p(D|θ)最大。注意,p(D|θ)称为θ关于样本集D的似然。因此,这种方法称为最大似然(the maximum likelihood,ML)估计。

θ^=\argmaxθp(D|θ)=\argmaxθk=1np(xk|θ)

由于θ函数的乘积并且p(xk|θ)通常是θ的非线性函数,因此通常不容易获得解析解。

由于对数是单调递增的,最大化函数的对数也会最大化函数本身。对数具有很好的性质,可以将乘法转换为求和,并简化指数函数。

因此,我们最大化对数似然,而不是最大化似然

θ^=\argmaxθlnp(D|θ)=\argmaxθk=1nlnp(xk|θ)

可以通过微积分的标准方法找到解决方案:解梯度为零的方程。

θlnp(D|θ)=0θk=1nlnp(xk|θ)=0

假设需要估计的参数个数为q,则θ是一个q分量向量θ=(θ1,θ2,,θq)。梯度是一个包含针对θ所有分量的偏微分的向量。

θf(θ)(f(θ)θ1f(θ)θq)

多元高斯概率分布密度

为了了解最大似然法结果如何应用于具体情况,假设样本是从具有未知均值μ和协方差矩阵Σ的多元高斯总体中抽取的。

p(x|θ)=1(2π)d2|Σ|12exp[12(xμ)Σ1(xμ)]

单个样本的对数似然为

lnp(xk|θ)=12ln[(2π)d|Σ|]12(xkμ)Σ1(xkμ)

首先考虑单变量情况θ=(θ1,θ2)=(μ,σ2)

p(x|θ)=12πσexp[12(xμσ)2]

这里单个样本的对数似然简化为

lnp(xk|θ)=12ln[2πσ2]12σ2(xkμ)2

其导数为

θlnp(xk|θ)=(1σ2(xkμ)12σ2+(xkμ)22σ4)

应用ML

θlnp(D|θ)=θk=1nlnp(xk|θ)=0

我们有

{k=1n1σ2(xkμ)=0k=1n12σ2+k=1n(xkμ)22σ4=0

解这两个方程,我们得到以下最大似然估计

{μ^=1nk=1nxkσ^2=1nk=1n(xkμ^)2

虽然多变量情况的分析基本非常相似,但涉及的操作要多得多。结果是,多元高斯PDF的均值向量μ和协方差矩阵Σ的最大似然估计

p(x|θ)=1(2π)d2|Σ|12exp[12(xμ)Σ1(xμ)]

由下式给出

{μ^=1nk=1nxkσ^2=1nk=1n(xkμ^)(xkμ^)