统计估计和机器学习
估计概率分布密度的非参数方法
我们知道最佳决策或最佳分类是:
要设计一个自动模式识别系统,我们需要知道
根据一组训练样本
概率分布/密度函数(PDF)是关于随机变量的完整信息。
直接估计后验概率
其中,
由于所有类别的估计方法相同,我们将
根据概率密度函数的定义,
其中
如果在该类的
这被称为非参数方法来估计概率密度函数,因为没有应用任何模型假设。
Parzen窗口方法
基于
显然,区域/单元的形状和大小不同会导致PDF的估计值不同。
一般来说,
因此,我们可以用数学方式将落入单元格
其中Parzen窗口核函数定义为
然后估计

由于矩形核函数不光滑,因此矩形核函数产生的PDF不光滑。实际上,我们可以选择任何函数作为核,只要满足:
因此,任意PDF函数都可以作为核函数,这种方法称为Parzen窗口方法,实际上是将离散点

概率神经网络和RBF神经网络几乎等同于Parzen窗口方法。
k最近邻k-NN规则
估计PDF的方法如下
Parzen窗口方法选择一个以
我们还可以选择固定数量的样本
这种方法称为k最近邻k-NN估计
两个一维密度的几个k最近邻估计:

k-NN技术还可用于从一组
假设我们在
联合概率的估计值为
因此,我们可以通过以下方式估计

对于大量训练样本,NN 分类器P的错误率被界定为
估计概率分布密度的参数方法
我们发现,从训练样本中学习到的条件PDF可能与总体的真实PDF有很大偏差,尤其是在训练样本数量较少的情况下。
如果我们对该问题的一般知识允许我们对条件PDF进行建模,即使用数学解析函数来表示具有未知参数的PDF。这些问题的严重性可以大大降低。在这里,我们将条件PDF参数化,这称为参数化方法。
神经网络和深度学习也是参数方法。
最大似然 (ML) 估计
但我们从最简单的开始。假设
现在我们将使用一组独立于概率密度
让我们看一个例子来产生如何根据训练数据
该图显示了一维中的几个训练点,已知或假定它们来自特定方差的高斯分布,但均值未知。虚线显示了具有
现在我们用数学的方式阐述我们的想法。
显然,样本
直观上,我们应该选择参数,使得概率密度
由于
由于对数是单调递增的,最大化函数的对数也会最大化函数本身。对数具有很好的性质,可以将乘法转换为求和,并简化指数函数。
因此,我们最大化对数似然,而不是最大化似然
可以通过微积分的标准方法找到解决方案:解梯度为零的方程。
假设需要估计的参数个数为
多元高斯概率分布密度
为了了解最大似然法结果如何应用于具体情况,假设样本是从具有未知均值
单个样本的对数似然为
首先考虑单变量情况
这里单个样本的对数似然简化为
其导数为
应用ML
我们有
解这两个方程,我们得到以下最大似然估计
虽然多变量情况的分析基本非常相似,但涉及的操作要多得多。结果是,多元高斯PDF的均值向量
由下式给出