当前位置:首页 > 科技 > 正文

正则化的极大似然函数?正则化系数如何确定

正则化的极大似然函数?正则化系数如何确定

大家好,感谢邀请,今天来为大家分享一下正则化的极大似然函数的问题,以及和正则化系数如何确定的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可...

大家好,感谢邀请,今天来为大家分享一下正则化的极大似然函数的问题,以及和正则化系数如何确定的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!

对于工程来说,机器学习的数学基础重要吗

数学在机器学习中非常重要,但我们通常只是借助它理解具体算法的理论与实际运算过程。近日加州大学圣巴巴拉分校的PaulJ.Atzberger回顾了机器学习中的经验风险与泛化误差边界,他认为在科学和工程领域中,我们需要从基本理论与数学出发高效使用现有方法,或开发新方法来整合特定领域与任务所需要的先验知识。

近期研究人员越来越多地关注将机器学习方法应用到科学、工程应用中。这主要是受自然语言处理(NLP)和图像分类(IC)[3]领域近期发展的影响。但是,科学和工程问题有其独特的特性和要求,对高效设计和部署机器学习方法带来了新挑战。这就对机器学习方法的数学基础,以及其进一步的发展产生了强大需求,以此来提高所使用方法的严密性,并保证更可靠、可解释的结果。正如近期当前最优结果和统计学习理论中「没有免费的午餐」定理所述,结合某种形式的归纳偏置和领域知识是成功的必要因素[3,6]。因此,即使是现有广泛应用的方法,也对进一步的数学研究有强需求,以促进将科学知识和相关归纳偏置整合进学习框架和算法中。本论文简单讨论了这些话题,以及此方向的一些思路[1,4,5]。

在构建机器学习方法的理论前,简要介绍开发和部署机器学习方法的多种模态是非常重要的。监督学习感兴趣的是在不完美条件下找出输入数据x的标注与输出数据之间的函数关系f,即y=f(x)+ξ,不完美条件包括数据有限、噪声ξ不等于0、维度空间过大或其他不确定因素。其他模态包括旨在发现数据内在结构、找到简洁表征的无监督学习,使用部分标注数据的半监督学习,以及强化学习。本文聚焦监督学习,不过类似的挑战对于其他模态也会存在。

应该强调近期很多机器学习算法的成功(如NLP、IC),都取决于合理利用与数据信号特质相关的先验知识。例如,NLP中的Word2Vec用于在预训练步骤中获取词标识符的词嵌入表示,这种表示编码了语义相似性[3]。在IC中,卷积神经网络(CNN)的使用非常普遍,CNN通过在不同位置共享卷积核权重而整合自然图像的先验知识,从而获得平移不变性这一重要的属性[3]。先验知识的整合甚至包括对这些问题中数据信号的内在层级和构造本质的感知,这促进了深层架构这一浪潮的兴起,深层架构可以利用分布式表征高效捕捉相关信息。

在科学和工程领域中,需要类似的思考才能获取对该领域的洞察。同时我们需要对机器学习算法进行调整和利用社区近期进展,以便高效使用这些算法。为了准确起见,本文对监督学习进行了简要描述。与传统的逼近理论(approximationtheory)相反,监督学习的目的不仅是根据已知数据逼近最优解f,还要对抗不确定因素,使模型在未见过的数据上也能获得很好的泛化性能。这可以通过最小化损失函数L来获得,其中L的期望定义了真实风险。L有很多不同的度量方法,如最小二乘法中的?(x,y,f)=(f(x)?y)^2,或最大似然方法?(x,y,f)=?log(p(y|x,f))。但是,R(f)在实践中是无法计算的,因为模型从数据中获得的关于分布D的信息有限,这促进我们在实践中使用替代误差(surrogateerror),如经验风险。从统计学上来说,使用经验风险也有很大的成本,因为当数据量不够大时Rhat可能不会均匀地收敛至真实风险R(f)。但是,因为f来自离散假设空间H,且H在任意选择的复杂度c(f)下可能都是无限空间,若c(f)满足时,你可以在m个样本上推出泛化误差边界:

其中,概率1?δ适用于随机数据集[2]。类似的边界也可以从具备其他复杂度(如VC维或Rademacher复杂度)的连续假设空间中推导出。这在数学层面上捕捉了当前很多对应RHS优化的训练方法和学习算法。常见的选择是适用于有限空间的经验风险最小化,使用c(f)=log(|H|),其中c不再在正则化中发挥作用。

我们可以了解到如何通过对假设空间H和c(f)的谨慎选择来实现更好的泛化与更优的性能。对于科学和工程应用而言,这可能包括通过设计c(f)或限制空间H来整合先验信息。例如限制H仅保持符合物理对称性的函数、满足不可压缩等限制、满足守恒定律,或者限制H满足更常见的线性或非线性PDE的类别[1,4,5]。这可以更好地对齐优秀的c(f)和Rhat,并确保更小的真实风险R(f)。尽管传统上这是机器学习的重点,但这不是唯一策略。

正如近期深度学习方法所展示的那样,你可以使用复杂的假设空间,但不再依赖于随机梯度下降等训练方法,而是支持更低复杂度的模型以仅保留与预测Y相关的输入信号X。类似的机会也存在于科学和工程应用中,这些应用可获得关于输入信号相关部分的大量先验知识。例如,作为限制假设空间的替代方法,训练过程中你可以在输入数据上执行随机旋转,以确保选择的模型可以在对称情况下保持预测结果不变。还有很多利用对输入数据和最终目标的洞察来结合这些方法的可能性。

我们看到即使在本文提到的泛化边界类型方面也可以获取大量新观点。针对改进边界和训练方法做进一步的数学研究,可能对高效使用现有方法或开发新方法来整合先验知识方面大有裨益。我们希望本文可以作为在一般理论和当前训练算法中进行数学研究的开端,开发出更多框架和方法来更好地适应科学和工程应用。

相关论文:ImportanceoftheMathematicalFoundationsofMachineLearningMethodsforScientificandEngineeringApplications

什么是概率论中的最大似然估计

在这篇文章中,我将解释参数估计的最大似然法是什么,并通过一个简单的例子来演示该方法。有些内容需要理解基本的概率论的概念,比如联合概率和事件的独立性等定义。我写了一篇博客文章介绍了这些基本概念,所以如果你认为你需要复习一下的话,尽管点击阅读吧。(链接:https://medium.com/@jonnybrooks04/probability-concepts-explained-introduction-a7c0316de465)

什么是参数?

在机器学习中,我们经常使用一个模型来描述所观察到的数据产生的过程。例如,我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称为流失建模),或者我们可以用线性模型根据公司的广告支出来预测公司的收入(这是一个线性回归的例子)。每个模型都包含自己的一组参数,这些参数最终定义了模型的样子。

我们可以把线性模型写成y=mx+c的形式。在广告预测收入的例子中,x可以表示广告支出,y是产生的收入。m和c则是这个模型的参数。这些参数的不同值将在坐标平面上给出不同的直线(见下图)。

参数值不同的三个线性模型。

因此,参数为模型定义了一个蓝图。只有将参数选定为特定值时,才会给出一个描述给定现象的模型实例。

最大似然估计的直观解释

最大似然估计是一种确定模型参数值的方法。确定参数值的过程,是要找到能够最大化模型产生真实观察到的数据的可能性的那一组参数。

上述的定义可能听起来还是有点模糊,那么让我们通过一个例子来帮助理解这一点。

假设我们从某个过程中观察了10个数据点。例如,每个数据点可以代表一个学生回答特定考试问题的时间长度(以秒为单位)。这10个数据点如下图所示

我们观察到的10个(假设的)数据点

我们首先要决定我们认为哪个模型最适合描述生成数据的过程。这一部至关重要。至少,我们应该对使用哪种模型有一个不错的想法。这个判断通常来自于一些领域内专家,但我们不在这里讨论这个问题。

对于这些数据,我们假设数据生成过程可以用高斯分布(正态分布)进行充分描述。对以上数字目测一番就可以得知,高斯分布是合理的,因为这10个点的大部分都集中在中间,而左边和右边的点都很少。(对只使用10个数据点的做出这样的草率决定是不明智的,但考虑到我生成了这些数据点,我们就凑合着用吧)。

回想一下高斯分布有两个参数:均值μ和标准差σ。这些参数的不同值会对应不同的曲线(就像上面的直线一样)。我们想知道**哪条曲线最可能产生我们观察到的数据点?(见下图)。用最大似然估计法,我们会找到与数据拟合得最好的μ、σ的值。

10个数据点和可能得出这些数据的高斯分布。f1是正态分布,均值为10、方差为2.25(方差等于标准偏差的平方),这也可以表示为f1~N(10,2.25)。f2~N(10,9),f3~N(10,0.25),而f4~N(8,2.25)。最大似然的目标是找到最有可能观察到已知数据的分布的参数值。

我当时生成数据的真实分布是f1~N(10,2.25),也就是上图中的蓝色曲线。

计算最大似然估计

现在我们对最大似然估计有了直观的理解,我们可以继续学习如何计算参数值了。我们找到的参数值被称为最大似然估计(MLE)。

我们同样将用一个例子来演示这个过程。假设我们这次有三个数据点,我们假设它们是从一个被高斯分布充分描述的过程中生成的。这些点是9、9.5和11。那么我们如何计算这个高斯分布的最大似然估计参数值μ和σ呢?

我们要计算的是观察到所有这些数据的总概率,也就是所有观测数据点的联合概率分布。要做到这一点,我们需要计算一些可能会很难算出来的条件概率。我们将在这里做出我们的第一个假设。**假设每个数据点都是独立于其他数据点生成的。**这个假设能让计算更容易些。如果事件(即生成数据的过程)是独立的,那么观察所有数据的总概率就是单独观察到每个数据点的概率的乘积(即边缘概率的乘积)。

从高斯分布中生成的单个数据点x的(边缘)概率是:

在表达式P(x;μ,σ)中的分号是为了强调在分号后的符号都是概率分布的参数。所以千万不要把这个与一个条件概率相混淆。条件概率一般会用一根竖线来表达,比如说P(A|B)。

在我们的例子中,观察到这三个数据点的总(联合)概率是:

我们只要找出能够让上述表达式最大的μ、σ的值就可以了。

如果你在数学课上学过微积分,那么你可能会意识到有一种技巧可以帮助我们找到函数的最大值(和最小值)。它被称为微分。我们所要做的就是求出函数的导数,把导函数设为零然后重新排列方程,使其参数成为方程的未知数。然后就这样,我们将得到参数的MLE值。我将串讲一下这些步骤,但我假设读者知道如何对常用函数进行微分。如果你想要更详细的解释,请在评论中告诉我。

对数似然函数

上述的总概率表达式实际上是很难微分,所以它几乎总是通过对表达式取自然对数进行简化。这完全没问题,因为自然对数是一个单调递增的函数。这意味着,如果x轴上的值增加,y轴上的值也会增加(见下图)。这一点很重要,因为它确保了概率的对数值的最大值出现在与原始概率函数相同的点上。因此,我们可以用更简单的对数概率来代替原来的概率。

原函数的单调性,左边是y=x,右边是(自然)对数函数y=ln(x)。

这是一个非单调函数的例子,因为当你在图上从左到右考察,f(x)的值会上升,然后下降,然后又上升。

取初始表达式的对数能得到:

我们可以用对数的运算法则再一次简化这个表达式,得到:

这个表达式可以通过求导得到最大值。在这个例子中,我们要找到平均值,μ。为此我们对函数求μ的偏导数,得到:

最后,设置等式的左边为零,然后以μ为准整理式子,可以得到:

这样我们就得到了μ的最大似然估计。我们可以用同样的方法得到σ的最大似然估计,这留给有兴趣的读者自己练习。

结束语

最大似然估计总是能精确地得到解吗?

简单来说,不能。更有可能的是,在真实的场景中,对数似然函数的导数仍然是难以解析的(也就是说,很难甚至不可能人工对函数求微分)。因此,一般采用最大期望值算法等迭代方法为参数估计找到数值解。但总体思路还是一样的。

为什么叫「最大似然(最大可能性)」,而不是「最大概率」呢?

好吧,这只是统计学家们卖弄学问(但也是有充分的理由)。大多数人倾向于混用「概率」和「可能性」这两个名词,但统计学家和概率理论家都会区分这两个概念。通过观察这个等式,我们可以更好地明确这种混淆的原因。

这两个表达式是相等的!所以这是什么意思?我们先来定义P(data;μ,σ)它的意思是「在模型参数μ、σ条件下,观察到数据data的概率」。值得注意的是,我们可以将其推广到任意数量的参数和任何分布。

另一方面,L(μ,σ;data)的意思是「我们在观察到一组数据data之后,参数μ、σ取特定的值的可能性。」

上面的公式表示,给定参数的数据的概率等于给定数据的参数的可能性。但是,尽管这两个值是相等的,但是可能性和概率从根本上是提出了两个不同的问题——一个是关于数据的,另一个是关于参数值的。这就是为什么这种方法被称为最大似然法(极大可能性),而不是最大概率。

什么时候最小二乘参数估计和最大似然估计结果相同?

最小二乘法是另一种常用的机器学习模型参数估计方法。结果表明,当模型向上述例子中一样被假设为高斯分布时,MLE的估计等价于最小二乘法。对于更深入的数学推导,请参阅这些幻灯片。(链接:https://web.archive.org/web/20111202153913/http:/www.cs.cmu.edu/~epxing/Class/10701/recitation/recitation3.pdf)

直觉上,我们可以通过理解两种方法的目的来解释这两种方法之间的联系。对于最小二乘参数估计,我们想要找到最小化数据点和回归线之间总距离平方的直线(见下图)。在最大似然估计中,我们想要最大化数据出现的总概率。当待求分布被假设为高斯分布时,最大概率会在数据点接近平均值时找到。由于高斯分布是对称的,这等价于最小化数据点与平均值之间的距离。

有随机高斯噪声的数据点的回归线

如果有什么不清楚的,或者我在上面说错了什么,请留下评论。在下一篇文章中,我将介绍贝叶斯推断,以及它如何应用于参数估计。

什么是似然比

似然比(likelihoodratio,LR)是反映真实性的一种指标,属于同时反映灵敏度和特异度的复合指标。

未来根据检验水平去决定临界值c,需要求出在零假设成立时的分布。但这只能在样本分布为指数型,截断型等几种情况下可以做到。威尔克斯(Wilks)在1938年证明了:在一定的正则条件下,在零假设下以分布为极限分布,这可以用来在样本量很大的时候近似地决定临界值c。因此,似然比检验基本上是大样本检验。

极大似然估计公式

极大似然估计(MaximumLikelihoodEstimation)是统计学中常用的一种估计方法。它的基本思想是,在给定模型参数的情况下,选择使得样本观测数据出现的概率最大的模型参数值。极大似然估计的公式如下:

L(θ)=∏f(x_i|θ)

其中,L(θ)表示样本观测数据出现的概率,θ表示模型参数,f(x_i|θ)表示样本x_i出现的概率。

正则化的极大似然函数和正则化系数如何确定的问题分享结束啦,以上的文章解决了您的问题吗?欢迎您下次再来哦!

最新文章