似然函数

似然函数是一种在统计推断中用于参数估计的函数,它表示在给定参数下观测数据出现的概率。

似然函数通常定义为给定参数θ时观测数据x出现的概率,即L(θ|x) = P(X=x|θ)。在统计学中,似然函数是关于统计模型参数的函数,它可以帮助我们了解在特定参数值下观测到当前数据集的可能性。似然函数的具体定义取决于随机变量的性质:

  • 离散型随机变量:如果研究的随机变量是离散型的,那么似然函数就是所有观测值概率的乘积。例如,如果我们有一个离散型随机变量Y的样本y₁, y₂, …, yₙ,那么似然函数L(θ|y₁, y₂, …, yₙ)就是这些观测值各自概率的乘积。
  • 连续型随机变量:对于连续型随机变量,似然函数是所有观测值概率密度函数的乘积的积分。在实际计算中,由于连续型随机变量的概率密度函数可能很复杂,我们通常使用对数似然函数来简化计算过程。

总之,似然函数是统计学中一个非常重要的概念,它为基于数据进行参数估计提供了一种理论基础。通过最大化似然函数,可以得到参数的估计值,这种方法被称为最大似然估计(MLE)。最大似然估计是一种常用的参数估计方法,它在许多统计应用中都非常有用。

在机器学习中我们有损失函数的概念,其衡量的是模型预测错误的程度。如果取整个数据集上的平均对数似然损失,我们可以得到:

即在逻辑回归模型中,我们最大化似然函数和最小化损失函数实际上是等价的

似然函数与正则化

L1 正则化

LASSO 回归,相当于为模型添加了这样一个先验知识:w 服从零均值拉普拉斯分布。 首先看看拉普拉斯分布长什么样子:

拉普拉斯分布的概率密度函数如下:

,因此 L1 正则的本质其实是为模型增加了“模型参数服从零均值拉普拉斯分布”这一先验知识。

L2 正则化

Ridge 回归,相当于为模型添加了这样一个先验知识:w 服从零均值正态分布。

首先看看正态分布长什么样子:

等价于原始的损失函数后面加上了 L2 正则,因此 L2 正则的本质其实是为模型增加了“模型参数服从零均值正态分布”这一先验知识。

reference

  1. 【机器学习】逻辑回归(非常详细) - 知乎 (zhihu.com)