监督学习中的损失函数常用来评估样本的真实值和模型预测值之间的不一致程度，一般用于模型的参数估计。受应用场景、数据集和待求解问题等因素的制约，现有监督学习算法使用的损失函数的种类和数量较多，而且每个损失函数都有各自的特征，因此要从众多损失函数中选择适合求解问题最优模型的损失函数。

损失函数的概念

在各种材料中经常看到的中英文词汇有：误差，偏差，Error，Cost，Loss，损失，代价......意思都差不多，在本文中，使用“损失函数”和“Loss Function”这两个词汇，具体的损失函数符号用来表示，误差值用表示。

“损失”就是所有样本的“误差”的总和，亦即（为样本数）：

严谨来说，如果我们说“某个样本的损失”是不对的，只能说“某个样本的误差”，因为样本是一个一个计算的。如果我们把神经网络的参数调整到完全满足某个独立样本的输出误差为0，通常会使得其它样本的误差变得更大，这样作为误差之和的损失函数值，就会变得更大。所以，我们通常会在根据某个样本的误差调整权重后，计算一下整体样本的损失函数值，来判定网络是不是已经训练到了可接受的状态。

损失函数的作用

损失函数的作用，就是计算神经网络每次迭代的前向计算结果与真实值的差距，从而指导下一步的训练向正确的方向进行。

如何使用损失函数呢？具体步骤：

用随机值初始化前向计算公式的参数；
代入样本，计算输出的预测值；
用损失函数计算预测值和标签值（真实值）的误差；
根据损失函数的导数，沿梯度最小方向将误差回传，修正前向计算公式中的各个权重值；
goto 步骤2，直到损失函数值达到一个满意的值就停止迭代。

机器学习中常用的损失函数

本文依据损失函数度量方式的不同，将主要损失函数分为基于距离度量的损失函数和基于概率分布度量的损失函数。

基于距离度量的损失函数

基于距离度量的损失函数通常将输入数据映射到基于距离度量的特征空间上，如欧氏空间、汉明空间等，将映射后的样本看作空间上的点，采用合适的损失函数度量特征空间上样本真实值和模型预测值之间的距离。特征空间上两个点的距离越小，模型的预测性能越好。

均方误差损失函数（MSE）

在回归问题中，均方误差损失函数用于度量样本点到回归曲线的距离，通过最小化平方损失使样本点可以更好地拟合回归曲线。均方误差损失函数（MSE）的值越小，表示预测模型描述的样本数据具有越好的精确度。

由于无参数、计算成本低和具有明确物理意义等优点，MSE已成为一种优秀的距离度量方法。尽管MSE在图像和语音处理方面表现较弱，但它仍是评价信号质量的标准，在回归问题中，MSE常被作为模型的经验损失或算法的性能指标。

代码实现：

import numpy as np
# 自定义实现
def MSELoss(x:list,y:list):
    """
    x:list，代表模型预测的一组数据
    y:list，代表真实样本对应的一组数据
    """
    assert len(x)==len(y)
    x=np.array(x)
    y=np.array(y)
    loss=np.sum(np.square(x - y)) / len(x)
    return loss

#计算过程举例
x=[1,2]
y=[0,1]
loss=（（1-0）**2 + （2-1）**2）÷2=（1+1）÷2=1

L2损失函数

L2损失又被称为欧氏距离，是一种常用的距离度量方法，通常用于度量数据点之间的相似度。由于L2损失具有凸性和可微性，且在独立、同分布的高斯噪声情况下，它能提供最大似然估计，使得它成为回归问题、模式识别、图像处理中最常使用的损失函数。

代码实现：

import numpy as np
# 自定义实现
def L2Loss(x:list,y:list):
    """
    x:list，代表模型预测的一组数据
    y:list，代表真实样本对应的一组数据
    """
    assert len(x)==len(y)
    x=np.array(x)
    y=np.array(y)
    loss=np.sqrt(np.sum(np.square(x - y)) / len(x))
    return loss

L1损失函数

L1损失又称为曼哈顿距离或绝对值损失函数，表示残差的绝对值之和。L1损失函数对离群点有很好的鲁棒性，但它在残差为零处却不可导。另一个缺点是更新的梯度始终相同，也就是说，即使很小的损失值，梯度也很大，这样不利于模型的收敛。针对它的收敛问题，一般的解决办法是在优化算法中使用变化的学习率，在损失接近最小值时降低学习率。

代码实现：

import numpy as np
# 自定义实现
def L1Loss(x:list,y:list):
    """
    x:list，代表模型预测的一组数据
    y:list，代表真实样本对应的一组数据
    """
    assert len(x)==len(y)
    x=np.array(x)
    y=np.array(y)
    loss=np.sum(np.abs(x - y)) / len(x)
    return loss

Smooth L1损失函数

Smooth L1损失是由Girshick R在Fast R-CNN中提出的，主要用在目标检测中防止梯度爆炸。

代码实现：

# 自定义实现
def Smooth_L1(x,y):
    assert len(x)==len(y)
    loss=0
    for i_x,i_y in zip(x,y):
        tmp = abs(i_y-i_x)
        if tmp<1:
            loss+=0.5*(tmp**2)
        else:
            loss+=tmp-0.5
    return loss

huber损失函数

huber损失是平方损失和绝对损失的综合，它克服了平方损失和绝对损失的缺点，不仅使损失函数具有连续的导数，而且利用MSE梯度随误差减小的特性，可取得更精确的最小值。尽管huber损失对异常点具有更好的鲁棒性，但是，它不仅引入了额外的参数，而且选择合适的参数比较困难，这也增加了训练和调试的工作量。

代码实现：

delta=1.0  # 先定义超参数
# 自定义实现
def huber_loss(x,y):
    assert len(x)==len(y)
    loss=0
    for i_x,i_y in zip(x,y):
        tmp = abs(i_y-i_x)
        if tmp<=delta:
            loss+=0.5*(tmp**2)
        else:
            loss+=tmp*delta-0.5*delta**2
    return loss

0-1损失函数

0-1损失函数相等这个条件太过严格，可以放宽条件，即满足时认为相等：

其中为参数，在感知机算法中。

尽管0-1损失函数存在误分类的情况，但是，当所有样本完全远离分隔线时，0-1损失函数可能是最好的选择，也就是说，0-1损失函数在对称或均匀噪声的数据集上具有较好的鲁棒性。

铰链/折页损失函数

铰链损失（hinge loss）也被称为合页损失或折页损失，它最初用于求解最大间隔的二分类问题。铰链损失函数是一个分段连续函数，当和的符号相同时，预测结果正确；当和的符号相反时，铰链损失随着的增大线性增大。铰链损失函数最著名的应用是作为支持向量机（support vector machine，SVM）的目标函数，其性质决定了SVM具有稀疏性，也就是说，分类正确但概率不足 1 和分类错误的样本被识别为支持向量，用于划分决策边界，其余分类完全正确的样本没有参与模型求解。

基于概率分布度量的损失函数

基于概率分布度量的损失函数是将样本间的相似性转化为随机事件出现的可能性，即通过度量样本的真实分布与它估计的分布之间的距离，判断两者的相似度，一般用于涉及概率分布或预测类别出现的概率的应用问题中，在分类问题中尤为常用。

KL散度函数（相对熵）

公式中代表真实值，代表预测值。

KL散度（ Kullback-Leibler divergence）也被称为相对熵，是一种非对称度量方法，常用于度量两个概率分布之间的距离。KL散度也可以衡量两个随机分布之间的距离，两个随机分布的相似度越高的，它们的KL散度越小，当两个随机分布的差别增大时，它们的KL散度也会增大，因此KL散度可以用于比较文本标签或图像的相似性。

基于KL散度的演化损失函数有JS散度函数。JS散度也称JS距离，用于衡量两个概率分布之间的相似度，它是基于KL散度的一种变形，消除了KL散度非对称的问题，与KL散度相比，它使得相似度判别更加准确。

相对熵是恒大于等于0的。当且仅当两分布相同时，相对熵等于0。

代码实现：

# 自定义实现
def kl_loss(y_true:list,y_pred:list):
    """
    y_true,y_pred，分别是两个概率分布
    比如：px=[0.1,0.2,0.8]
          py=[0.3,0.3,0.4]
    """
    assert len(y_true)==len(y_pred)
    KL=0
    for y,fx in zip(y_true,y_pred):
        KL+=y*np.log(y/fx)
    return KL

交叉熵损失公式

交叉熵是信息论中的一个概念，最初用于估算平均编码长度，引入机器学习后，用于评估当前训练得到的概率分布与真实分布的差异情况。为了使神经网络的每一层输出从线性组合转为非线性逼近，以提高模型的预测精度，在以交叉熵为损失函数的神经网络模型中一般选用tanh、sigmoid、softmax或ReLU作为激活函数。

交叉熵损失函数刻画了实际输出概率与期望输出概率之间的相似度，也就是交叉熵的值越小，两个概率分布就越接近，特别是在正负样本不均衡的分类问题中，常用交叉熵作为损失函数。目前，交叉熵损失函数是卷积神经网络中最常使用的分类损失函数，它可以有效避免梯度消散。在二分类情况下也叫做对数损失函数。

代码实现：

# 自定义实现
def CrossEntropy_loss(y_true:list,y_pred:list):
    """
    y_true,y_pred，分别是两个概率分布
    比如：px=[0.1,0.2,0.8]
          py=[0.3,0.3,0.4]
    """
    assert len(y_true)==len(y_pred)
    loss=0
    for y,fx in zip(y_true,y_pred):
        loss+=-y * np.log(fx)
    return loss

当正负样本不均衡的时候，通常会在交叉熵损失函数类别前面加个参数：

softmax损失函数公式

从标准形式上看，softmax损失函数应归到对数损失的范畴，在监督学习中，由于它被广泛使用，所以单独形成一个类别。softmax损失函数本质上是逻辑回归模型在多分类任务上的一种延伸，常作为CNN模型的损失函数。softmax损失函数的本质是将一个k维的任意实数向量x映射成另一个k维的实数向量，其中，输出向量中的每个元素的取值范围都是(0,1)，即softmax损失函数输出每个类别的预测概率。由于softmax损失函数具有类间可分性，被广泛用于分类、分割、人脸识别、图像自动标注和人脸验证等问题中，其特点是类间距离的优化效果非常好，但类内距离的优化效果比较差。

softmax损失函数具有类间可分性，在多分类和图像标注问题中，常用它解决特征分离问题。在基于卷积神经网络的分类问题中，一般使用softmax损失函数作为损失函数，但是softmax损失函数学习到的特征不具有足够的区分性，因此它常与对比损失或中心损失组合使用，以增强区分能力。

代码实现：

# 自定义实现
def softmax(x):
    x_exp = np.exp(x)
    x_sum = np.sum(x_exp, axis=1, keepdims=True)
    s = x_exp / x_sum
    return s

Focal loss

focal loss的引入主要是为了解决难易样本不均衡的问题，注意有区别于正负样本不均衡的问题。难易样本分为四个类型：

	难	易
正	正难	正易
负	负难	负易

易分样本虽然损失很低，但是数量太多，对模型的效果提升贡献很小，模型应该重点关注那些难分样本，因此需要把置信度高的损失再降低一些。

图示理解损失函数

用二维函数图像理解单变量对损失函数的影响

下图中，纵坐标是损失函数值，横坐标是变量。不断地改变变量的值，会造成损失函数值的上升或下降。而梯度下降算法会让我们沿着损失函数值下降的方向前进。

假设我们的初始位置在点，，损失函数值（纵坐标）较大，回传给网络做训练；
经过一次迭代后，我们移动到了点，，损失函数值也相应减小，再次回传重新训练；
以此节奏不断向损失函数的最低点靠近，经历了；
直到损失值达到可接受的程度，比如的位置，就停止训练。

用等高线图理解双变量对损失函数影响

下图中，横坐标是一个变量，纵坐标是另一个变量。两个变量的组合形成的损失函数值，在图中对应处于等高线上的唯一的一个坐标点。所有的不同的值的组合会形成一个损失函数值的矩阵，我们把矩阵中具有相同（相近）损失函数值的点连接起来，可以形成一个不规则椭圆，其圆心位置，是损失值为 0 的位置，也是我们要逼近的目标。

这个椭圆如同平面地图的等高线，来表示的一个洼地，中心位置比边缘位置要低，通过对损失函数值的计算，对损失函数的求导，会带领我们沿着等高线形成的梯子一步步下降，无限逼近中心点。

常用的损失函数

均方差损失函数，主要用于回归问题。
交叉熵损失函数，主要用于分类问题。

二者都是非负函数，极值在底部，用梯度下降法可以求解。

是样本数，是预测值，是样本标签值，是单个样本的误差值，是损失函数值。

均方差损失函数

均方差（mean square error，MSE）是最直观的一个损失函数，计算预测值和真实值之间的欧氏距离。预测值和真实值越接近，两者的均方差就越小。

均方差损失函数常用语线性回归（linear regression），即函数拟合（function fitting）。

单样本：

多样本：

工作原理

想要得到预测值和真实值的差距，最朴素的想法就是求差值。对于单样本来说，求差值没有问题，但是多样本累计时，就有可能有正有负，误差求和时就会导致相互抵消，从而失去价值。所以有了绝对差值的想法，即。这看上去很简单，并且也很理想，那为什么还要引入均方差损失函数呢？

因为平方放大了误差，也放大了某个样本的局部损失对全局带来的影响，即对某些偏离大的样本比较敏感，从而引起监督学习训练过程的足够重视，以便回传误差。

实际案例

假设有一组数据如图所示，我们想找到一条拟合的直线。

下图前三张显示了一个逐渐找到最佳拟合直线的过程。

第一张，用均方差函数计算得到Loss=0.53；
第二张，直线向上平移一些，误差计算Loss=0.16，比图一的误差小很多；
第三张，又向上平移了一些，误差计算Loss=0.048，此后还可以继续尝试平移（改变值）或者变换角度（改变值），得到更小的损失函数值；
第四张，偏离了最佳位置，误差值Loss=0.18，这种情况，算法会让尝试方向反向向下。

第三张图损失函数值最小的情况。比较第二张和第四张图，由于均方差的损失函数值都是正值，如何判断是向上移动还是向下移动呢？

在实际的训练过程中，是没有必要计算损失函数值的，因为损失函数值会体现在反向传播的过程中。我们来看看均方差函数的导数：

虽然永远是正数，但是却可以是正数（直线在点下方时）或者负数（直线在点上方时），这个正数或者负数被反向传播回到前面的计算过程中，就会引导训练过程朝正确的方向尝试。

在上面的例子中，我们有两个变量，一个，一个，这两个值的变化都会影响最终的损失函数值的。

我们假设该拟合直线的方程是，当我们固定，把值从2到4变化时，看看损失函数值的变化如下图所示。

我们假设该拟合直线的方程是，当我们固定，把值从1到3变化时，看看损失函数值的变化如下图所示。

损失函数的可视化

损失函数值的3D示意图

横坐标为，纵坐标为，针对每一个和一个的组合计算出一个损失函数值，用三维图的高度来表示这个损失函数值。下图中的底部并非一个平面，而是一个有些下凹的曲面，只不过曲率较小，如下图。

损失函数值的2D示意图

在平面地图中，我们经常会看到用等高线的方式来表示海拔高度值，下图就是上图在平面上的投影，即损失函数值的等高线图，如下图所示。

交叉熵损失函数

交叉熵（cross entropy）是香农（Shannon）信息论中一个重要概念，主要用于度量两个概率分布之间的差异性信息。在信息论中，交叉熵是表示两个概率分布，的差异，其中表示真实分布，表示预测分布，那么就称为交叉熵。

交叉熵可以在神经网络中作为损失函数，表示真实标记的分布，表示训练后的模型的预测标记分布，交叉熵损失函数可以衡量与之间的相似性。

交叉熵损失函数常用于逻辑回归（logistic regression），也就是分类（classification）任务。

交叉熵的由来

信息量

信息论中，信息量的表示方式如下：

其中，

表示一个事件；
表示发生的概率；
表示信息量，越不可能发生时，它一旦发生后的信息量就越大。

编号	事件	概率	信息量
x1	优秀	p=0.7	I=-ln(0.7)=0.36
x2	及格	p=0.2	I=-ln(0.2)=1.61
x3	不及格	p=0.1	I=-ln(0.1)=2.30

不难看出该同学不及格的信息量较大，相对来说“优秀”事件的信息量反而小了很多。

熵的表示方式如下：

上表中问题的熵可以表示为：

相对熵(KL散度)

相对熵又称 KL 散度（Kullback-Leibler divergence），如果对于同一个随机变量有两个单独的概率分布和，我们可以使用 KL 散度来衡量这两个分布的差异，这个相当于信息论范畴的均方差。

KL散度的计算公式：

为事件的所有可能性。的值越小，表示分布和分布越接近。

交叉熵

把上述公式变形：

等式的前一部分恰巧就是的熵，等式的后一部分，就是交叉熵：

在机器学习中，我们需要评估标签值和预测值之间的差距，使用KL散度刚刚好，即，由于KL散度中的前一部分不变，故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用交叉熵做损失函数来评估模型。

其中，并不是样本个数，而是分类个数。所以，对于批量样本的交叉熵计算公式是：

是样本数，是分类数。

有一类特殊问题，就是事件只有两种情况发生的可能，比如“学会了”和“没学会”，称为分布或二分类。对于这类问题，由于，所以交叉熵可以简化为：

二分类对于批量样本的交叉熵计算公式是：

二分类问题交叉熵

把上面的公式分解开两种情况：

当时，即标签值是1，是个正例，加号后面的项为0：

意味着当前样本标签值是1，当预测输出越接近1时，损失函数值越小，训练结果越准确。当预测输出越接近0时，损失函数值越大，训练结果越糟糕。如下图橙色曲线所示，横坐标是预测输出，纵坐标是损失函数值。

当y=0时，即标签值是0，是个反例，加号前面的项为0：

此时，损失函数值如下图蓝色曲线所示。

假设学会了课程的标签值为1，没有学会的标签值为0。我们想建立一个预测器，对于一个特定的学员，根据出勤率、课堂表现、作业情况、学习能力等等来预测其学会课程的概率。

对于学员甲，预测其学会的概率为0.6，而实际上该学员通过了考试，真实值为1。所以，学员甲的交叉熵损失函数值是：

对于学员乙，预测其学会的概率为0.7，而实际上该学员也通过了考试。所以，学员乙的交叉熵损失函数值是：

由于0.7比0.6更接近1，是相对准确的值，所以要比小，反向传播的力度也会小。

多分类问题交叉熵

当标签值不是非0即1的情况时，就是多分类了。假设期末考试有三种情况：

优秀，标签值OneHot编码为
及格，标签值OneHot编码为
不及格，标签值OneHot编码为

假设我们预测学员丙的成绩为优秀、及格、不及格的概率为：，而真实情况是该学员不及格，则得到的交叉熵是：

假设我们预测学员丁的成绩为优秀、及格、不及格的概率为：，而真实情况是该学员不及格，则得到的交叉熵是：

可以看到，0.51比1.2的损失值小很多，这说明预测值越接近真实标签值（0.6 vs 0.3），交叉熵损失函数值越小，反向传播的力度越小。

为什么不能使用均方差做为分类问题的损失函数？

回归问题通常用均方差损失函数，可以保证损失函数是个凸函数，即可以得到最优解。而分类问题如果用均方差的话，损失函数的表现不是凸函数，就很难得到最优解。而交叉熵函数可以保证区间内单调。

分类问题的最后一层网络，需要分类函数，Sigmoid或者Softmax，如果再接均方差函数的话，其求导结果复杂，运算量比较大。用交叉熵函数的话，可以得到比较简单的计算结果，一个简单的减法就可以得到反向误差。

如何选择损失函数？

通常情况下，损失函数的选取应从以下方面考虑：

选择最能表达数据的主要特征来构建基于距离或基于概率分布度量的特征空间。
选择合理的特征归一化方法，使特征向量转换后仍能保持原来数据的核心内容。
选取合理的损失函数，在实验的基础上，依据损失不断调整模型的参数，使其尽可能实现类别区分。
合理组合不同的损失函数，发挥每个损失函数的优点，使它们能更好地度量样本间的相似性。
将数据的主要特征嵌入损失函数，提升基于特定任务的模型预测精确度。

本文介绍了各种损失函数理论，但是在实际应用中，还是有很多工程经验，也就是所谓的调参。后面我们在写具体代码的时候，具体情况具体分析。本文的不足是，前后两部分用了两种公式字母，也希望你能趁此挑战一下自己的数学功底。

参考文献：

智能之门 https://copyfuture.com/blogs-details/20191223111624959olgjjitc7jfezw5
https://zhuanlan.zhihu.com/p/261059231
监督学习中的损失函数及应用研究 doi: 10.11959/j.issn.2096-0271.2020006




    
进技术交流群请添加AINLP小助手微信（id: ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。



阅读至此了，分享、点赞、在看三选一吧🙏

一文看尽机器学习常见损失函数！

损失函数的概念

损失函数的作用

机器学习中常用的损失函数

基于距离度量的损失函数

均方误差损失函数（MSE）

L2损失函数

L1损失函数

Smooth L1损失函数

huber损失函数

0-1损失函数

铰链/折页损失函数

基于概率分布度量的损失函数

KL散度函数（相对熵）

交叉熵损失公式

softmax损失函数公式

Focal loss

图示理解损失函数

用二维函数图像理解单变量对损失函数的影响

用等高线图理解双变量对损失函数影响

常用的损失函数

均方差损失函数

工作原理

实际案例

损失函数的可视化

损失函数值的3D示意图

损失函数值的2D示意图

交叉熵损失函数

交叉熵的由来

二分类问题交叉熵

多分类问题交叉熵

为什么不能使用均方差做为分类问题的损失函数？

如何选择损失函数？