一网打尽！深度学习常见问题！

大数据文摘受权转载自算法进阶

1 前言

在传统软件工程中，程序问题（即Bugs）会导致程序崩溃，但开发人员可以通过检查错误来了解原因。

然而，在深度学习中，代码可能会在没有明确原因的情况下崩溃。虽然这些问题可以手动调试，但深度学习模型通常会因为输出预测不佳而失败。更糟糕的是，当模型性能较低时，通常没有任何信号表明模型失败的原因或时间。

开发过程中我们很经常要花80-90%的时间在数据处理及调试模型，而只花费10-20%的时间推导数学方程和实现功能。

2 为什么模型的问题排查困难

• 很难判断是否有错误

• 造成相同性能下降的原因有很多

• 结果可能对超参数和数据集构成的微小变化很敏感

2.1 存在隐藏bugs

在深度学习中，大部分错误并不会被轻易察觉到，比如标签顺序错误。

2.2 超参数选择

深度学习模型对超参数的选择非常敏感。即使是微妙的调整，如学习率和权重的初始化，也会对结果产生显著的影响。

2.3 数据/模型拟合

我们可以在ImageNet数据集上预训练模型，然后将其应用到更为复杂的自动驾驶汽车图像数据集上进行拟合。

2.4 数据集构造

在此过程中，常见的问题包括：样本数量不足、处理带有噪声的标签和类别不平衡、以及在构建训练集和测试集时未能确保数据的分布一致性。

3 深度学习故障排除指南

深度学习（DL）故障排除的关键思想：由于很难定位bugs的来源，因此最好从简单开始，逐渐增加复杂性。

3.1 从简单开始

架构选择。深度学习架构选择可遵循简单规则：图像数据，从类似LeNet开始，成熟时考虑ResNet；序列数据，从LSTM开始，问题成熟时转向注意力模型或WaveNet；其他任务，从全连接神经网络开始，再根据问题使用更高级网络。

使用合理的超参数默认值。推荐的网络/优化器默认值：Adam 优化器使用 3e-4 学习率； ReLU 激活用于全连接和卷积模型以及 Tanh 激活用于 LSTM 模型；ReLU 激活函数采用 He 初始化，Tanh 激活函数采用 Glorot 初始化；模型未使用正则化或数据标准化。

归一化输入。对输入数据进行归一化，减去均值并除以方差；对于图像，将值缩放为 [0, 1] 或 [-0.5, 0.5]（例如除以 255）。

简化问题。使用小型训练集（约10,000个示例），固定对象、类、输入大小等，构建简单的综合训练集，可以提高模型解决问题的信心和迭代速度。

3.2 运行和调试

五个最常见的DL错误：

网络张量的形状不正确：可以无声地失败。例如，无声广播，x.shape = (None,), y.shape = (None, 1), (x+y).shape = (None, None)
错误地预处理输入：例如，忘记进行规范化，或进行过多的预处理；
模型损失函数的输入不正确：例如，Softmax 输出用于预期对数的损失；
忘记正确设置网络的训练模式：例如，切换训练/评估模式或控制批次范数依赖；
数值不稳定-inf/NaN：通常源于使用exp、日志或div操作。

关于实施模型的一般建议：