深度学习模型的训练总结

向AI转型的程序员都关注了这个号👇👇👇

前言

1.模型的保存与加载

方法一：同时保存模型和参数

方法二：仅保存参数（数据量小，推荐！）

2.断点的保存与加载

3.预训练模型的使用

4.模型的冻结

方法一：设置requires_grad为False

方法二：使用 with torch.no_grad()

总结

5.模型的特殊加载方式和加载技巧

例1：加载预训练模型,并去除需要再次训练的层

例2：固定部分参数

例3：训练部分参数

例4：检查部分参数是否固定

6.单GPU训练与多GPU训练

Pytorch 使用单GPU训练

方法一 .cuda()

方法二 .to(device)

前言

在我们训练模型时，会经常使用一些小技巧，包括：模型的保存与加载、断点的保存与加载、模型的冻结与预热、模型的预训练与加载、单GPU训练与多GPU训练。这些在我们训练网络的过程中会经常遇到。

2.断点的保存与加载

如果模型的训练时间非常长，而这中间发生了一点小意外，使得模型终止训练，而下次训练时为了节省时间，让模型从断点处继续训练，这就需要在模型训练的过程中保存一些信息，使得模型发生意外后再次训练能从断点处继续训练。所以在模型训练过程中记录信息（checkpoint）是非常重要的一点。模型训练的五个过程：数据、损失函数、模型、优化器、迭代训练。这五个步骤中数据和损失函数是没法改变的，而在迭代训练的过程中模型的一些可学习参数和优化器中的一些缓存是会变的，所以需要保留这些信息，另外还需要保留迭代的次数和学习率。

在运行推理之前，必须调用model.eval()以将 dropout 和批量标准化层设置为评估模式。不这样做会产生不一致的推理结果。如果是像希望恢复训练，就调用model.train()以确保这些层处于训练模式。

3.预训练模型的使用

pytorch自带有一些高级的复杂模型，有两种使用的方式；

方法一：用torchvision.models函数调用，例如torchvision.models.densenet169(pretrained=True)就调用了densenet169的预训练模型。先来看看这个模块涵盖了哪些模型：见https://pytorch.org/vision/stable/models.html获取详细信息。像resnet50

方法二：下载训练好了的参数：
在网站中下载好参数，然后直接加载进网络。

网站还是上面的那个网站，往下翻就能找到。而且不仅仅是分类的模型，语义分割、量化、对象检测、实例分割和人物关键点检测等等。在这里都能找到

4.模型的冻结

在迁移学习或训练新的复杂模型时，加载部分模型是常见的情况。利用训练好的参数，有助于热启动训练过程,并希望帮助你的模型比从头开始训练能够更快地收敛。

方法一：设置requires_grad为False

这种方法的效果是：被冻结的层可以前向传播，也可以反向传播，只是自己这一层的参数不更新，其他未冻结层的参数正常更新。要注意优化器要加上filter：（别的文章都说需要加，但是我用代码测试发现不加好像也可以）

optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, perception.parameters()), lr=learning_rate)

梯度正常更新时，所有层都参与训练，下面是bulk6.0层训练前后的变化：

梯度停止更新时， bulk6.0层不参与训练，下面是bulk6.0层训练前后的变化：

方法二：使用 with torch.no_grad()

该方法的性质：

这种方式只需要在网络定义中的forward方法中，将需要冻结的层放在 with torch.no_grad()下。

放入with torch.no_grad()中的网络层，可以前向传播，但反向传播被阻断，自己这层（如self.layer2）和前面的所有与之相关的层（如self.layer1）的参数都会被冻结，不会被更新。但如果前面的层除了和self.layer2相关外，还与其他层有联系，则与其他层联系的部分正常更新。

还是直接看例子：