残差网络 ResNet 代码解读

#深度学习 #图形图像

残差网络效果

卷积神经网络 CNN 的发展历史如图所示:

从起初 AlexNet 的的 8 层网络,到 ResNet 的 152 层网络,层数逐步增加。当网络层数增加到一定程度之后,错误率反而上升,其原因是层数太多梯度下降变得越发困难。而 ResNet 解决了这一问题。

目前 ResNet 是应用最广的图像相关深度学习网络,图像分类,目标检测,图片分割都使用该网络结构作为基础,另外,一些迁移学习也使用 ResNet 训练好的模型来提取图像特征。

残差网络原理

首先,来看看比较官方的残差网络原理说明:

“若将输入设为 X,将某一有参网络层设为 H,那么以 X 为输入的此层的输出将为 H(X)。一般的 CNN 网络如 Alexnet/VGG 等会直接通过训练学习出参数函数 H 的表达,从而直接学习 X -> H(X)。而残差学习则是致力于使用多个有参网络层来学习输入、输出之间的残差即 H(X) - X 即学习 X -> (H(X) - X) + X。其中 X 这一部分为直接的 identity mapping,而 H(X) - X 则为有参网络层要学习的输入输出间残差。”

第一次看到上述文字,我似乎明白了,但理解又不一定正确。在没看到代码之前,对 VGG/ResNet 的结构原理没什么感觉,几乎就是背下来哪个效果比较好,大概用了什么技术。后来看到了 Pytorch 中 ResNet 的代码,原来简单到"五分钟包会"的程度。用自然语言描述程序果然是把简单的问题搞复杂了。

解读核心程序

直接看代码,不学习 TensorFlow 的复杂结构,也不使用生涩的公式语言,而用顺序结构的 Pytorch 作为通往深度学习的捷径。下面来解读 Pytorch 官方版的 ResNet 实现。完整代码见;

https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py

Torchvision 是 Torch 的图像工具包,上述代码包含在 Torchvision 之中,同一目录下还有 alexnet,googlenet,vgg 的实现。ResNet 代码共 300 多行,其中核心代码不到 200 行,实现了三个主要类:ResNet、BasicBlock、Bottleneck。

1.残差是什么,如何实现?

BasicBlock 类中计算了残差,该类继承了 nn.Module(Pytorch 基本用法请见参考部分),实现了两个函数:用于创建网络结构的 init 和实现前向算法的 forward。如下所示:

image.png

其中 x 是输入,out 是输出,从程序代码可以看出,与基本流程不同的是,它加入了 indentity,而 indentity 就是输入 x 本身(也支持下采样),也就是说,在经过多层转换得到的 out 上加输入数据 x,即上面所说的 H(X)+X。如果设输出 Y=H(X)+X,则有 H(X)=Y-X,构建网络 H(X) 用于求取输出 Y 与输入 X 的差异,即残差。而之前的网络都是直接求从 X 到 Y 的方法。

2.BasicBlock 和 Bottleneck

BasicBlock 类用于构建网络中的子网络结构(后称 block),子网络中包含两个卷积层和残差处理。一个 ResNet 包含多个 BasicBlock 子网络。因此相对于传统网络,ResNet 常被描绘成下图的结构,右侧的弧线是“+X”的操作。

Bottleneck 是 BasicBlock 的升级版,其功能也是构造子网络,resnet18 和 resnet34 中使用了 BasicBlock,而 resnet50、resnet101、resnet152 使用了 Bottlenect 构造网络。

Bottleneck 和 BasicBlock 网络结构对比如下图所示:

左图中的 BasicBlock 包含两个 3x3 的卷积层,右图的 Bottleneck 包括了三个卷积层,第一个 1x1 的卷积层用于降维,第二个 3x3 层用于处理,第三个 1x1 层用于升维,这样减少了计算量。

3.主控 ResNet 类

ResNet 中最常用的是 ResNet50,它兼顾了准确性和运算量。下面以 RenNet50 作为示例,分析构建 ResNet 的具体方法。

在调用 _resnet 创建网络时,第二个参数指定使用 Bottleneck 类构建子网络,第三个参数指定了每一层 layer 由几个子网络 block 构成。

下图是 ResNet 的初始化部分 init 中,用于构建网络结构的代码(建议在 github 查看完整代码)。

可以看到程序用函数 _make_layer 创建了四个层,以 resnet50 为例,各个层中 block 的个数依次是 3,4,6,3 个,而每个 block(Bottleneck)中又包含三个卷积层,(3+4+6+3)*3 共 48 个卷积层,外加第 141 行创建的另一卷积层和第 154 行创建的一个全连接层,总共 50 个主要层,这也是 resnet50 中 50 的含义。

除此以外,上述 torchvision 程序还提供了下载预测训练的模型参数,通过设置 pretrain=True/False 选择是否使用预训练的模型。

图片.png

如此这般,一个 ResNet 就实现完成了。

参考

深度学习 _ 卷积神经网络 CNN

https://www.jianshu.com/p/49aa8f35d03e

Pytorch 初探

https://www.jianshu.com/p/cd72618fe126