BiSeNet实时语义分割

论文名称：BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation

作者：Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang

期刊：ECCV 2018

代码：https://github.com/CoinCheung/BiSeNet/tree/master/old

摘要

本文设计了一个双边分割网络(BiSeNet)，设计一个步幅小的空间路径，保留空间信息生成高分辨率的特征。此外采用具有快速下采样策略的上下文路径来获得足够的接收场。在两个路径的顶部，引入了一个新的功能融合模块，以有效地组合功能。

常用的加速模型方法

限制输入大小，通过裁剪或调整大小来降低复杂性，但这样会使得空间细节丢失
修剪网络通道提高推理速度，但是这种做法削弱了空间容量
放弃模型最后一个阶段，但这种方式不足以覆盖大对象从而导致判别能力较差。
u型结构设计，弥补了空间细节的损失嘛但是由于高分辨率特征图上引入了额外的计算，完整的U型结构会降低模型的计算速度，除此之外，修剪或裁剪中丢失的大多数空间信息无法通过与浅层融合就能很容易地恢复。

基于上述的方式，本文提出了双边分割网络(BiSeNet),该网络分为两部分：空间路径(Spatial Path SP)和上下文路径(Context Path CP)。这两个组件针对空间信息的丢失和接收场的缩小而设计。

对于空间路径，仅堆叠三个卷积层以获得 $\frac 18$ 的特征图，其中保留了丰富的空间细节。

对于上下文路径，在Xception的尾部附加一个全局平均池化，其中接收域是主干网络的最大值。

此外还提出了两条路径融合以及最终预测的细化，分别提出了特征融合模块(FFM)和注意力细化模块(ARM)。

下图表示了各个方法对于分割任务的实际影响：

a.表示输入图像上的裁剪或调整操作，并用修剪通道或删除阶段的轻量级模型。

b.表示U型结构

C.表示本文BiSeNet网络

黑色虚线表示破坏了空间信息的操作，红色虚线表示缩小接收场的操作，绿色块是本文提出的空间路径(Spatial Path SP)。在网络部分，每个块代表不同下采样的特征图。块的长度表示空间分辨率，而厚度表示通道数。

本文主要贡献

提出了一种新颖的方法来将空间信保存和接收场分为两条路径。i具体来说就是提出了空间路径和上下文路径的双边分割网络。
设计了两个特定的模块，特征融合模块(FFM)和注意细化模块(ARM)，进一步提高了分割的精度
在Cityscapes，CamVid和COCO-Stuff的基准上取得更好的结果，以105FPS的速度在Cityscapes测试数据中获得了68.4%的结果。

双边细分网络(Bilateral Segmentation NetWork)

网络结构图如下：

空间路径(Spatial Path)

该模块能够保留原始输入图像的空间大小并编码富裕的空间信息。

空间路径主要由三层构成，每一层包括一个步长为2的卷积层，一个BN层和ReLU。因此，该模块提取出的特征图是原始图像的 $\frac 18$ 。由于特征图的分辨率比较大，因此可以对丰富的空间信息进行编码。如结构图(a)所示。

上下文路径(Context Path)

空间路径编码丰富的空间信息，上下文路径设计为提供足够的接收场（接收场好像就是感受野的意思）。在语义分割任务中，接收域对性能有很重要的意义。常用的方式通常是使用金字塔池化(pyramid pooling )，空洞空间池化金字塔(atrous spatial pyramid pooling)或者更大的卷积核。

上下文路径使用轻量级模型和局部平均池化提供较大的接收域，在这项工作中，像Xception这样的轻量级模型可以快速对特征图进行下采样以获得较大的接收域，该接收域对高级语义上下文信息进行那个编码。然后，在轻量级模型的尾部添加一个局部平局池化，该池化可以为具有全局上下文信息的最大接收场提供信息。