医学图像分类-ResGANet： Residual group attention network for medical image classification and seJBO竞博gmenta

发布日期：2023-08-30 来源：

　　JBO竞博近年来，深度学习技术在医学图像分析的不同领域都表现出了卓越的性能。一些深度学习架构已经被提出并用于计算病理学分类、分割和检测任务。由于其简单的模块化结构，大多数下游应用仍然使用ResNet及其变体作为骨干网络。本文提出了一个模块化的群体关注块，可以在两个独立的维度上捕捉医学图像中的特征依赖性：通道和空间。通过以ResNet的方式堆叠这些群体关注块，我们得到一个新的ResNet变体，称为ResGANet。堆叠的ResGANet架构的参数比原始ResNet少1.51-3.47倍，可以直接用于下游的医学图像分割任务。许多实验表明，所提出的ResGANet在医学图像分类任务中优于最先进的骨干模型。将其应用于不同的分割网络，可以在不改变网络结构的情况下改善医学图像分割任务中的基干模型。我们希望这项工作为将来增强卷积神经网络（CNN）的特征表示提供一种有希望的方法。

　　图像分类是计算机视觉的主要任务。在大规模数据集（如ImageNet（Russakovsky等人，2015））上训练的深度神经网络被用作骨干网络，为各种下游任务提取代表性特征，涉及物体检测（Litjens等人，2017；He等人，2017）和分割（Long等人，2015；Zhu等人，2019）。一个具有良好分类性能的网络通常可以挖掘与当前任务更相关的特征，以利于下游任务。因此，增强CNN的特征表示能力是我们研究的重点。

　　目前，关于医学图像分割的最新工作（Alom等，2018；Kaul等，2019；Cheng等，2020）仍然使用ResNet（He等，2016）或其变体之一（Woo等，2018；Li等，2019；Hu等，2018；Gao等，2019；Xie等，2017）作为骨干CNNs。其简单的模块化设计和有效提取特征的能力的模型可以快速适应各种医学图像处理任务。然而，ResNet最初是为特定的图像分类任务而设计的（Russakovsky等人，2015；Krizhevsky等人，2010），其感受野大小有限，并且缺乏跨通道和跨空间的相互作用。它可能不适合作为直接下游医学图像工作的骨干。这意味着对于一个特定的计算病理学任务，有必要手动调整网络结构来修改ResNet，使其对特定的任务更加有效。例如，一些方法增加了挤压和激发块（Kaul等人，2019；Woo等人，2018），引入长距离连接方法（Alom等人，2018；Ronneberger等人，2015），或添加金字塔模块（Chen等人，2014，2017，2018）。此外，在下游任务中应用注意力模块（Woo等人，2018；Hu等人，2018；Fu等人，2019）或非局部区块（He等人，2019；Cao等人，2019；Wang等人，2018）也被证明是有效的。

　　最近关于图像分类网络的研究更多地集中在分组或深度卷积上（group or deep convolutions）（Xie等人，2017；Howard等人，2017，2019；Tan等人，2019）。虽然上述方法确实可以提高特定计算机视觉任务的学习性能，但这些改进也受到单一功能的限制。例如，Res2Net（Gao等人，2019）增加了残留区块的感受野。ResNeXt（Xie等人，2017）使用分组卷积来提高准确性，CBAM（Woo等人，2018）在SENet（Hu等人，2018）的基础上增加了一个空间注意模块，以提高特征表示能力。由于这些模型只是从单一层面提高了特定计算机视觉任务的性能，当我们将这些模型转移到其他任务时，其性能往往远远低于其初始目标任务。因此，我们非常希望构建一个具有丰富特征表示的公共骨干网络，以同时提高不同医学计算机视觉任务的性能。

　　在本文的第一部分，我们探讨了对ResNet架构的修改。我们将特征图划分为若干组，并强调组内任何两个通道图之间的通道依赖性。同时，特征之间的空间关系被用来生成空间注意图JBO竞博。更具体地说，首先，我们沿着特征图的通道方向将每组划分为四个子组。然后，我们将特征转换后的特征图发送到通道注意模块，以获得具有相同组数的通道注意图，并对所有分组的注意图进行加权求和。最后，我们利用特征的空间关系对每个位置的特征进行聚合，以保证相似的特征在空间大小上相互促进。我们称这个单元为组注意块（如图1所示），具有高度的模块化和功能化。通过堆叠几个组注意块，我们可以创建一个类似ResNet的网络，称为ResGANet。我们的架构比ResNet的参数数量更少。此外，ResGANet可以处理不同的医学图像数据；它不仅在医学图像分类任务中表现良好，而且也很容易被用作医学图像分割任务的基础。

　　本文的第二部分研究了分组卷积中特征转换对模型性能的影响。与通常的分组卷积不同，我们对组内的特征图进行了简单的空间变换，进一步加强了一些基本特征的权重JBO竞博，然后解决了CNN对空间恒定的输入数据的有限工作能力问题。在第4.3节中，我们通过消融实验说明了特征转换对网络性能的影响。

　　本文的第三部分对医学图像分类和分割的应用进行了基准测试。我们发现ResGANet在两个医学图像分类数据集上的准确率高于目前的ResNet及其变体，而且当我们直接使用ResGANet作为医学图像分割的骨干网络时，它也能保持优秀的性能。此外，我们还设计了一个用于医学图像分割的解码模块，称为多尺度阿特拉斯空间金字塔池模块（MsASPP），用来配合ResGANet获得更精确的医学图像分割结果。可以在第4.4和4.5节中找到所有的实验结果。

　　近年来，出现了许多新的网络架构（He等人，2016；Krizhevsky等人，2012；Simonyan等人，2014；Szegedy等人，2015）。这些架构的出现使得深度CNN在图像分类中占据了主导地位，并被视为许多计算机视觉任务中的最先进技术。AlexNet（Krizhevsky等人，2012）实现了CNN的基本原理，并将其应用于更深更广的网络。之后，VGGNet（Simonyan和Zisserman，2014）成功地构建了16-19个深度卷积神经网络，以扩大感受野，使网络能够在更大范围内提取特征。GoogleNet（Szegedy等人，2015）使用不同核大小的并行过滤器来增强多尺度表示能力。基于之前工作的成功，ResNet（He等人，2016）引入了特征（identity）跳过连接来缓解问题。如梯度消失或爆炸，并加深了网络层次。ResNet已经成为最成功的CNN框架之一，被广泛用于各种计算机视觉任务。

　　InceptionNets（Szegedy等人,2015；Ioffe和Szegedy，2015，Szegedy等人，2016）系列在多路径表示方面取得了广泛的成功。他们在平行路径的每条路径中叠加不同内核大小的过滤器，以进一步扩大感受野的大小。ResNeXt将ResNet的残差块中的卷积改为组卷积，并将多路径结构转换为统一的操作。ResNeXt可以在不增加参数复杂性的情况下提高精度，同时也减少了超参数的数量。ShuffleNet（Zhang等人，2018）通过使用通道将组卷积后的特征图均匀混合，以更好地获得全局信息。该网络在保持精度的同时，大大减少了模型的计算量。SENet利用通道之间的相互依赖性进行建模，提高了网络的特征表示能力，并在上届ImageNet比赛的图像分类任务中获得冠军。CBAM在SENet的基础上进行了改进，将注意力特征细化应用于通道和空间这两个不同的模块。受之前方法的启发，我们的网络将通道的注意力总结为一个特征图组表示。它通过空间注意力模块将所有分组的空间信息聚合起来，以增强单一残余块内的特征表示能力.

　　特征转换学习有利于增强CNN的特征表示能力。Lenc和Vedaldi（2015）通过估计原始图像和变换后的图像之间的线性关系，探索了CNN对输入图像变换的不变性和等效性。Gens和Domingos（2014）提出了一个深度对称网络，使用稀疏的高维特征图来处理高维的变换组。Dieleman等人（2015）证明了旋转对称性可以通过在CNN中旋转特征图来完成旋转对称性。可以利用这种对称性构建一个旋转不变的卷积神经网络，用于星系形态学分类。空间变换网络（Jaderberg等人，2015）将空间变换模块插入现有的卷积结构中。CNN可以根据特征图主动进行空间变换，而不需要额外的训练和监督，并成功地进行小规模的图像分类。后来将这项工作扩展到各种计算机视觉问题，用于评估循环对称性（Lin等人，2017）。我们的方法在不增加CNN计算次数的情况下实现了对特征图的简单特征转换，从而在单个残差块中获得更丰富的特征信息，提高网络的整体性能。我们认为，特征图的仿射变换有助于提高CNN的特征表示能力，这一点可以在今后的工作中进一步研究。

　　我们现在引入了组注意块，它使不同特征图组之间的通道注意成为可能。同时，这些由通道考虑的其他特征图组通过空间注意模块聚合所有分组的空间信息，从而提高了CNN的特征表示能力。

　　我们的组注意块是一个类似于ResNet中剩余块的计算单元。它由一个特征图组、特征转换、通道和空间注意力操作组成。图1描述了组注意块的概况。

　　在ResNeXt区块中，特征可以被分成若干组进行卷积操作，特征图组的数量由 cardinality(基数)决定。与ResNeXt类似，我们将输入特征分为N组，同时引入一个新的参数 S，表示通道洗牌的组数（Zhang等人，2018）和每组中子组的数量。通道洗牌的目的是在不增加计算量的情况下帮助通道信息流动。这种操作有利于特征子组的转化。最后，特征组的总数量应该是G=N*S。在本文中，我们将 S 固定为4。

　　在通道洗牌之后，我们使用公式。 (1)对每组中的子群进行简单的特征转换。

　　我们用K()来表示ResNet中3×3的瓶颈块的卷积，用ys来表示K()的输出。然后，对于每个输入Xs，我们有。

　　这里，gr()表示对输入的xs矩阵进行相应的特征变换，⊙表示元素乘法。请注意，每个3×3卷积算子K()从所有经历特征变换的xs接收特征信息。ys的输出包含相同数量的不同类型的特征图。我们使用元素乘法来增强通道特征之间的可识别性。

　　利用通道图之间的相互依存关系可以改善特定语义的特征表示。我们把特征图的每个通道当作一个特征检测器。如图2（A）所示，我们将第n组的特征图Gn∈RC/N×H×W发送到通道关注模块，其中n∈1,2,...,N。首先，通过跨空间维度的全局平均池化GAP）收集带有嵌入式通道统计的全局上下文信息（Woo等人，2018；Li等人，2019；Hu等人，2018）。然后，共享的全连接层被用来推断一维通道注意图Cn∈RC/N。

　　最后，推断出的分组注意力图和相应的输入特征用Hadamard乘积，所有的分组特征加权求和，得到最终的通道注意力特征图C∈RC/N×H×W。

　　这里⊙代表元素乘法。每组中卷积核为1×1的卷积层的权重和子组中卷积核为3×3的卷积层的权重是共享的。因此，通道注意力的等权相当于各组得到的通道注意力权重相加，这不影响全局特征的依赖性。

　　图2(B)显示，我们使用空间注意模块来聚合空间关系，以确保相似的特征在空间大小上相互促进。它与通道注意模块不同。首先，我们同时使用全局Avg-pooling（GAP）和全局max-pooling（GMP）（Woo等人，2018）来聚合特征图的空间信息，生成两个不同的上下文描述符。然后，这两个描述符GAP(C)∈R1×H×W和GMP(C)∈R1×H×W连接起来，得到SC∈R2×H×W。

　　其中，+表示一个特征图连接。最后，通过标准卷积层得到空间维度的权值信息Sconv∈R1×H×W。为了保持原有的空间尺寸，我们在Sconv和输入的特征图C之间进行逐元乘法，得到最终的空间注意图S∈RC/N×H×W。

　　让 x 表示输入，让F()表示群体关注块的一系列操作。那么，每个群体关注块的输出可以表示为F(x)。与ResNet一样，我们的每个ResGANet块都使用残差学习。如果输入和输出的特征图有相同的形状，我们得到Y=F(x)+x。对于有跨度的块，适当的变换T()和T1()被应用于捷径连接以对齐输出形状：Y=F(T1(x))+T(x)。在ResNet及其变体中，T()可以是最大池化或有一个跨度为2的卷积，本文介绍了一个新的跨度操作T1()。T1()标志着池大小为4的avg-pooling，T()和T1()的输出形状应该是一致的。需要注意的是，当输入特征和输出特征的形状相同时，ResGANet块不使用特征转换操作，这有利于保持全局特征的一致性。

　　图1显示了群体注意力模块的实例。在通道注意模块中，共享的全连接层的还原率为2。为了证明ResGANet的性能，我们考虑了50层和101层的瓶颈结构。为了简单起见，我们保持了与ResNet有关的所有超参数。没有特殊情况，我们的组别默认为2。

　　通常分组的卷积采用分割变换合并的策略。例如，Res2Net以分层的形式在单个残差块中进行卷积，或在多个相同的组中并行操作，如ResNeXt。与上述方法相比，我们首先通过通道洗牌加强特征图组中通道信息的流动。然后，我们将每个平行组划分为四个子组，并进行不同的特征转换。最后，我们使用卷积操作来提取各种特征并融合它们。这极大地提高了组内特征的可识别性，从而增强了CNN的特征表示能力。

　　如图3所示，SENet（Hu等人，2018）首先提出并使用全局上下文（context）来预测通道权重。之后，CBAM（Woo等人，2018）扩展和改进了SENet，使用全局最大集合层和全局平均集合层来推断空间和通道注意力。然而，SENet和CBAM在每个剩余块的顶部添加了相应的注意力模块，并且没有考虑多组的情况。在以前的工作中，SKNet（Li等人，2019年）在两个不同的网络分支之间引入了信道特征关注，以增加多路径和动态选择设计，没有过多的开销，但没有考虑特征空间维度的重要性。DANet（Fu等人，2019）使用双注意网络来捕捉空间和通道维度的全局特征依赖性，并改善语义分割结果。然而，他们只是在传统的扩展FCN中加入了这两类注意力模块，并没有优化训练效率和扩展到大规模神经网络。

　　我们的工作依赖于现有的附加注意力块的方法，但它也有很大不同。我们将通道注意力扩展到每个分组，这种方法在实际计算中仍然有效。当 Group=1 时，ResGANet 将通道注意力应用于特征子组集。此外，我们将每个组的加权和求和的通道注意力图发送到空间注意力模块，该模块保留了每个特征在通道维度中的重要性，并提高了当前任务在空间范围内有价值的特征的权重。应该注意的是，ResGANet 与 SKNet 的相似之处在于两个注意力模块都集成到了残差结构中。虽然 SENet、CBAM 和 DANet 是即插即用模块，但它们将注意力模块嵌入到残差块或整个网络上

　　为了直观地说明参数个数的问题，我们以残差块为例，计算 ResNet 块和 ResGANet 块的参数个数，图 4 中不考虑快捷连接情况。

　　假设输入特征图为H×W×C，输出特征图为H×W×C′，则标准卷积参数量为9(C·C′)。

　　在残差块中，输入特征图和输出特征图的大小相等（即 H×W×C）。中间层生成的特征图为H×W×C′，一个残差块的计算成本为：

　　图4(B)显示，ResGANet块将输入的特征图分成N组进行计算。空间注意模块前的参数数是单组参数数的N倍。首先，计算单组的通道注意模块前的参数数。

　　在通道注意模块中使用了两个共享的全连接层（降维系数为2），通道注意模块的计算成本为。那么N组的计算成本应该是（8）和（9）之和的N倍。

　　空间注意模块使用3×3的内核的标准卷积来获得特征图中每个空间位置的权重值，其参数值固定为18（计算公式为（3∙3∙2∙1））。最后，1×1卷积的成本为（C-C′）/N。

　　为了比较参数的数量，我们用（4*C′）代替C，并忽略空间注意模块的计算数量。ResNet块与ResGANet块的参数比（（7）/（11））为。

　　为了评估本文的方法，我们在两个公共医学图像分类数据集（Codella等人，2019；Yang等人，2020）和三个公共医学图像分割数据集（Codella等人，2018；Setio等人，2017）上进行了综合实验。在下一节，我们首先介绍每个数据集的细节和实现。然后，我们在国际皮肤成像合作2018（ISIC2018）医学图像分类数据集上进行了一系列的消融实验，以验证我们提出的架构中每个组件的重要性。同时，我们提出了不同医学图像分类任务的结果，并与最先进的方法进行了比较。最后，本文提出的网络可以直接用于图像分割任务并改进基线模型。我们报告了用ResGANet的基线分割模型替换骨干网络的实验结果（其他参数不变）。我们还设计了一个基于ResGANet的图像分割模型，并使用相同的数据集将实验结果与最先进的方法进行比较。

　　ISIC2018（Codella等人，2019）。我们使用ISIC2018皮肤病变诊断数据集。1该数据集有10015张图像，包含七个不同的类别。它们是黑色素细胞痣（6705）、皮纤维瘤（115）、黑色素瘤（1113）、日光性角化病（327）、良性角化病（1099）、基底细胞癌（514）和血管病变（142）。数据集中的图像大小为650×450像素。我们将所有图像缩小到256×256像素，然后将70%的样本（7010）用于训练和验证，其余30%（3005）用于测试。

　　COVID19-CT（Yang等人，2020）。这个数据集包含He等人（2020）在medRxiv2和bioRxiv3文献中收集的与COVID-19有关的医学图像。它有349张COVID-19阳性CT扫描图片和397张包含其他类型疾病的正常或阴性CT扫描图片。这个数据集的图片大小从143×76到1637×1225不等。我们使用双线大小，其余图片则压缩为256×256大小。我们遵循(He et al., 2020)中的数据划分方法，将数据集按照0.6:0.15:0.25的比例划分为训练、验证和测试

　　ISIC2017（Codella等人，2018）。ISIC2017是国际皮肤成像合作组织在2017年发布的一个皮肤病变分割数据集4。该数据集由2000张训练图像、150张验证图像和600张测试图像组成JBO竞博。ISIC提供的原始数据集中的图像具有不同的像素。我们首先使用灰色世界颜色恒定算法对图像的颜色进行归一化处理，然后将所有图像的大小调整为256×256像素。本文所报道的数据集的实验结果都是来自官方测试集的结果。

　　肺结节分析（LUNA）（Setio等人，2017）。LUNA是在二维CT图像中分割肺部结构。该数据集包含267个样本（512×512像素）和相应的标签图像。可以从官方网站免费下载。5我们将所有图像的尺寸调整为256×256，用80%的图像进行训练，其余的进行测试，并进行交叉验证

　　Kaggle 2018年数据科学碗（简称核素分割）6：Booz Allen基金会提供的数据集包含670张核素特征图和每个图像的标签。我们将所有图像和相应的标签调整为256×256像素，用80%的图像进行训练，用其余的图像进行测试，并进行5倍交叉验证。

　　我们通过在具有16G内存的NVIDIA Tesla V100 GPU上进行训练来实现我们基于TensorFlow的方法。所有数据集的输入图像大小为256×256。在图像分类实验中，SGD被用来优化模型的目标，并添加了0.9的动量来加速收敛。批量大小被设置为16，最大的历时数为120。初始学习率为1e-3，每40个历时后学习率衰减到0.1倍，并逐渐衰减到最终学习率为1e-5。在图像分割实验中，使用亚当优化器，固定学习率为1e-4。批量大小被设置为8，早期停止机制被用来在验证损失稳定时停止训练，并且在15个历时中没有明显的变化。所有的比较实验都共享相同的操作环境、超参数，并使用相同的训练集、验证集和测试集。

　　在训练ISIC2018数据集时，我们使用 Softmax 作为输出层，并使用分类交叉熵（CE）损失函数来计算损失值。

　　其余数据集属于二元分类任务。 “Sigmoid”作为模型的输出层，使用二元交叉熵（BCE）损失函数计算损失值：

　　其中N代表样本总数，yit是第n个类别对应的真实标签，yip是对应的模型输出值。 C代表类别数，i∈[1,C]，ISIC2018数据集中C=7，其余数据集中C=2。

上一篇：JBO竞博亚洲共同的胜利！十年努力中日韩百余专家携手上海贡献中医药列入“国际疾病分类”

下一篇：JBO竞博网评：中国十大最痛苦最坑爹专业