SSL
参考: https://www.mdpi.com/2379-139X/11/5/52 https://www.mdpi.com/2078-2489/16/6/433
医学图像特征
医学图像模态的多样性
医学图像通常包含多种模态,这与一般只有单一模态的自然图像不同。例如,在心血管疾病诊断中,常用的医学成像模态包括超声心动图、心脏磁共振成像(CMR)和心脏计算机断层扫描血管造影(CTA)。因此,在心脏图像分割任务中,往往需要融合不同模态的信息以提高分割准确性。
医学图像边缘模糊
受成像技术、人为因素、图像处理设备及参数等限制,医学图像常存在噪声、边界不清、分辨率低和对比度不足等问题。这些挑战增加了病变识别、特征分析和治疗规划的难度,可能导致临床医生漏诊或误诊,进而影响诊断准确性和治疗效果。
带标注医学图像数据稀缺
医学图像数据的获取本身存在难度,罕见病病例的数据获取尤为困难。标注医学图像需要耗费大量时间和精 力,且标注者需具备深厚的医学知识,如人体解剖学和疾病特征相关知识。因此,带标注的医学图像数据稀缺,这对深度学习模型的训练构成了相当大的挑战,需要减少对精确像素级标注的依赖。
医学图像分割目标复杂多样
医学图像中的分割目标(如器官、组织或病变)具有复杂且不规则的形状。例如,肺部复杂的支气管和血管网络,以及肿瘤的形态变异,都增加了分割目标的多样性和复杂性。这些形状变异给医学图像分割任务带来了显著挑战,尤其是在处理肿瘤等病变时,肿瘤与周围组织的边界往往模糊不清,可能存在相互浸润的情况。
半监督方法
基于伪标签
伪标签方法是半监督学习中最简单但最有效的方法之一(Wang, Y.; Yang, Y. Improved Co-Training-Based Lung CT Image COVID-19 Lesion Segmentation Method. Comput. Eng. Des. 2023, 44, 2447–2453.)。
其核心思想是
- 将模型在未标注数据上的预测结果作为伪标签,将其视为真实标签用于训练。
- 通过迭代生成伪标签和训练模型
- 该方法可以逐步利用未标注数据中的信息来提高分割性能。
然而,如果伪标签中包含大量错误,模型在训练过程中可能会融入不正确的信息,从而降低其分割性能。此外,在训练过程中,至关重要的是平衡标注数据和伪标签数据,确保模型能够从标注数据中学习准确的知识,同时从伪标签数据中提取更多信息。因此,伪标签方法的关键在于生成高质量的伪标签并有效地利用它们进行模型训练。
为解决半监督学习中伪标签置信度不足的问题,早期方法(Lee, D.-H. Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks. In Proceedings of the Workshop on challenges in representation learning, ICML, Atlanta, GA, USA, 16–21 June 2013; Volume 3, p. 896) 引入了置信度阈值策略,模型为每个预测输出置信度分数。仅保留置信度分数高于预设阈值的伪标签,并将其添加到训练数据集中,从而过滤掉低置信度预测。
然而,阈值设置的静态性质可能导致有价值信息的丢失。为克服这一局限性,
- 双模型集成策略,采用两种不同的网络架构(U 型网络和 DeepLabV3+)作为基础网络进行协同训练,从而减轻单一模型在置信度估计中的偏差。
- 然而,静态集成方法可能无法很好地适应动态数据变化。对此,沈等人 [87] 提出,均值教师模型(Mean Teacher)也可以被视为一种集成伪标签方法,其中教师网络的预测作为更稳定的伪标签,用于指导学生网络的训练。
克尔瓦代克等人 [88] 从不同角度入手,引入了课程半监督学习,通过融入额外约束来增强伪标签的置信度。在 ACDC 数据集上的实验结果表明,仅使用 5 个标注数据样本,该方法的Dice比全监督学习方法高出约 25%,展现出强大的性能。
类似地,吴等人 [89] 提出了一种用于联邦半监督医学图像分割的基于原型的伪标签生成方法 ,其中来自标注数据的图像级原型指导未标注客户端数据上的伪标签生成。这种方法有效解决了由跨中心数据分布差异引起的伪标签偏差。
为进一步提高伪标签的可靠性,沈等人 [90] 设计了交叉置信度监督网络(CCSM),通过双分支置信度过滤和交叉验证减少噪声标签的传播。
然而,交叉置信度监督网络严重依赖初始伪标签的质量。对此,一些研究提出了自校正伪标签方法,通过迭代优化伪标签质量,并使用改进后的标签重新训练模型。
苗等人 [91] 通过提出一种新颖的自校正协同训练方案(SC-SSL),解决了未标注数据的学习目标质量问题。该方法使模型能够学习更接近真实标签的目标,从而更有效地探索具有语义上下文感知的未标注数据。
在医学图像分割领域,伪标签中的噪声会导致模型性能下降,而受约束的伪标签往往存在信息不足的问题。为应对这些挑战,闵等人 [92] 引入了深度注意力网络(DAN),该网络能够自适应地检测和纠正噪声标签中的错误,从而提高伪标签质量。然而,深度注意力网络对数据转换方法敏感,同时训练两个学生网络增加了计算负载和训练时间,影响效率。为克服这些局限性,未来研究可探索更稳定的数据转换策略,以减少对特定转换的依赖,并通过模型剪枝和量化等技术优化网络架构,从而提高训练效率。
伪标签在半监督学习中的应用在医学图像分割领域不断发展,从早期的置信度阈值策略到双模型集成、基于课程的半监督学习,再到更复杂的自校正伪标签和深度注意力网络等模型。每一项创新都有助于改善伪标签的噪声问题和信息不足问题。尽管取得了这些进展,挑战仍然存在,包括对初始标签质量的依赖、对数据转换的敏感性以及高计算成本等。未 来研究应重点克服这些瓶颈,以提高伪标签方法在医学图像分割中的效率和准确性。
基于正则化
一致性正则化的核心思想基于这样一种假设:模型在对未标注数据进行不同扰动后,应产生一致的预测结果 [93]。
这种方法鼓励模型学习对输入变化不敏感的稳健特征表示,从而利用未标注数据中的信息增强模型的泛化能力。一致性正则化在医学图像分割领域受到了广泛关注,相关概念得到了多种实现。
早期的一致性正则化方法在充分挖掘未标注数据潜力方面存在局限性。为解决这一问题,基于数据扰动的一致性正则化方法被引入,该方法对输入数据应用各种扰动(如数据增强和噪声注入),迫使模型在不同数据视图上生成一致的分割结果 [94]。这种方法能够更深入地探索未标注数据中包含的信息。
基于这一思路,尤等人 [95] 提出了自适应校正对比学习(ARCO)框架,以解决医学图像数据中常见的长尾分布和类别不平衡问题。实验结果表明,自适应校正对比学习在多个医学图像分割数据集上优于以往的半监督方法。
类似地,白等人 [94] 引入了双向复制粘贴(BCP)方法,其中未标注数据从标注数据中学习全面的语义信息,而标注数据则从提取自未标注数据的知识中受益,有效减少了两者之间的分布差距。然而,该方法在更复杂的场景和任务中的有效性可能受到限制,这表明未来工作可探索更复杂的正则化函数或融入额外的先验知识,以进一步提高其性能。
基于数据扰动的一致性正则化会修改原始数据的固有特征,在医学成像中,这可能会 扭曲真实的解剖结构,影响分割准确性。相比之下,基于模型扰动的一致性正则化通过关注模型本身的结构和参数,克服了这一局限性。应用各种扰动技术(如丢弃法(dropout)[96] 和随机深度(stochastic depth)[97])对模型进行扰动,生成不同的模型视图。然后要求模型在这些不同的扰动视图上对相同输入产生一致的预测。
莱恩等人 [98] 基于模型扰动的一致性正则化思想,提出了 Π 模型(Π-model)和时间集成(Temporal Ensembling)框架,Π 模型对相同输入应用相同或不同的丢弃法扰动两次,要求模型在对相同未标注数据样本进行不同转换后产生一致的预测。另一方面,时间集成使用历史预测的指数移动平均(EMA)作为一致性目标来约束当前预测,鼓励模型学习对数据转换不变的特征表示,从而增强其泛化能力。在训练过程中,模型同时采用标注数据的监督学习和未标注数据的一致性正则化学习。通过最小化标注数据上的监督损失和未标注数据上的一致性损失,即使在标注数据稀缺的情况下,模型也能有效利用未标注数据中的信息,提高其泛化性能。
受到 Π 模型和时间集成的启发,塔尔瓦伊宁等人 [99] 提出了均值教师方法,该方法结合了这两种方法的概念。与传统的目标网络训练方法相比,该方法在训练过程中计算学生模型权重的移动平均作为教师模型的权重,并使用教师模型的预测作为学生的参考目标。这提高了目标网络的准确性和鲁棒性。此外,均值教师方法在每次训练迭代中向学生模型的输入和输出引入随机噪声,增强了模型的泛化能力。目标网络通过最小化学生模型和教师模型预测之间的距离进行优化。训练框架如图 7 所示。当应用于具有 250 个标签的 SVHN 数据集时,该方法仅实现了 4.35% 的错误率,优于使用 1000 个标签的时间集成,证明了其对未标注数据的高效利用。
在均值教师框架中,由于缺乏标注数据,教师模型生成的目标可能包含噪声和不可靠信息,导致学生模型学习不正确的信息,从而对半监督学习的有效性产生负面影响。为解决这一问题,余等人 [100] 基于均值教师提出了不确定性感知半监督学习框架(UA-MT)。这种方法不仅提高了分割准确性,还减少了对标注数据的需求,从而节省了人力成本。瓦利等人 [101] 将均值教师的指数移动平均策略与一种名为交叉一致性训练(CCT)的方法相结合。在 PASCAL VOC 数据集上的实验结果表明,交叉一致性训练在不同数量的标注样本下都优于传统方法,mIoU 最多提高了 21 个百分点。
然而,该方法在低密度区域的性能会受到影响。孙等人 [102] 通过融入差异化增强扰动和高置信度伪标签过滤,开发了一种简单高效的一致性正则化框架 ——FixMatch。该方法在各种扰动下保持预测一致性,专注于高置信度区域,降低了错误标签传播的风险,特别适用于边界模糊或噪声水平高的医学成像场景。
为进一步优化一致性正则化的有效性,一些研究开始关注自适应一致性学习,该方法根据数据的特征或模型的状态动态调整一致性正则化的强度或方式 [103]。这允许更灵活地利用未标注数据。基于这一思路,吴等人 [103] 提出了 SS-Net,该网络同时探索像素级平滑度和类间分离,以解决医学图像分割中标注数据稀缺和边界模糊等问题。然而,当数据集存在类别不平衡时,模型往往过于关注多数类而忽略少数类,这对整体分类准确性产生负面影响。为解决 SS-Net 的局限性,尤等人 [104] 引入了 ACTION++ 框 架,该框架融入了自适应监督对比损失,鼓励不同类别的特征与不同的、均匀分布的类中心匹配。实验结果表明,该方法在 ACDC 和 LA 基准数据集上优于其他方法,证明了其在实际医学图像分割任务中的有效性和可靠性,突显了其较高的应用价值。
在医学图像分割领域,基于一致性正则化的半监督方法通过对数据或模型本身进行扰动,帮助模型提取与疾病真正相关的稳定特征。这一过程确保模型关注不受图像中噪声或个体差异影响的特征,从而提高诊断准确性和可靠性。这些方法在理论研究和实际应用中都展现出了巨大潜力。不同的方法在应对各自的挑战方面取得了独特的成果。
值得注意的是,融入更高比例标注数据的方法(如 10% 标注数据的 URPC 和 MC-Net)比依赖较少标注样本的方法(5% 标注数据的 URPC)表现出更好的分割性能,这表明适度的标注监督在优化半监督模型方面仍然发挥着关键作用。这些发现强调了在融合先进正则化技术以增强模型鲁棒性和泛化能力的同时,平衡标注和未标注数据的重要性。
基于生成模型
数据增强是基于生成模型的半监督医学图像分割中的关键策略。通过生成对抗网络生成逼真的合成医学图像,并将这些合成图像与真实标注数据相结合,可实现训练数据集的扩充,进而提升分割模型的性能。