趋近智
监督预训练 (pre-training),通常采用ImageNet等大规模标注数据集,一直是用于迁移学习 (transfer learning)模型初始化的一种标准做法。然而,创建此类大规模标注数据集成本高昂且耗时。此外,在特定数据集上预训练的模型可能会带有偏差,或学到一些不完全适合差异很大的目标域的特征。自监督学习 (supervised learning) (self-supervised learning) (SSL) 作为一种值得考虑的替代方法出现,它使模型能够直接从无标注数据中学习丰富的视觉表示。
SSL 的主要思想是创建一个“前置”任务,其中监督信号源自数据本身,而非人工提供的标签。通过解决这个前置任务,模型被迫学习到视觉数据中有意义的语义、模式和结构。在自监督预训练阶段学到的特征通常可以很好地迁移到分类、检测或分割等下游任务,有时甚至优于监督预训练,特别是在下游任务的标注数据稀缺时。
SSL 的有效性取决于前置任务的设计。任务应足够有挑战性,以便模型需要学习高层次语义特征,但仅使用输入数据即可解决。计算机视觉中已有几种类型的前置任务被证明是成功的:
对比方法目前是SSL最流行和最有效的方法之一。基本原理是学习表示,使同一图像的增强版本(“视图”)在嵌入 (embedding)空间中彼此靠近,同时使不同图像的表示彼此远离。
想象取一张图像,并创建它的两个不同变形版本(例如,通过裁剪、颜色抖动、旋转)。这些被认为是一个“正样本对”。来自不同图像的任何视图被认为是一个“负样本对”。模型,通常是CNN编码器,处理这些视图以生成特征向量 (vector)(嵌入)。一个对比损失函数 (loss function),例如 NT-Xent(归一化 (normalization)温度缩放交叉熵),然后促使正样本对的嵌入具有高相似度(例如,高余弦相似度),负样本对的嵌入具有低相似度。
流行的对比学习框架包括:
对比自监督学习 (supervised learning) (self-supervised learning)概述。同一图像的增强视图 (A1, A2) 产生的表示 (z_A1, z_A2) 被拉近,而不同图像的表示 (z_A1, z_B1) 则被推开。
受自然语言处理(NLP)中掩码语言建模(MLM)(如BERT)成功的启发,掩码图像建模技术将类似理念应用于视觉。这个思想是随机遮蔽输入图像的很大一部分,并训练模型来预测被遮蔽区域的内容。
通过学习重建或预测被遮蔽的部分,模型必须从周围可见的部分理解上下文 (context)、物体形状和纹理,从而获得强大的表示。
尽管对比学习和MIM占据主导地位,但其他方法也存在:
一旦模型使用前置任务在大型无标注数据集上进行预训练,学到的编码器可作为很好的特征提取器。典型的工作流程与监督迁移学习 (transfer learning)相似:
优点:
考量:
自监督学习 (supervised learning) (self-supervised learning)代表了在训练视觉深度学习 (deep learning)模型方面重大的进步。通过巧妙地定义从数据本身提取监督信号的前置任务,SSL使我们能够使用无标注数据来构建强大的通用视觉编码器,为通过迁移学习 (transfer learning)和适应处理各种计算机视觉问题提供了依据。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•