目前,自我监控学习不通过人工就表现出了强大的视觉特征提取能力,在许多下游视觉任务中获得了超出监控学习的性能,这种学习模式也备受关注。
在这个热潮中,各种各样的自我监控学习方法层出不穷。 它们大多采取双胞胎网络的框架,但解决问题的角度差异很大,这些方法大致可以分为:以MoCo、SimCLR为代表的比较学习方法、以BYOL、SimSiam为代表的非对称网络方法、Barlow Twins 以VICReg为代表的3种方法对于如何学习特征的问题,思路有很大不同,同时在实际实现时采用了不同的网络结构和训练设定,因此研究者们无法公平地比较它们的性能。
因此,人们自然会产生一些问题。 这些方法之间有什么联系吗? 其背后的结构有什么关系呢? 更具体地说,什么因素会导致不同方法之间的性能差异呢?
为此,来自清华大学、商汤科学技术等机构的研究者们提出了一个统一的框架来解释这些方法。 与其直接比较它们的损失函数,不如从梯度分析的角度出发,发现这些方法都有非常相似的梯度结构,该梯度由正梯度、负梯度、平衡系数三部分组成。 其中正负梯度的作用与比较学习中的正负样本非常相似,这说明前面所述的三种方法的工作机理其实很相似。 并且,由于坡度的具体形状有差异,研究人员通过详细的比较实验分析了它们的影响。 结果表明,坡度的具体形状对性能的影响非常小,关键因素是使用momentum encoder。
一个框架统一Siamese的自我监督学习,清华、商汤提出有效的梯度形式
论文链接: https://Arxiv.org/pdf/2112.05141.pdf
基于这个统一的框架,研究者们提出了简洁有效的梯度形式——UniGrad。 UniGrad不需要复杂的memory bank和predictor的网络设计,可以赋予SOTA的性能表现。 UniGrad可以在许多下游任务中提供优异的迁移性能,并可以轻松添加其他扩展技术以进一步提高性能。