学习报告:一种基于能量的领域适应的主动学习方法

一、 介绍

在本文中,研究者提出了一种新的主动学习策略来辅助目标领域的知识转移,称为主动领域自适应。基于能量的活动域自适应(Energy-based Active Domain Adaptation,EADA),在每一轮选择中查询包含域特征和实例不确定性的目标数据组。同时,通过正则化项使目标数据紧凑在源域周围的自由能对齐,可以隐含地减小域隙。

二、方法

在主动领域适应(Active Domain Adaptation), 我们可以访问来自不同分布的一个已经标记的源域和一个没有标记过的目标域。 根据默认的主动领域适应设置, 在目标域中选择 活动样例进行注释, 这些样本的数量远远小于的数量。 因此, 所有的目标域包含了一个已经标记过的池和一个没有标记过的池。项目的目标是学习一个带参数的神经网络, 使目标具有良好的泛化能力。 在这项工作中, 使用了一种基于能量的策略来选择最具有价值的目标样本, 以帮助知识转移。

1. 基于能量的模型

机器学习的本质是对变量之间的依赖关系进行编码。首先时是x(高维变量)和 y (离散变量)的基于能量的模型(EBM)。 训练这个模型在于找到一个能量函数, 即E(x,y), 它给出正确答案的最低能量和给所有其他(不正确的)答案更高的能量。 准确地说, 模型必须产生值y*, 对于该值, E(x,y)是最小的:

通常, 集合Y的大小对于分类来说较小, 因此, 推理过程可以简单地计算出所有y的E(x,y)的值并选出最小值。

利用能量函数, 可以通过 Bibbs 分布来估计输入x和标注y的联合概率:

其中,被称作在x和y上边际化的配分函数。 需要注意的是, 只有当Z收敛时, 上述能量到概率的转换才是可能的。 通过剔除y, 我们也得到了x的概率密度:

直观地说, 在主动领域适应中,为了选择最具代表性的目标样本, 人们可以直接从公式中估计每个目标样本的出现概率, 从其中选择概率较低的样本。 但是, 不能计算甚至无法可靠的估计。 因此, 研究者转向了自由能, 也就是F(x), 这是一个隐藏在 EBM 中的函数, 他充当变量x出现的"合理性"。 从数学上讲,x的概率密度也可以表示为:

这个公式表明, 可以用F(x)代替p(x)来选择概率较低的目标样本。 综上得出

2. 基于能量的有源自适应

(1)训练过程

给定一组标记的源样本S={(x,y)},我们希望训练一个表现良好的 EBM,它给正确****最低的能量,给所有其他(不正确的)****更高的能量。为此,利用 EBM 中常用的损失,即来自概率模型的负对数似然损失来训练分类模型,它可以表示为

其中,是反向温度, 低值对应Y空间能量的平滑分配。 为了简单起见, 我们修改, 然后我们可以得到:

这个公式的第二项将导致所有答案的能量被提升。 正确答案的能量也会上升,但不会像第一项下降的那样厉害。

然而, 我们观察到目标样品上的自由能的值远高于源样品的自由能的值, 这被称为自由能偏差。 当然, 我们可以用它代替反应领域分歧。 通过设计一个简单的正则化, 这些偏差可以被减少, 这在一定程度上使得整个域的分布趋于一致。 自由能对准损耗的定义为:

其中

它是自由能和源数据的平均值, 训练时使用指数移动平均估计

另外, 实验结果表明, 该方法与计算整个源域数据平均值的方法相当, 提高了计算效率。 综上所述, 完整的学习目标是:

(2)选择过程

主动领域适应的目标是识别更有价值的目标样本,一旦标记和使用训练,可以显著提高模型的准确性和泛化性能。在实际应用中,我们提出了一种结合领域特征和实例不确定性的两步抽样策略,以充分保证这些样本。

算法1: EADA 算法

图1

第一步

我们观察到源域和目标域之间自由能分布的偏差。当然,具有较高自由能的目标样本对于目标分布是唯一的,同时也是对标记源数据的补充。

第二步

为了度量实例的不确定性,现有的方法主要依赖于熵值。相比之下,我们考虑两个估计能量值最低的答案的能量值之间的差值作为不确定性的度量。因为它是最小解和第二个最小解的比较,所以我们称之为最小相对于第二个最小解的策略

其中

是最小的能量输出

是第二小的能量输出

从分类的角度来看,这种度量是估计类成员混淆的更直接的方法。使用 MvSM 度量,在选择过程中,将选择图2中决策边界周围的实例来查询 oracle。

3. 理论分析

这一部分包含了对自由能偏差在两个不同领域之间表现的原因的初步研究。对于基于能量的模型,它证明了在训练过程中,负对数似然损失函数与自由能之间的正梯度内积导致标记源样本的自由能值较低。

首先用一个小例子来说明一般的直觉。考虑一个简单的基于能量的分类模型,其中网络是一个单层线性网络参数化为W代表一个源样本, y代表标签, 我们可以得到

更新权重矩阵W的一个步骤的梯度下降法:

W’是更新后的矩阵

然后我们可以用两个引理证明了负对数似然损失函数梯度与自由能之间的内积是正的,标记源样本的自由能值随负对数似然损失函数的梯度下降法递减

引理1

假设一个玩具模型正确地预测了一个标记源样本(x,y),我们有

其中, 尖括号代表梯度的内积。

引理2

假设玩具模型正确地预测了带标签源样本(x, y), 学习率大于0, 我们可以得到

综上所述,如果负对数似然损失函数和自由能之间的正梯度内积,则表现出自由能偏差。我们的主要理论结果将其推广到一般的深度神经网络。

定理1

代表使用深度网络的参数的源域在(x, y)上的负对数似然损失。可以得到

三、实验

作者评估了各种场景对照最先进的方法对EADA进行评估,抱愧一个小例子, 三个流行的图像分类数据集:VisDA-2017, Office-Home和Office-31,还有语义分割任务GTAV到Cityscapes。所有的方法都是基于 pytorch 实现的, 使用了 ResNet 模型在 ImageeNet 上进行训练。同时比较了主动学习算法、主动领域自适应算法和域自适应算法。

图2

1. 主要结果

VisDA-2017

在 VisDA-2017上标注预算为5% 的不同方法的实验结果列于表1的第一栏,证明 EADA 优于所有的基线。随机选取样本的性能优于 ResNet,说明主动学习是一种有前途的互补解决方案。

另外,为了进一步验证 EADA 的有效性,我们将目标标记预算从0% 改变到20% ,使用不同的主干网 ResNet-18/50,并在图2中报告每轮后的表现。我们可以观察到 EADA 在各轮中始终优于其他方法,例如,对于较浅的ResNet-18,我们改进了最先进的方法,也就是说,在多轮中,TQS 提高了2-6% ,并且在某些轮中,与使用较深的 ResNet-50的其他方法相比,获得了可比的结果。这表明,EADA 确实可以选择更具代表性和信息量更大的目标数据使用我们的新颖的能量为基础的标准。

Office-Home & Office-31

Office-Home和 Office-31 的结果如表1和表2,它显示了跨任务的最佳表现。因为传统的人工智能方法没有考虑到域的位移, 所以大多数活动的 DA 方法都优于传统的人工智能方法。

表1

表2

GTAV到Cityspaces

作者选择 5% 的目标图像来查询整个图像的像素级标签。实验结果如图3.在 UDA 方法和完全监督方法之间有着很大的性能差异。从图中可以看到,EADA 带来了显著的提升。

图3

2. 分析

(1)消融研究

为了调查 EADA 的关键组件的有效性,作者对 Office-Home 所有 12 项任务进行了彻底的消融研究。(i)EADA w/o :在选择过程中删除自由能采样;(ii)EADA w/o : 从选择过程中删除实例不确定性抽样;(iii)EADA w/o : 从公式中删除 。结果如图3(b), 可以看到完整方法的性能由于其他变体,并且取得了很大的进步。还可以观察到,EADA 强于 EADA(w/o 和 w/o $),这表明与特征抽样和实例不确定抽样都是选择代表性数据和信息量数据的必要条件。另外,从没有 LFEA 的 EADA 到 EADA 的持续和显著的增长证明了我们决定使用正则化项来对齐两个畴之间的自由能分布,这对于隐含地减少畴位移是有益的。

(2)简单例子

为了更好地解释为什么基于能量的标签获取策略效果良好,以及什么样的样本更具代表性和信息量,作者执行了一个简单例子,一个带领域转移的二进制分类任务。如图4所示,从左到右:仅来源、随机、BAGE和我们的EADA逐一显示,目标误差分别为52.0%、8.5%、4.2%、1.0%。

图4

从实验结果中,我们可以发现。(I)自由能偏差(Free energy biases):在图4(A)中,目标样品上的自由能值比源样品上的值高得多。受此启发,我们设计了一个自由能抽样作为描述领域特征的替代度量。(Ii)冗余/微不足道的选择(Redundant/Trivial selection):在图4(B)中,我们可以观察到,由“仅源”选择的样本中有很大一部分位于目标数据密度较高的区域,从而导致许多冗余实例。BADGE(一种最先进的主动学习方法)在“梯度嵌入”的基础上运行聚类方案,同时考虑了不确定性和多样性。然而,当深入研究决策边界与每一轮选择样本的关系时,BADGE仍然选择了一些排列良好的样本,并且选择的样本并不是当前分类器中最不确定的样本。(iii)自由能与决策边界(Free energy versus decision boundary):最终的决策边界是自由能最高的区域。因此,作者探索了一种MvSM度量来精确量化当前模型下目标样本的不确定性。图4(D)中的结果验证了作者方法的有效性。简而言之,定义自由能最高且位于决策边界附近的目标样本是最有价值的、既有代表性又有信息量的样本。

(3)选择比率的影响

表3中, 显示了三种不同类型的图像分类基准在变化率 时的准确性。EADA可以在很大范围内达到相同的表现。值得注意的是,去掉任何步骤 都会导致性能的下降。

表3

(4)时间复杂度

表4列出了 EADA 和可比较的基线方法的查询复杂度和查询时间。EADA 获得了最好的准确性,并且显著地比竞争性基准更有效率。

表4

四、结论

本文中提出了一种基于能量的主动领域自适应算法,它以最小的标记代价解决域自适应性能的局限性。提出了一种基于能量的领域自适应采样策略,用于选择具有代表性和信息量有限的目标样本。在此基础上,进一步探索了一个正则化术语来隐式地缩小域间隔。此外,还详细阐述了关于 EADA 何时以及为什么会起作用的理论结果。通过实验,证明了它在各种转移情况下的有效性。

论文链接: https://arxiv.org/pdf/2112.01406.pdf

代码链接: https://github.com/BIT-DA/EADA

撰稿人: 陈希昶

审稿人: 李景聪


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: