该论文发表于IEEE Transactions on Pattern Analysis and Machine Intelligence(中科院一区,IF=24.314),题目为《Cross-Modal Hashing Method With Properties of Hamming Space:A New Perspective》。
香港浸会大学的胡志凯为此文第一作者。香港浸会大学人工智能讲席教授及香港研资局高级 研究学者张晓明为此文的通讯作者。
论文链接:https://ieeexplore.ieee.org/document/10506992
跨模态哈希(Cross-modal hashing, CMH)是一种用于处理不同数据类型(如图像和文本)的技术,旨在将这些不同类型的数据映射到一个共同的二进制码空间(汉明空间),以便进行高效的检索和匹配。现有的CMH方法主要集中在减少模态差距和语义差距上,即在汉明空间中对齐多模态特征及其语义,而没有考虑到空间差距,即实数空间与汉明空间之间的差异,这引发了两个问题:解空间压缩和损失函数振荡。基于上述问题提出了一种新的算法,即语义通道哈希(Semantic Channel Hashing, SCH)。首先,将样本对根据其相似性分类为完全语义相似、部分语义相似和语义负相关,并分别施加不同的约束条件,以确保整个汉明空间得到利用。然后,引入一个语义通道来缓解损失函数振荡的问题。在三个公共数据集MIRFlickr、NUS-WIDE和IAPR TC-12上的实验结果表明,SCH优于经典的基于浅层特征的CVH、STMH、CMSSH、SCM、SePH等基线方法,以及几种最新的端到端跨模态哈希方法,如DCMH、ATFH-N、CHN、SSAH、EGDH、AGAH、MSSPQ、HMAH、MAFH和MIAN。
研究背景
为了实现低存储成本下的快速检索,人们开发了哈希技术,形成了跨模态哈希(Cross-modal hashing, CMH)方法的一个新分支。然而,由于多模态数据最初存储在实数空间中,但后来映射到汉明空间,因此需要弥合这两个空间之间的一个额外的空间差距。现有的CMH方法主要通过聚集语义相似的样本和分离语义不相似的样本来解决语义差距问题。例如使他们正交或者尽可能将它们分开,这两种方法都会引发解空间压缩的问题,具体来说,距离为k的汉明空间中,样本的正交化会导致样本在对应的汉明空间中聚集在距离为0-k的某一位置,极度相似和非相似的样本则会在汉明空间中距离为0或k的边缘聚集,即检索集中的样本被迫分布在有限的空间内。此外,在当前流行的监督式CMH范式中,样本对标签之间的相似性s通常作为监督信息来指导学习它们对应的哈希码,这些哈希码的相似性记为c。为此,我们通常定义一个损失函数f(s, c),并通过最小化它来学习哈希函数和哈希码,由于f通常是连续的而哈希码的相似性值是离散的,这意味着即使找到了最优解,相应的样本对仍将继续对梯度做出贡献,并可能在下一个epoch跳出最优解,导致损失函数振荡的问题。
方法
针对上述问题,本文提出了一种新的CMH方法,即语义通道哈希(SCH)。为了避免解空间压缩的问题,我们根据标签计算的相似性将样本对分为三类:完全语义正样本、部分语义正样本和语义负样本。然后,对它们对应的哈希码施加不同的约束,确保整个汉明空间得到有效利用。具体而言,在距离为k的汉明空间中,完全语义正样本应尽可能靠近彼此,而部分语义正样本则以有序的方式分布在相对接近的范围内,语义负样本之间的距离需要大于k/2。此外,为了缓解损失函数的振荡问题,我们将第一步分配给不同样本的汉明距离扩展到语义通道中,确保在最优解处损失函数的梯度为零。
图1 语义通道架构图
1. 语义通道哈希(SCH)
如图1所示,本文关注图像和文本模态的跨模态检索任务,具体来说,数据集由n个图像-文本对组成 ,其中、分别代表第i个图像和文本样本, 则表示文本或图像第i个样本的哈希码,SCH的核心思想为基于样本和计算他们之间的相似性。在训练阶段,首先计算标签以及之间的余弦距离用来表示最初的相似性,公式如下:
如果样本和的标签完全不同,即语义负样本,
如果样本和共享一些标签,即部分语义正样本,
如果样本和的标签完全相同,即完全语义正样本,
随后计算哈希码和的汉明距离,公式如下:
直观上,如果两个样本具有相似的语义关系,我们期望这两个哈希码之间的余弦值较大,反之亦然。因此哈希码和之间适当的汉明距离可以表示为:
2. 损失函数
图2 损失函数架构图
对于语义负样本,我们希望他们对应的哈希码在汉明空间中相距较远,因此可以设置下界为k/2,确保汉明距离超过下界,从而保证语义负性,具体公式如下:
对于部分语义正样本,目标是使部分语义正样本的哈希码在汉明空间中接近但不过于接近,因此可以使用的上下界来约束哈希码之间的距离,具体公式如下:
对于完全语义正样本,他们之间的相似性,所以只需要确保其在汉明空间中的距离非常接近,因此可以通过控制的上界来实现,确保哈希码之间的距离不超过该上界,具体公式如下:
总体的损失函数为三者之和,公式如下:
其中的超参数α和β用于平衡不同类型的损失
实验和结果
本文使用了MIRFlickr、NUS-WIDE和IAPR TC-12三个公共数据集
1. MIRFlickr数据集
包含25,000个图像-文本对,涵盖24个不同的概念,其中图像使用原始RGB特征表示,每个文本由一个1,000维的词袋(BoW)向量表示。
数据预处理:
排除了文本标签出现少于20次的样本,最终得到20,015个图像-文本对,从中选取2,000对作为测试集,剩余的18,015对用于检索,随机从检索集中选择10,000个样本作为训练集。
2. NUS-WIDE数据集
包含260,648个图像-文本对,每个对至少有一个来自81个可能概念的标签,其中图像使用原始RGB特征表示,每个文本由一个1,000维的词袋(BoW)向量表示。
数据预处理:
只选择了属于前10个最频繁概念的样本,最终得到186,577对,从这些对中,选取2,000对作为测试集,剩余的184,577对用于检索,随机从检索集中选择10,000个样本作为训练集。
3. IAPR TC-12数据集
包含20,000个图像-文本对,每个对都用一组255个语义类别的多标签标注,每个图像由一个4,096维的向量表示,该向量是由预训练的CNN-F 提取的,每个文本由一个2,912维的词袋(BoW)向量表示。
数据预处理:
随机选取2,000对作为测试集,剩余的对同时用于训练和检索。
表1 MIRFlickr数据集和NUS-WIDE数据集的实验结果
表2 IAPR TC-12数据集的实验结果
从表1和表2中可以看出,和基于正交约束的经典方法(如SePH)、深度学习方法(如DCMH、SSAH和MIAN),以及基于三元组边缘损失的方法(如AGAH)相比,SCH在大多数情况下表现最佳。
此外,SCH使用了一个基本的双塔模型和直接的网络架构,并没有特别强调不同模态间哈希码的对齐。相比之下,其他方法如SSAH和MIAN采用了专门化的网络结构来处理文本数据,以提取更具信息量的文本表示。此外,ATFH-N、SSAH和AGAH引入了对抗网络来对齐哈希码,而SSAH还额外引入了一个网络来增强标签信息的监督信号。尽管如此,SCH依旧显示了较好的实验效果,这证实了其在弥合空间差距方面的有效性。
图3 精度-召回曲线
图4 Top-K精度曲线
如图3和图4所示,在MIRFlickr和NUS-WIDE数据集上得出的128位哈希码长度的精度-召回曲线以及Top-K精度曲线显示SCH在相同的召回率下始终能够达到最佳或次佳的精度结果,特别是在T→I任务中。这一观察表明,在检索集合中哈希码的分布已经显著优化了汉明距离,从而导致具有相似语义的样本聚集在一起。
图5 损失函数变化图
此外,本文实现了SCH的两个变体:SCH1(将语义通道宽度τ设置为0)和SCH2(用正交约束替换对语义负样本的约束,并且τ=0)。这两个模型以及SCH在NUS子数据集(13个类别)上进行了评估,如图5所示,SCH的损失函数表现出最平滑的行为,这说明没有语义通道意味着损失函数在最优解处的梯度不能保证为零。其次,严格的正交约束导致了解空间的压缩,使得某些被挤压的样本持续对梯度做出贡献。
结论
本文提出了一种新颖的方法SCH,通过将样本对分类为完全语义正样本、部分语义正样本和语义负样本,并赋予它们不同的汉明距离,解决现有方法中存在的解空间压缩问题,从而充分利用整个汉明空间。此外,通过引入语义通道的概念来缓解损失函数的振荡。在三个公共数据集上的实验结果证明了SCH的有效性。
撰稿人:冯宇
审稿人:梁瑾