IEEE TIFS |用于多视角指静脉识别的基于注意力BLSTM的时空静脉Transformer

tittle

该论文发表于IEEE Transactions on Information Forensics and Security (中科院一区,IF=6.3),题目为《Attention BLSTM-Based Temporal-Spatial Vein Transformer for Multi-View Finger-Vein Recognition》。重庆工商大学计算机科学与信息工程学院的教授秦华锋为此文第一作者。重庆大学计算机学院的教授李延涛为此文的通讯作者。

论文链接:https://ieeexplore.ieee.org/document/10695117

论文概要

由于其良好的隐私保护和高度的安全性,指静脉生物识别技术近年来受到广泛关注。尽管该领域已取得显著进展,但大多数现有方法仍主要依赖于从三维静脉血管投影到二维(2D)图像上的单视角图像中提取特征。然而,单视角的识别容易受到手指位置变化(尤其是由于手指旋转造成的)影响,进而降低识别性能。为了解决这一挑战,本文提出了一种基于注意力双向LSTM的时空静脉Transformer模型——ABLSTM-TSVT,用于多视角指静脉识别。首先,在LSTM中引入注意力机制,构建了注意力LSTM以提取时序特征。在此基础上,进一步引入了一个局部注意力模块,该模块能够学习多视角图像中一个图像块(token)与其邻近图像块之间的时间依赖关系,并与注意力LSTM融合形成时序注意力模块。其次,设计了空间注意力模块,用于捕捉单张图像中各图像块之间的空间依赖关系。最后,通过融合时序注意力模块与空间注意力模块,构建了时空Transformer模型,有效地表征多视角图像的特征表示。在两个多视角数据集上的实验结果表明,本文方法在提升身份识别准确率和减少静脉分类器验证误差方面优于现有先进方法。

研究背景

指静脉识别仍然是一项具有挑战性的任务,因为多种因素会导致图像质量下降,这些因素可大致分为两类:一是外部因素,如环境光照、温度变化以及光散射等,这些会在图像中引入噪声、不规则阴影,甚至造成静脉图案缺失;二是内部因素,如用户的操作行为,可能会引起图像的旋转和平移。在图像采集过程中,用户的手指可能沿 X、Y、Z 三个轴发生平移与旋转:其中,X 和 Y 轴方向的平移会影响图像中手指区域的位置,Z 轴方向的平移则会改变其尺度;而沿这三个轴的旋转——即滚转、俯仰和偏航——会以不同方式影响最终图像。具体而言,偏航可能使手指在图像中产生旋转,俯仰可能导致手指变形从而造成静脉结构扭曲,尤其值得注意的是,滚转会改变三维血管结构在二维图像上的投影角度,尤其在大角度时,不同视角下同一手指采集到的静脉图像差异会变得十分显著,最终导致注册图像与测试图像之间的不匹配,从而影响识别性能。由于大多数用户对静脉识别缺乏专业知识,在图像采集时可能错误地放置手指,进一步加剧了采集图像之间的差异。而无接触式采集系统则往往带来更多的变化,包括旋转、平移和尺度变化。

f_xyz

图一 手指移动引起的姿势变化

方法与结果分析

研究方法

model_struct

图二 ABLSTM-TSVT框架.(a) ABLSTM-TSVT, (b)时间注意力, (c) BLSTM注意力, (d) LSTM注意力.

基于注意力机制的BLSTM时空静脉Transformer(即ABLSTM-TSVT)由空间注意力模块、时间注意力模块和嵌入层组成,如图2(a)所示。首先,对多视角指静脉图像序列中的每一幅图像进行卷积处理,将其划分为 N=196 个图像块(patch),每个图像块随后被转换为一个嵌入向量。接着,这些嵌入向量被送入时间注意力模块(如图2(b)所示),以学习多视角图像之间的时间依赖关系。时间注意力模块的输出作为空间注意力模块的输入,用于提取图像内部各图像块之间的空间相关性。通过这种交互式的处理流程,模型能够有效提取并优化图像序列中的特征,为后续的分类任务提供支持。

A. 序列嵌入

IMG_256目前,大多数Transformer模型 ,旨在改进Vision Transformer(ViT),通常会利用其预训练权重并进行微调,以提升模型的鲁棒性。类似地,本文的方法引入了空间注意力模块,并采用了一个经过预训练的ViT模型,利用指静脉图像对其进行微调。在 ViT 中采用了图像块划分与特征嵌入方案。设X₁:ₜ 表示一个多视角指静脉图像序列 X₁, X₂, ..., Xₜ。对于第 t 幅图像, 在不同像素位置上使用带有 d = 768 个 p×p(其中 p = 16)的卷积核的卷积操作,步长为 p。这样,图像 Xₜ 被转换为一个由IMG_256个token 组成的序列 IMG_256。在实验中,所有指静脉图像被统一调整为 224×224,因此:IMG_256。最终,这些 token 被聚合成一个矩阵 IMG_256,从而得到该图像的嵌入表示。对于整个图像序列的嵌入,将 T 个矩阵{Xₜ′ | t = 1, ..., T}堆叠起来,得到新的三维张量IMG_256。在 ViT中,一张图像被划分为 N 个 patch,每个 patch 被嵌入为一个 token,通过 Transformer 中的自注意力机制学习 patch 之间的空间依赖关系。为了实现鲁棒的分类,ViT 在 N 个 token 前连接一个分类 token z₀,从而形成 N+1 个 token 输入到 Transformer 中。Transformer 编码器的输出 z₀ 作为整张图像的空间特征表示。为了保留在不同时间点采集图像的空间信息,为每个时间点引入一个时间 token 向量z₁:ₜ,维度为 T×1×d,并将其加入到原始嵌入中,得到新矩阵IMG_256。将IMG_256输入到 Transformer 后,编码器的输出 zₜ 表示时间 t 对应图像的空间信息。

B. 时间注意力

时间关系信息是多视角分类中的关键特征。为了有效地捕捉这种时间信息,引入了一个时间注意力模块,该模块由局部时间注意力模块和注意力双向 LSTM(BLSTM)组成。

1)局部时间注意力

论文中提出一个局部时间注意力模块,用于建模多视角图像中相邻 patch 的 token 之间的关系。将分类 token 从IMG_256中去除,得到IMG_256。为了捕捉时间特征表示,在多视角图像的 token 之间设计了自注意力机制。来自第 t 幅图像的 token 表示为 IMG_256,它被划分为由其相邻 patch 中的 L×L 个 token 组成的窗口。这些窗口不重叠,因此图像 X′ₜ 被划分为IMG_256个窗口,并重新组织为矩阵IMG_256。对于一个指静脉的所有多视角图像,共有 T 个此类矩阵,它们被打包为矩阵IMG_256。为了学习某个窗口内的时间信息,取第 s 个窗口在不同视角下的集合,构成矩阵IMG_256,其中包含 T × 1 × (L × L) 个 token。通过这些 token 的自注意力计算时间依赖关系。令 IMG_256(其中 i = 1, ..., T × (L × L)表示第 s 个窗口中、第 T 幅图像内的第 i 个 token。该 token 通过一个线性层被映射为三个向量,分别是查询向量 IMG_256、键向量 IMG_256 和数值向量IMG_256。论文中将所有查询向量 IMG_256(i = 1, ..., T × (L × L)聚合成一个矩阵 Qₛ,同样地,键和数值向量分别聚合为矩阵 Kₛ 和 Vₛ。第 s 个窗口中所有 token 的自注意力随后通过公式 (1) 进行计算:

eql1

其中,Eₛ 表示相对位置偏置,SM(·) 是对相似度矩阵 Aₛ = QₛKₛᵀ 的每一行应用的 Softmax 操作,dₖ 表示归一化参数。通过组合 M 个单头注意力机制,计算多头注意力,来增强特征表示能力。如公式 (2) 所示:

eql2

其中,IMG_256,m (m = 1, 2, …, M) 表示多头注意力中的第 m 个头。类似地,在 s (s = 1, 2, …, S) 个窗口中计算多头注意力 timeMSATₛ,并将其组合成一个矩阵IMG_256

2)注意力 BLSTM

论文中在 LSTM 架构中引入了注意力机制,构建了注意力 LSTM(见图 2(d))。进一步地,将其扩展为双向 LSTM(BLSTM)网络(见图 2(c)),以从图像的左右两个方向提取信息。

从变换后的表示 IMG_256 中,论文提取出类别标记 IMG_256。每张图像的嵌入向量被视为一个 token,其中 X′ₜ 表示第 t 张图像的第 t 个 token,IMG_256 表示前一时刻的隐藏状态。通过一个线性变换层,将IMG_256映射为三个向量:IMG_256的查询向量 Qₓ、键向量 Kₓ 和值向量 Vₓ。同样地,对前一隐藏状态IMG_256计算查询向量 Qₕ、键向量 Kₕ 和值向量 Vₕ。输入向量 IMG_256的自注意力机制按公式(3)计算:

eql3

采用这种方法,通过公式(4)、公式(5)和公式(6)分别获得隐藏状态IMG_256的自注意力机制以及IMG_256IMG_256之间的交叉注意力机制。

eql4

其中,Cₓ 和 Cₕ 分别表示输入向量 IMG_256与前一隐藏状态IMG_256之间的交叉注意力机制,Sₕ 表示隐藏状态的自注意力机制。

LSTM 架构包含四个模块:遗忘门、输入门、记忆单元和输出门。其中,遗忘门 决定从记忆单元中舍弃哪些信息。该决策由一个 Sigmoid 激活函数控制,如公式(7)所示:

eql4_5

其中,σ 表示 Sigmoid 函数,linear 表示线性映射函数,Concat 表示向量拼接操作。输入门 负责处理当前输入,如公式 (8) 和公式 (9) 所示:

eql5

记忆单元被设计用于缓解梯度消失问题,从而有助于模型的训练,特别适用于包含长序列的数据集。记忆单元的输出由公式 (10) 给出:

eql6

其中,⊙ 表示 Hadamard(元素级)乘法运算符。

与前两个门控机制类似,输出门通过公式 (12) 计算:

eql7

BLSTM 是 RNN 的一种变体,增强了标准 LSTM 在处理长期依赖关系方面的能力。为了进一步提升性能,论文中提出了注意力 BLSTM(Attention BLSTM),该结构在前向和后向两个方向中引入注意力机制,从而实现信息的同步提取,如图 2(c) 所示。在 Forward 层中,注意力 LSTM 按顺序从第 1 个 token 处理到第 T 个 token,逐步获取前向隐藏层的输出。相反,在 Backward 过程中,注意力 LSTM 按相反顺序从第 T 个 token 处理到第 1 个 token,逐步获取后向隐藏层的输出。六个权重 V、V′、U、U′、Z 和 Z′ 被迭代使用,以通过公式 (13)、(14) 和 (15) 融合前向和后向层的输出。

eql8

输出 IMG_256(t = 1, 2 …, T)被组织成一个矩阵IMG_256。如图 2(b) 所示,随后将 IMG_256IMG_256 结合,通过公式 (16) 得到 Y。

eql9

最终,如图 2(b) 所示,使用具有两层全连接层的多层感知机(MLP)进行鲁棒的特征提取。论文采用两次线性变换,通过公式 (17) 将得到的映射 Y 转换:

eql10

其中,φ(·) 表示 ReLU 激活函数。

C. 空间注意力
为了提取空间信息,在每张图像的 N 个空间 token 上实现了自注意力机制。矩阵 IMG_256被重新调整为IMG_256,其中 Yₜ′′ 表示包含 N 个 token 的矩阵,这些 token 对应于第 t 张图像中的补丁。对于第 t 张图像中这 N 个 token 的空间自注意力,通过公式 (18) 计算:

eql11

多头注意力机制在不同的位置使用公式 (19) 实现:

eql12

其中,IMG_256 (m = 1, 2, . . . , M)。通过这种方式,计算所有图像中的多头注意力 SpatialM SATₜ (t = 1, 2, . . . , T),然后将其合并成一个矩阵IMG_256。最后,将 L 个时空模块层叠在一起,构建 ABLSM-TSVT(如图 2(a) 所示),从而促进从多视角图像中提取鲁棒特征。

实验结果

ABLSTM-TSVT在全视图静脉数据集CTBU(包含3视角、6视角和9视角)和多模态数据集LFMB-3DFB(包含3视角与6视角)进行了实验

对比实验:

闭集场景中的识别性能

为了评估所提方法的有效性,论文中将 ABLSTM-TSVT 与代表性的 2D 单视角识别方法,以及 3D 多视角识别方法进行比较。常用的均衡误差率(EER)用于评估性能,它是虚假接受率(FAR)等于虚假拒绝率(FRR)时的点。此外,采用了TAR@FAR = 0.1%,其中TAR = 正确接受的合法用户数 / 所有合法用户数,FAR = 错误接受的非法用户数 / 所有非法用户数,TAR@FAR = 0.1%是指FAR 限制在 0.1% 的时候,系统对合法用户的接受率是多少。表 一、二、三、四 和 五 展示了在两个数据集上各种方法的识别准确率

表三_1

表一 数据集CTBU的三视图子集上各方法的识别准确率(%)

表一

表二 数据集CTBU的六视图子集上各方法的识别准确率(%)

表二

表三 数据集CTBU的九视图子集上各方法的识别准确率(%)

表三

表四 数据集LFMB-3DFB的三视图子集上各方法的识别准确率(%)

表四

表五 数据集LFMB-3DFB的六视图子集上各方法的识别准确率(%)

具体而言,对于数据集 CTBU,所提出方法达到了 97.55% 的识别准确率和 0.96% 的 EER;对于数据集 LFMB-3DFB,则分别达到了 98.06% 的识别准确率和 0.54% 的 EER。特别地,在 FAR = 0.1% 时,所提出方法在数据集 CTBU上达到了 97.77% 的 TAR,在数据集 LFMB-3DFB上达到了 98.71% 的 TAR。

开集场景中的识别性能

实验结果如表六所示,表明所提出方法在两个数据集上都保持了高识别性能,即使测试集中包含了来自额外类别的样本。该方法能够有效识别并拒绝冒名顶替者,从而展示了所提出的指静脉识别系统在实际应用中的有效性。此外,表七中的验证结果表明,即使测试集仅包含新类别,该方法仍然能够取得令人满意的验证性能。这些结果表明,该方法非常适合实际的验证场景。

表五

表六 开集场景下的识别准确(%)(FAR = 1%)

表六

表七 开集场景下的验证错误率(%)

消融实验:

首先,论文中使用标准的自注意力模块来捕捉空间依赖性,该方案作为基线(baseline)。随后,引入邻域时间注意力来学习多视角图像间的时间依赖性,该方案被记作 (baseline)+ 局部时间注意力。类似地,将局部时间注意力替换为注意力BLSTM模块,此方案记作 (baseline)+ BLSTM注意力。最后,同时结合局部时间注意力模块与注意力BLSTM模块提取时间信息,同时保留标准的空间自注意力机制,用于空间特征学习,构成 ABLSTM-TSVT模型(baseline+BLSTM注意力 + 局部时间注意力)。

各种方法在两个数据集上的识别结果展示在表八、九、十、十一与十二中。实验结果表明,引入的局部时间注意力模块与注意力BLSTM模块能显著提升识别性能。

表八

表八 各方法在数据集CTBU三视角子集上的识别准确率(%)

表九

表九 各方法在数据集CTBU六视角子集上的识别准确率(%)

表十

表十 各方法在数据集CTBU九视角子集上的识别准确率(%)

表十一

表十一 各方法在数据集LFMB-3DFB三视角子集上的识别准确率(%)

表十二

表十二 各方法在数据集LFMB-3DFB六视角子集上的识别准确率(%)

结论

本文提出了一种基于注意力双向LSTM的时空静脉Transformer(ABLSTM-TSVT),用于多视角静脉图像识别。ABLSTM-TSVT由多个时空模块组成,每个模块包括一个时间模块和一个空间模块。时间模块能够有效学习序列中多视角指静脉图像之间的鲁棒时间特征依赖关系,而空间模块则用于捕捉图像内部各个图像块之间的空间依赖。在两个多视角静脉数据集上的综合实验结果表明,ABLSTM-TSVT优于当前的2D/3D静脉识别方法,在多视角三维指静脉识别任务中实现了最高的识别准确率。多视角三维指静脉识别的研究热度不断提升,原因在于其能够提供更具区分性的信息,并缓解由手指滚动带来的图像不匹配问题。

撰稿人:张坤鹏

审稿人:黄俊端


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: