团队黄俊端副研究员在IEEE TIFS发表指静脉身份识别的研究成果

近日,华南师范大学人工智能学院黄俊端副研究员联合华南理工大学、瑞士Idiap 研究所团队,在信息安全领域顶刊IEEE Transactions on Information Forensics and Security(CCF-A,JCR Q1,中科院一区 Top,IF: 8)发表题为Study of Full-View Finger Vein Biometrics on Redundancy Analysis and Dynamic Feature Extraction的研究论文。论文第一作者为黄俊端副研究员,通讯作者为华南理工大学康文雄教授,主要合作方包括Idiap研究所生物特征识别安全与隐私组/生物特征识别与测试中心的Sushil Bhattacharjee副研究员和Sébastien Marcel教授。

论文:https://ieeexplore.ieee.org/document/11236466

开源代码:https://github.com/SCUT-BIP-Lab/FDT

研究背景

在身份认证安全应用中,生物识别技术正成为核心支撑,其中手指静脉(FV)生物识别因具备活体检测能力、抗伪造难度高、用户友好性强三大优势,近年来关注度持续攀升。多视图手指静脉认证作为该领域的重要发展方向,相比单视图技术展现出显著优势:一是能捕捉更丰富的静脉信息,有效提升识别准确率;二是大幅增加伪造攻击的难度,安全性更高;三是从本质上解决了应用过程中的姿态变化问题,让识别系统更稳健。以镜面式全视图手指静脉(MFFV)成像设备为例,其通过多相机与镜面组合,可实现手指全表面静脉图像采集,为高精度识别奠定基础。

当前多视图手指静脉研究主要分为基于模态(偏多视图、全视图、三维)和基于成像技术(多相机、移动相机)两类,所有多视图系统都需同时处理多张静脉图像,这导致了两大核心挑战:一方面,多图像特征提取过程会显著增加计算复杂度,增加系统运行成本;另一方面,手指静脉不同视图、不同区域的静脉信息差异极大,部分区域的信息价值极低,若对所有图像区域采用相同处理方式,会造成部分视图或区域的性能成本比偏低。

本文认为这两大挑战本质上均源于多视图手指静脉图像中固有的信息冗余:计算复杂度增加是冗余问题的宏观体现,而性能成本比低是冗余问题的微观表现。这一冗余问题使得现有手指静脉研究多局限于单视图范式,成为制约多视图手指静脉技术发展与实用化的主要障碍,亟需针对性的创新解决方案。

论文贡献与研究方法

基于上述内容,本文聚焦全视图指静脉生物识别的冗余问题,提出首个指静脉冗余分析方法FVRA(FV redundancy analysis),用于量化图像中的信息冗余度。基于FVRA冗余分析的结果,本文提出了一个新型特征提取模型FDT(FV dynamic Transformer),该模型在不同处理阶段同时关注局部信息和全局信息,有效提升去噪性能。

1. 指静脉冗余分析FVRA (FV redundancy analysis)

针对目前全视图指静脉识别中信息冗余无量化标准、无系统分析方法的空白,文章提出首个指静脉冗余分析方法,为后续模型设计提供量化依据。

1) 由于指静脉图像存在明显区域信息差异,该方法将单张320×240像素的静脉图像分割为100个32×24像素的非重叠图像块(分量),对于覆盖手指全表面的全视图场景则整合3个视角的所有补丁块形成300个分量,以此完整保留静脉图像空间纹理特征并精准定位不同区域信息价值。

2) FVRA以“保留99%核心身份信息”为关键指标,通过主成分分析(PCA)计算维持99%信息所需的主成分(PC)和数量(P99)与总主成分数量(Pt)的比例,通过公式(1)得到冗余率R。

(1)

实验结果显示,单视图静脉图像冗余率达 70%-80%,而全视图场景下冗余率提高至 83%-87%。该结果清晰展示了全视图技术中冗余问题更突出的特性,为模型优化指明核心方向。

2. 全视图指静脉动态特征提取FDT(FV dynamic Transformer)

基于冗余分析的结果,文章提出了包含单视图处理(SV)和全视图耦合(FVC)两阶段的动态特征提取模型FDT。该模型在特征提取过程中逐步剔除对身份识别贡献小的标记,保留关键特征,以减小指静脉图像冗余率。同时模型为全视图FV图像集提供端到端处理解决方案,无需额外预处理和特征融合步骤,大大简化了识别流程。FDT模型由五大核心模块组成:

3. 多层感知机补丁嵌入(MLP-P)模块

MLP-P模块是FDT模型的基础预处理单元,核心功能是将输入的全视图指静脉图像转换为可用于后续特征处理的标记序列。MLP-P通过特定操作序列实现标记转换:首先是一个核尺寸和步长与图像块尺寸相匹配的卷积层,接着是Leaky ReLU激活层,最后是一个1×1卷积层。这种设计弥补了传统线性映射无法充分提取补丁内部细节的缺陷,为后续操作提供高质量特征基础。

4. 位置嵌入生成器(PEG)模块

该模块采用条件位置嵌入机制,解决FDT模型中标记序列动态变化导致的位置信息丢失问题。模块基于位置嵌入生成器(PEG)的工作原理,其生成机制不仅考虑标记本身,还结合其邻近标记的信息。由于模型在特征提取过程中会持续剔除冗余标记,导致标记的位置不断动态调整,PEG模块在每个动态Transformer单元中会重新计算嵌入位置,确保空间信息的实时更新。该模块仅对普通标记进行位置编码,类别标记与聚合标记因不涉及局部空间交互而无需处理,避免不必要的计算开销。

5. 去冗余多头自注意力(DeRedun-MHSA)模块

该模块是FDT模型实现冗余抑制的核心模块,通过类别标记引导的动态标记筛选机制,剔除对身份判别贡献微弱的冗余信息。其工作流程分为五步:先对输入标记进行多头自注意力(MHSA)处理与线性映射,生成中间标记;再以类别标记与普通标记的注意力值作为重要性评分,按分值降序排序;随后筛选出前K个标记为正常标记(XNom),剩余低分值标记为冗余标记(XR);接着利用类别标记与冗余标记的注意力值作为聚合权重Watt,将所有冗余标记聚合为单个聚合标记,保留潜在有用信息;最后将正常标记、聚合标记与类别标记组合为下一层输入序列。

6. 局部增强前馈网络(LFFN)模块

LFFN 模块的核心目标是进一步优化MHSA阶段提取的特征。LFFN将每个标记与其邻近标记进行联合处理,显著增强了相邻标记间的局部交互作用,能够从静脉血管图像中提取身份识别所需的上下文信息。模块仅对正常标记进行局部增强处理,类别标记和聚合标记均直接传递至下一阶段,避免了无关处理对核心特征的干扰。

7. 批量注意力(BatchAtten)模块

BatchAtten模块是训练阶段的辅助单元,核心功能是通过注意力融合促进类别标记间的交互。该模块接收训练批次中的类别标记作为输入,通过注意力融合实现不同样本类别标记间的信息交互,随后生成与原始数量相等的新类别标记,与原始类标记拼接形成双倍数量的类别标记输入至分类器。该模块仅在训练阶段生效,且仅采用单个 MHSA 层,额外计算负载可忽略不计,不会影响推理阶段的运行效率,却能显著提升模型的泛化性能与身份识别准确率。

实验设计

本研究在两个公开全视角指静脉数据集(MFFV-N 和 LEMB-3DFB)上对模型进行了系统评估,并与多种基线方法进行了对比,具体实验设计如下:

1. 实验数据集

MFFV-N数据集:选取MFFV数据集的正常姿态子集,包含320根手指的生物特征数据。每根手指对应3个相机视角、6种光照强度下的采集样本,正常姿态下每根手指含540张图像。实验采用数据集提供的平衡协议与正常协议,训练集、开发集、测试集分别包含160根、64根、96根手指的样本。

LFMB-3DFB 数据集:涵盖695根手指的多模态生物特征数据,包含6个视角的图像采集。为适配全视角指静脉输入需求,选取A、C、E三个互补视角的图像组成实验样本,采用数据集标准平衡协议进行跨域泛化验证。

2. 评价指标与标准

核心指标:采用错误匹配率(FMR)、错误不匹配率(FNMR)、半总错误率(HTER)、等错误率(EER)和真实匹配率(TMR)作为核心评价指标,全面衡量识别性能。

评价标准:

  • EER标准:选取FMR与FNMR相等时的错误率作为评价依据;
  • 最小HTER标准:以FMR与FNMR的平均值最小化为目标;
  • 固定FMR标准:分别设定FMR=1%和FMR=0.1%,评估对应场景下的识别效果。

3. 实验环境与参数设置

实验基于PyTorch框架搭建,在NVIDIA RTX 3090 GPU上完成训练与测试。关键参数设置如下:

  • 训练轮次5000轮,后3000轮每轮在开发集验证最优模型;
  • 初始学习率0.001,采用余弦退火调度策略(最大迭代次数 25);
  • 批处理大小32;
  • 交叉熵损失权重设为1,中心损失权重0.01,中心更新学习率0.001;
  • 优化器采用随机梯度下降(动量0.9,权重衰减0.01)。

数据增强策略包括随机颜色抖动(亮度、对比度等系数0.2)、随机平移(水平 / 垂直系数0.2)和随机透视变换(缩放系数0.8-1.2)。

关键实验与结果

1. 指静脉冗余分析实验

图5展示了指静脉图像成分的累积信息分布

结果显示,单视角指静脉图像的冗余率达70%-80%,全视角指静脉图像的冗余率进一步提升至83%-87%,仅需13%-17%的主成分即可保留99%的身份鉴别信息。这一结果验证了全视角指静脉数据中存在显著冗余,为后续特征提取模型的优化提供了量化依据。

2. FDT模型配置与性能验证

基于冗余分析结果,FDT模型采用动态标记剔除策略,在单视角阶段(SV)与全视角耦合阶段(FVC)逐步减少冗余标记。模型配置如表2:初始标记数100×3(三视角),经6个阶段处理后最终保留49个核心标记,整体标记缩减率达83.67%。

在MFFV-N数据集上的实验结果如表3所示:

结果表明,FDT模型表现优异:

  • 平衡协议下,开发集EER达0.97%,测试集HTER为1.84%;
  • 正常协议下,开发集EER为2.22%,测试集HTER为3.03%;
  • 固定FMR=1%时,开发集TMR达98.96%,测试集FMR仅0.98%;
  • 固定FMR=0.1%时,开发集TMR为92.60%,测试集FNMR为20.14%。

与MC+MM+SVM、MVCNN、MVT等基线模型相比,FDT在各项指标上均实现显著提升,其中EER较传统方法降低50%以上,展现出优秀的身份鉴别能力。

3. 消融实验

为验证FDT各核心模块的有效性,分别对MLP-P(补丁嵌入)、PEG(位置编码生成器)、DeRedun-MHSA(去冗余多头自注意力)、LFFN(局部增强前馈网络)和BatchAtten(批处理注意力)进行消融测试,结果如表4:

结果表明,所有核心模块均对模型性能有正向贡献:

  • 移除LFFN后,开发集EER升至3.65%,测试集HTER增至5.28%,性能下降最为显著;
  • 移除DeRedun-MHSA后,冗余标记无法有效剔除,测试集HTER达2.42%;
  • PEG、MLP-P和BatchAtten的消融分别导致EER提升0.38、0.77和0.11个百分点。

4. 跨域泛化实验

在LFMB-3DFB数据集上验证FDT的跨域适应性,模型仅基于MFFV-N数据集训练,直接应用于新数据集,结果如表5:

结果显示,FDT在平衡协议下的开发集EER为7.24%,测试集HTER为7.34%,远优于MC+MM+SVM基线模型(测试集HTER为34.08%)。即使在LFMB-3DFB数据集存在手指姿态变化的情况下,FDT仍保持稳定性能,验证了其良好的跨域泛化能力。

5. 复杂度分析实验

对FDT模型的计算复杂度进行评估,如表6所示:

结果显示:模型参数仅11.11M,浮点运算量(FLOPs)为0.87G,生成的生物特征模板维度为128维。相较于MVCNN(21.28M参数、16.72GFLOPs)和MVT(50.92M参数、6.53GFLOPs),FDT在保持高性能的同时,计算成本显著降低,更适合实际应用场景。

总结

  1. 首次提出指静脉冗余分析(FVRA)方法,实现单视图(70%-80%)与全视图(83%-87%)静脉图像冗余的定量评估,为多视图指静脉技术优化提供量化依据。
  2. 创新设计手指静脉动态特征提取(FDT)模型,结合单视图处理与全视图耦合,实现 83.67% 的标记缩减率,达成冗余抑制与特征强化的双重目标。
  3. 构建覆盖冗余分析、性能对比、模块消融、跨域泛化与复杂度评估的多维度实验体系,为全视图指静脉技术提供规范的基准验证方案。
  4. 开源FDT 模型代码与实验结果,模型参数仅 11.11M、计算量 0.87G,在 MFFV-N 数据集实现 0.97% EER 和 1.84% HTER 的 SOTA 性能,兼具高精度与轻量化优势,便于领域内复用与扩展。

 

撰稿:林信翰

审核:黄俊端


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: