第27届IEEE国际多媒体会议(IEEE International Conference on Multimedia and Expo,简称 ICME)将于 2025 年 6 月 30 日至 7 月 4 日在法国南特(Nantes)隆重举行。ICME是计算机多媒体领域最具权威性和影响力的两大国际旗舰会议之一,同时也是CCF(中国计算机学会)和CAAI(中国人工智能学会)推荐的B类会议。在此次会议上,脑机交互与混合智能团队有5篇研究成果被录用,取得了丰硕成果。
1. 国际上首个开源的指形认证数据集 FinSeg
黄俊端副研究员联合华南理工大学康文雄教授、贵州民族大学罗达灿教授和杨伟力教授,共同发表了题为《Study of Finger Biometrics on Finger Semantic Segmentation and Finger Shape Authentication》的研究论文。该研究聚焦于指形身份识别这一新兴领域,首次专门深入探讨指形在身份识别中的效果与作用,具有一定的创新性。
(1)基于全视图指静脉数据集 MFFV(MFFV 数据集),团队构建了国际上首个开源的指形认证数据集 FinSeg(FinSeg 数据集),为后续相关研究提供了宝贵的数据资源,有力推动了手指生物特征识别技术的发展。此外,团队设计了一个简单、直接、轻量化的指形语义分割模型 FinSeg-Net,成功实现了指形与指静脉特征的解耦,精准提取指形掩码,为进一步的身份识别研究奠定了基础。
(2)为确保研究成果的可复现性和可参考性,团队还提供了一套全面、系统性、规范化的指形认证基准实验。这一基准实验为后续相关研究提供了公平性、一致性的实验参考,有助于引导该领域研究朝着更加科学、规范的方向发展,促进指形生物特征识别技术的不断完善和应用拓展。
2. 运动想象脑机接口跨被试分类模型
2023 级研究生夏梓健发表了《Time-Frequency Domain Fusion Transformer for Cross-Subject Motor Imagery Classification》研究工作,在脑机接口领域的运动想象分类研究中取得了重要突破,指导老师为潘家辉教授。主要贡献包括:
(1)提出了一种结合时间态和频率态数据的运动想象分类模型——Time-Frequency Domain Fusion Transformer。该模型创新性地使用三个电极通道实现域泛化的运动想象分类目标,有效克服了传统方法在跨被试运动想象分类中面临的个体差异大、泛化能力差等问题,为脑机接口技术在实际应用中的推广提供了有力支持。
(2)在经典域适应方法 CDAN 的基础上,团队进一步拓展提出了 DG-CDAN,并将其成功应用于多领域域泛化的应用中。通过在分类训练中学习泛化特征,DG-CDAN 有效提升了模型在不同被试之间的泛化能力,进一步提高了运动想象分类的准确性和稳定性。
(3)在两个数据集上的实验结果均表明,该方法取得了最优的实验结果,充分证明了其在少通道跨被试的运动想象分类中的有效性。这一成果为脑机接口技术在康复医疗、人机交互等领域的应用提供了新的技术手段,有望推动脑机接口技术的进一步发展和普及。
3. 基于VAE的少样本学习创新性方法
2023 级研究生陈泉霖和2022级研究生叶春锦发表研究成果《A Novel Perspective on Leveraging Hubness in VAE for Eliminating Representative Shift Vectors in Few-Shot Learning》在少样本学习领域提出了创新性方法,指导老师为李景聪副教授。主要贡献包括:
(1)该研究突破传统思维,使用可学习的生成式变分自编码器(VAE)模型代替了以往高斯分布的强假设,巧妙地将分布划分为代表性偏移向量和类内多样性。这一创新设计使网络能够有效学习新类别的类内多样性,并间接学习其特征分布,为少样本学习中的类别学习提供了新的思路。
(2)以往研究多将 Hubness 性质视为负面属性加以避免,而本研究团队另辟蹊径,首次在少样本学习领域将 Hubness 属性视为积极属性并加以深入研究。通过利用 Hubness 特性指导 VAE 生成高质量样本,为少样本学习中的样本生成问题提供了有效解决方案,进一步提升了模型对新类别的学习能力和泛化性能。
(3)在四个数据集上进行的广泛实验充分验证了所提方法的有效性,取得了最优或次优的性能表现。这一成果为少样本学习领域的研究提供了新的视角和方法,有望推动该领域在更多实际应用场景中的落地与发展,解决少样本场景下的分类识别难题。
4. 代码生成领域提出“双记忆”策略
2023 级研究生李泽远在何乐为副研究员的指导下发表研究成果《FALCON: Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization》。针对代码生成大模型在现有基于编译反馈的强化学习框架中的不足,提出了创新性的“双记忆”策略。
(1)该策略从全局和局部两个层面入手,从全局层面利用长时记忆记录高质量样本、错误类型与修复经验,从局部层面利用短时记忆接收实时编译和单元测试反馈。这种“双记忆”机制使模型能够迅速发现并纠正短期错误,同时借鉴历史最优代码经验,显著降低了重复错误率并提升了收敛速度,有效提高了代码生成的质量和效率。
(2)将多维度非差分特征纳入反馈回路,通过整合编译反馈、AI 风格评分、代码复杂度评价等多维度指标,不仅在最终功能正确性上有明显提升,还兼顾了代码可读性和最佳实践等实际编程需求,使生成的代码更符合实际开发中的规范和要求。
(3)在 APPS、HumanEval、MBPP、CODAL-Bench 等多个权威测试集上的验证结果表明,FALCON 展现出优异的代码准确度,充分证明了该方法的有效性。这一成果为代码生成领域的发展提供了新的技术思路和方法,有望推动代码生成技术在软件开发中的广泛应用,提高开发效率和代码质量。
5. 步态情绪识别高效学习框架
2023 级研究生续梦昕在周成菊老师指导下发表研究成果《Multi-soft-label Guided Supervised Contrastive Learning for Gait Emotion Recognition》,在步态情绪识别领域提出了高效的 Multi-soft-label Guided Supervised Contrastive Learning(MSL-SCL)框架,为解决情绪类别之间的模糊性和重叠性问题提供了创新性解决方案。主要贡献包括:
(1)传统步态情绪识别方法多采用单一硬标签进行分类,忽略了情绪类别之间的复杂关系,导致分类精度受限。MSL-SCL 框架巧妙地利用多软标签信息来指导监督对比学习,使模型能够更精细地刻画情绪步态的特征,从而有效缓解类别模糊问题。该框架结合软标签相似性信息和先验情绪步态特征,优化步态表示学习,为步态情绪识别提供了更准确的特征表示。
(2)设计了两种监督对比学习模块:Sof-SCL 和 Prior-SCL。Sof-SCL 依据软标签相似性来选择正负样本,并将相似性信息融入新的对比损失函数,以优化特征学习;Prior-SCL 结合领域知识,提取步态情绪特征(如动能、对称性、相对角度等),并作为动态软标签提供适应性监督,进一步增强对比学习的效果。这种双模块协同作用的设计,充分发挥了软标签和领域知识的优势,提升了模型的特征学习能力和分类性能。
(3)在 Emotion-Gait 数据集上的实验结果表明,MSL-SCL 框架在情绪步态识别任务上超越了现有的 SOTA 方法,取得了 89.8% 的均值平均精度(mAP)。消融实验进一步验证了 Sof-SCL 和 Prior-SCL 在提升识别性能方面的有效性。这一成果为步态情绪识别领域的研究提供了新的技术思路和方法,有望推动该领域在情感分析、人机交互等领域的应用发展。