近日,课题组的论文“Enhancing Cross-domain Correspondence for Unsupervised Image-to-Image Translation”被中科院一区TOP期刊《IEEE Transactions on Multimedia》接收。
无监督图像翻译(UNIT)旨在在没有成对训练数据的情况下实现不同视觉域之间的图像转换,该技术已被广泛应用于风格迁移、图像处理、游戏设计等领域。然而,如何确保生成图像与输入图像之间的对应(如目标类别、姿态、头部方向等),仍是一个巨大挑战。
为此,文章提出了一种跨域对应增强的无监督图像翻译(EC-UNIT)新方案,该方案由三项创新设计组成,旨在增强 UNIT 的跨域对应。具体而言:1.提出多级风格嵌入(MSE)来提取多级风格特征以进行融合,同时在内容和风格特征上施加我们新设计的分级一致性约束(HCC),以保留更多的风格表示并促进特征解耦;2.开发语义感知匹配(SPM),通过利用多模态模型 CLIP 来最小化生成图像与输入图像之间的语义分布差异,从而增强语义一致性;3.考虑到以往方法难以通过像素级视觉一致性约束来很好地控制图像转换,EC-UNIT设计了视觉感知引导(VPG),通过在 VGG 特征空间中缩小生成图像与风格输入之间的感知距离来增强生成图像的视觉感知对应性,从而防止生成不真实的图像细节。
该工作得到了国家自然科学基金(62202507、62272116和62302110)、广东省自然科学基金(2025A1515012830, 2024A1515012536, 2024A1515011996和2025A1515012807)、广州大学市校联合项目(2025A03J3123)等的支持。
论文信息:
本工作已被IEEE Transactions on Multimedia期刊接收,作者是广州大学的赖彬鑫(研三),苏文康(通讯作者) ,梁钰滢,王员根(通讯作者) ,李明杰,以及澳门大学的周建涛。