多媒体可信感知与高效计算教育部重点实验室两项最新研究成果被TPAMI接收

近日，厦门大学多媒体可信感知与高效计算教育部重点实验室纪荣嵘教授团队两项最新研究成果被国际顶级学术期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)接收。

1.网络结构搜索研究成果——Training-free Transformer Architecture Search with Zero-cost Proxy Guided Evolution（DOI: 10.1109/TPAMI.2024.3378781）

该论文提出了一种高效的Transformer结构搜索方法（T-Razor），其采用零代价代理引导的进化算法来加速Transformer结构搜索的效率。T-Razor基于Transformer结构的多头注意力模块（MSA）和多层感知机模块（MLP）的多样性和显著性排序情况构建了面向Transformer结构的零代价代理指标，称为DSS++。通过利用MSA模块的多样性排序和MLP模块的显著性排序，T-Razor有效地估计了给定搜索空间中不同Transformer结构之间的相对性能排序。该论文还提出了一种与DSS++结合的模块级进化搜索方法，进一步提高搜索效率并改善搜索结果。与其他主流的Transformer结构搜索方法相比，由DSS++指导的模块级进化搜索在涉及视觉任务和自然语言处理（NLP）任务的复杂Transformer搜索空间中实现了有竞争力的性能。此外，T-Razor显著提高了Transformer结构搜索的效率，仅需约0.4 个GPU天数即可实现对优秀Transformer结构的搜索。

具体来说，该论文首先分析了Transformer结构的MSA和MLP模块不同属性之间对评估Transformer结构的影响，MSA模块的多样性和MLP模块的显著性度量之间存在量级差异，导致直接结合二者对Transformer结构的评估会出现不稳定现象。基于这一研究发现，该论文提出在结合MSA模块的多样性和MLP模块的显著性度量之前，引入当前搜索到的所有Transformer结构在这两个度量上的相对关系，成功将原先搜索过程中Transformer结构的相互独立状态转换为相互联系状态，从而实现更准确的Transformer结构评估。为进一步加速在复杂Transformer搜索空间上的搜索效率，论文构建了创新的模块级进化搜索算法，利用DSS++天然的模块化性质，引导Transformer结构在搜索过程中进行交叉和变异。论文通过实验展示了所提出的T-Razor算法的高效性，在多个复杂Transformer搜索空间上仅需约0.4个GPU天数即可实现对优秀Transformer子结构的搜索，在ImageNet上相对目前的SOTA方法最高可以提升1.7个百分点。为进一步评估T-Razor，论文扩展了搜索空间以覆盖视觉和NLP任务。对于视觉任务，论文验证了T-Razor在Shunted-ViT搜索空间上的有效性。对于NLP任务，论文在BERT搜索空间上进行了实验，结果表明T-Razor在GLUE的多个NLP数据集上取得了有竞争力的性能，达到81.2的均分。

该论文由厦门大学信息学院博士生周勤勤与其导师纪荣嵘教授、郑侠武副教授，北京大学陈杰教授和田永鸿教授等合作完成。

原文链接：https://ieeexplore.ieee.org/document/10475573

2．超分网络研究成果——Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization（DOI:10.1109/TPAMI.2024.3378704）

该论文引入了细节增强对比损失，提出了一种解决图像超分辨率中过度平滑问题的新方法。这种方法在现有超分模型中找出了一种称为中心导向优化问题的现象，即专注于优化PSNR的超分辨率模型，倾向于生成潜在高分辨率图像中心而非真实值的图像，进而导致这些模型生成过度平滑的图像。论文从数据的不确定性出发量化了这个问题，发现随着高分辨率数据的不确定性的增加，生成的图像会偏离真实图像分布，而趋于输入低分辨率在潜在高分辨率平面的映射点（也是潜在高分辨率平面中最模糊的点），如下图(b)，当数据不确定性达到系统上界时，与该点完全重合（下图(a)）。目前针对超分的优化方法，大部分都可以看做对中心导向优化问题的隐式求解，该论文提出了一种显示的解决方法，如下图(c)和(d)所示，利用对比学习的聚类特性，直接减小了潜在高分辨率分布的方差，降低潜在高分辨率的不确定性，改善了超分辨率模型的感知质量，并在基准测试上取得了最先进的性能。

具体来说，该论文首先假设基于低分辨率（LR）图像条件下的潜在高分辨率（HR）图像分布，符合单峰高斯分布。其核心目标是通过系统性地增加靠近均值的少数HR像素的概率权重，同时相应地减小其他非典型HR像素的概率，从而达到缩减整体分布方差的目的。这里强调的是，研究关注的并非由特定LR图像直接转换生成的HR图像的实际统计属性，而是探究在给定LR图像约束下，理论上可能存在的HR图像集合的内在概率分布。为实现这一目标，论文巧妙地构建了一种对比学习框架，然而，由于对比学习在像素级别应用时面临的挑战显著，包括指数级增长的计算需求以及正负样本定义的复杂性。论文中的解决方案借鉴了局部特征的思想，将小尺寸补丁视为与单个像素共享相似统计特性，并确保这些补丁的优化过程遵循中心导向的原则。论文随后在多个广泛认可的超分辨率基准上深入探讨并验证了提出的细节增强对比损失函数的有效性，结果表明，在提升以峰值信噪比（PSNR）为主要指标的传统模型的感知质量方面取得了积极成效。更进一步，当将此细节增强对比损失应用于基于生成对抗网络（GAN）的方法架构中，如RaGAN等，其能够在大幅度下采样场景下（例如Urban100数据集4倍下采样任务）取得突破性的成果，表现为仅0.093的 Learned Perceptual Image Patch Similarity（LPIPS）距离以及高达24.51dB的PSNR得分，从而达到了世界领先的水平。

该论文由厦门大学信息学院硕士生许添硕、李漓江与其导师晁飞副教授、郑侠武副教授、纪荣嵘教授，北京大学田永鸿教授、英国工程院院士Qiang Shen教授等合作完成。

原文链接：https://ieeexplore.ieee.org/document/10475558/

科技处首页

部门概况

综合事务

纵向事务

横向事务

科研平台

科技奖励

旧版网站

多媒体可信感知与高效计算教育部重点实验室两项最新研究成果被TPAMI接收

发布时间： 2024-03-28