信息学院6篇论文被国际顶级会议CVPR2018录用

发表时间：2018-03-06浏览次数：7729

近日，国际顶级会议CVPR 2018 公布录用结果，厦门大学信息科学与技术学院有6篇论文入选，在国内高校中名列前茅。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的英文缩写，即“国际计算机视觉与模式识别会议”，是由IEEE举办的计算机视觉领域三大顶级国际会议之一，被中国计算机学会（CCF）推荐为计算机学科领域A类国际会议。与其他理工科学科不同，在全国学科评估中，唯有“计算机科学与技术”一级学科将CCF推荐的A类国际会议计入成果评估。CVPR有着严苛的录用标准，论文录用率一般在20%左右。2018年总的投稿量达4000多篇，最终录取了900多篇，录取率不到23%。信息学院纪荣嵘教授团队率先于2015年实现厦门大学CVPR2015论文零的突破， 2015-2018年，信息学院纪荣嵘教授、丁兴号教授、李绍滋教授和李军教授团队先后在CVPR上共计发表论文数分别为2015年3篇、2016年1篇、2017年4篇、2018年6篇，标志着我院“一流学科”的研究成果得到了国际同行的认可。被CVPR2018录用的这6篇论文的相关信息如下：

题目：Camera Style Adaptation for Person Re-identfication

作者：Zhun Zhong, Liang Zheng, Zhedong Zheng, Shaozi Li（通讯作者）, Yi Yang

在多摄像机检索任务中，身份重识别受到由不同摄像机导致的不同风格的图像干扰。之前的解决方法通过隐式地学习一个摄像机无关的描述子空间。该论文显式地引入摄像机风格适应方法。该方法可以看成是一种数据扩充。有标签的训练样本的风格可以被转换到不同摄像机的风格，并和原来的样本形成扩充后的训练集。通过这个方法不但增加了数据集的差异性，也加入了一定的噪声。为了减少噪声，样本平滑正则化被加入学习过程。原始的样本平滑正则化只能在很少的摄像机系统里取得好结果，原因是过拟合。该论文的方法在加入了样本平滑正则化后，实验表明了在所有摄像机系统里都取得了一致的性能改进。该论文提出的方法明显优于现有的其他方法。

钟准，厦门大学智能科学系2015届博士研究生，导师李绍滋教授，已在CVPR2017发表论文1篇。

题目：Generative Adversarial Learning towards Fast Weakly Supervised Detection

作者：Yunhang Shen, Rongrong Ji（通讯作者）, Shengchuan Zhang, Wangmeng Zuo, Yongjian Wu, Yan Wang

该论文提出一种面向快速弱监督目标检测的生成对抗学习算法。近年来弱监督目标检测领域有着大量的工作。在没有人工标注包围盒的情况下，现有的方法大多是多阶段流程，其中包括了候选区域提取阶段。这使得在线测试的速度比快速有监督目标检测（如SSD、YOLO等）慢一个数量级。该论文通过一种新颖的生成对抗学习算法来加速。在这过程中，生成器是一个单阶段的目标检测器，同时算法引入了一个代理器来挖掘高质量的包围盒。最后算法结合了结构相似损失和对抗损失来训练模型。实验结果表明该算法取得了优异的性能。

沈云航，2010-2017年就读于厦门大学智能科学系（本科与硕士），现为该系2017级博士研究生，导师纪荣嵘教授，已以第一作者在IEEE Trans. Neural Network (JCR,一区)、CVPR (CCF-A类)、ACM Multimedia（CCF-A类）发表论文各1篇。

题目：GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints

作者：Fuhai Chen, Rongrong Ji（通讯作者）, Xiaoshuai Sun, Feiyue Huang, Jinsong Su

该论文提出了一种基于组群图像结构化语义关联性分析的图像自动描述方法（GroupCap），对图像间的语义相关性和差异性进行建模。具体而言，该论文首先利用深度卷积神经网络（CNN）提取图像的语义特征并利用提出的视觉解析模型构建语义关联结构树，然后在结构树基础上采用三联损失和分类损失对图像间语义关联性（相关性和差异性）进行建模，最后将关联性作为约束来引导深度循环神经网络生成文本。该方法新颖且有效，很好解决了当前图像自动描述方法对于生成结果精确度不高且判别性不强的缺陷。

陈福海，2010-2016年就读于厦门大学智能科学系（本科与硕士），现为该系2016级博士研究生，导师从纪荣嵘教授。以第一作者已在CVPR（CCF-A类），ACM MM（CCF-A类）和ICME（CCF-B类）上发表会议论文3篇，在IEEE Transactions on Multimedia和Neurocomputing两个JCR二区期刊上各发表论文1篇。

题目：Modulated Convolutional Networks

作者：Xiaodi Wang, Baochang Zhang, Ce Li, Rongrong Ji（通讯作者）, Xianbin Cao等

近年来深而且宽的卷积神经网络（CNN）在众多计算机视觉任务上需要耗费大量的存储空间，这阻碍了模型在有限计算能力设备上的部署。该论文提出一个新的调制卷积神经网络来改进基于二值卷积核的卷积神经网络的便携性。论文在端对端的框架里采用了一种把卷积核损失、中心损失和SoftMax损失结合起来的损失函数。算法首先使用调制卷积核来恢复二值卷积核，然后考虑类内紧凑来逼近卷机操作。在实验中，该模型可以减少32倍的存储空间，而且性能超过其他最先进的二值化模型。最重要的是，该方法取得了和全精度模型Resnets、WideResnet相似的性能。该论文的代码会很快开源。

该论文为北京航空航天大学王晓迪在厦门大学纪荣嵘教授研究组访问期间完成的工作。

题目：GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition

作者：Yifan Feng, Zizhao Zhang, Xibin Zhao, Rongrong Ji, Yue Gao

3D形状的识别近几年颇受关注，采用多视图卷积神经网络（MVCNN）已取得了目前最好的结果。然而使用深层特征的框架受到视图->特征的模式约束，尚未充分利用视图间的层次关系。本文提出GVCNN包含单一视图->组视图->特征的架构，采用层级关系模型获取可辨别的形状描述符。然后用一个分组模块计算每个视图的可辨别度分数，再根据分数将每个视图分组，最终根据每个组的权重将组级别特征融合成形状级别的特征。对比实验表明我们提出的GVCNN在3D识别和检索两方面均显著优于现有的方法。

丰一帆，厦门大学智能科学系2017级年硕士研究生，导师纪荣嵘教授。

题目：LiDAR-Video Driving Dataset: Learning Driving Policies Effectively

作者：Yiping Chen, Jingkang Wang, Jonathan Li（通信作者）, Cewu Lu（通信作者）, Zhipeng Luo, Han Xue, Cheng Wang

学习自动驾驶策略是计算机视觉中最具挑战的课题之一。现有的研究表明，未来自动驾驶的研究和应用应该结合照相机、行车记录仪和激光雷达从语义上全面理解现实中的交通环境。然而，目前的方法限于通过大规模视频数据学习而缺少实验基准。该论文首次提出使用“激光雷达-视频”数据集，采用激光雷达获取大规模点云数据，并通过仪表板摄像机来记录视频图像以及标准的驾驶行为。大量的实验表明，使用附加的深度信息可以帮助神经网络决定驾驶策略。该论文的所有数据、代码和模型都将在论文发表后公开。

陈一平博士, 2011年毕业于国防科技大学, 现为厦门大学信息学院福建省智慧城市感知与计算重点实验室博士后，第一通讯作者为该实验室主任李军教授。罗智鹏为信息学院通信工程系2016级博士研究生，导师为李军教授。

（信息科学与技术学院）