视觉感知与机器学习团队在国际权威期刊发表3D视觉分析及图像生成最新研究成果

近日,视觉感知与机器学习刘恒教授团队与南京航空航天大学、香港岭南大学等高校研究人员合作,揭示了多尺度多路径随机游走场用于3D点云视觉分析任务的有效性及其机理。相关研究成果发表在多媒体与人工智能领域国际权威期刊《IEEE Transactions on Multimedia》(IF 7.3,中科院一区TOP期刊)。我校为论文第一完成单位,工本口子库漫画郭向林博士、刘恒教授分别为论文的第一作者和第三作者。

(经典子图遍历与二阶随机游走图遍历)

(3D点云表示学习网络框架)

三维点云语义分析是3D视觉场景理解的一个重要研究内容。随着深度学习与图学习技术的发展,一般采用图卷积神经网络来进行。图卷积网络可看作是一类基于消息传递的结构化机器学习算法,由于其一般通过图卷积算子编码汇聚局部子图特征,很难学习到图节点之间的远程语义依赖关系。已有的图学习研究提出利用随机游走进行子图遍历,并尝试将遍历获得的结构曲线用于3D视觉点云表征学习。但由于随机性可能会导致随机游走在非特征区域徘徊,而无法有效获得点云语义特征,特别是在只有少量随机游走的情况下,随机性可能妨碍进行正确的三维场景分析。

(高斯混合模型随机游走图卷积模型)

(室内点云场景语义分割定性比较)

(超参数敏感性分析)

为了解决上述问题,团队首先提出了一种可用于3D点云表示学习的高斯混合模型图卷积神经网络。该网络可利用多尺度二阶随机游走同时捕获点云的远程语义依存关系和局部拓扑子结构。为了表征不同的路径,在特征编码阶段每个顶点的局部感受野由多条多尺度随机游动路径组成,并采用高斯混合模型隐式地表征游走路径的方向。团队首次使用二阶随机游走提取曲线特征,采用Fisher向量编码高斯混合模型参数,在基准数据集上进行了大量的定性及定量比较,并通过消融实验探讨了超参数的敏感性,为基于曲线特征的几何深度学习及3D视觉分析任务提供了新的见解和分析工具。

此外,团队在多媒体智能的另一个热点方向-草图真实照片感图像生成领域取得显著进展,相关研究成果发表在计算机人工智能领域二区TOP期刊《EngineeringApplications of Artificial Intelligence》(IF: 8.0,中科院Engineering &Multidisciplinary小类一区TOP期刊)。我校为论文第一完成单位,刘恒教授为第一作者、通讯作者,硕士生研究生徐尧、陈峰博士分别为第二作者、第三作者。

草图的真实感图像生成一直是多媒体智能的一个挑战性的问题。目前已有草图到图像的合成方法,主要通过构建并训练一个生成性对抗网络(GAN)来实现。但由于GAN结构里的生成器通常是由卷积层构成,卷积的局域性会导致生成器的底层模块缺乏全局特征感知能力,在输入的草图具有不完整或线条轮廓缺失的情况下,容易忽略掉草图的全局上下文线索,并使得最终生成的图像缺乏照片级真实感,甚至出现伪影或畸变。已有一些方法考虑引入了自注意力机制来处理,但由于自注意力是关于特征图尺寸二次复杂的,对于大尺寸草图转换其计算成本非常高。

(Sketch2photo全局上下文与局部特征保持的草图照片级图像生成模型)

(人脸草图真实感图像合成效果图)

(服饰草图真实感图像合成效果图)

为了解决这些问题,团队提出了一种新颖高效的草图图像合成模型-Sketch2Photo。Sketch2Photo能同时挖掘全局上下文信息和局部领域特征,根据非局部长程依赖和局部关系重建出高质量图像,即使从线条微弱或者线条缺失的草图中也能生成照片般逼真的图像。采用快速傅立叶卷积(FFC)残差块在Encoder网络的底层就构建全局和各种尺度局部感受野,快速获得全局和多尺度局部上下文信息,再在Decoder模块通过连续多个反卷积和Swin Transformer block (STB)单元进行多层次多尺度注意力以及全局依赖关系的特征高效重建,从而获得高质量具有真实感的图像合成结果。为了克服以往方法中要求草图和合成结果图像需要严格对齐的问题,提出了一种新的空间注意力映射(ISAP)模块,可以大大降低草图完整性及匹配对齐的要求。基于提出的生成模型,我们在各种草图包括人脸正侧面以及各种服饰草图数据集进行了各种定量和定性的图像合成实验,相应的图像合成效果图以及与其它最新方法的生成效果对比如图所示。图中(h)列子图和ours列子图是我们提出方法的生成结果。

以上研究工作得到国家自然科学基金面上项目、安徽省自然科学基金项目、安徽省高校自然科学研究重点项目以及安徽大学计算智能与信号处理教育部重点实验室开放基金的支持。

论文链接:

https://ieeexplore.ieee.org/document/10309887

https://www.sciencedirect.com/science/article/abs/pii/S095219762200598X

(撰稿:刘恒 郭向林 审核:骆国润 黄俊 吴宣够)