0

0

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

WBOY

WBOY

发布时间:2024-09-09 15:31:15

|

1138人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

tpami 2024 | 计算机视觉中基于图神经网络和图transformers的方法和最新进展

AIxiv专栏 是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏 接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇综述工作已被《IEEE 模式分析与机器智能汇刊》(IEEE TPAMI)接收,作者来自三个团队:香港大学俞益洲教授与博士生陈超奇、周洪宇,香港中文大学(深圳)韩晓光教授与博士生吴毓双、许牧天,上海科技大学杨思蓓教授与硕士生戴启元。近年来,由于在图表示学习(graph representation learning)和非网格数据(non-grid data)上的性能优势,基于图神经网络(Graph Neural Networks,GNN)的方法被广泛应用于不同问题并且显著推动了相关领域的进步,包括但不限于数据挖掘(例如,社交网络分析、推荐系统开发)、计算机视觉(例如,目标检测、点云处理)和自然语言处理(例如,关系提取、序列学习)。考虑到图神经网络已经取得了丰硕的成果,一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展,以及从现有论文中总结经验和产生新的想法。可惜的是,我们发现由于图神经网络在计算机视觉中应用非常广泛,现有的综述文章往往在全面性或者时效性上存在不足,因此无法很好的帮助科研人员入门和熟悉相关领域的经典方法和最新进展。同时,如何合理地组织和呈现相关的方法和应用是一个不小的挑战。

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

论文标题:
  1. A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

论文地址:

  • https://arxiv.org/abs/2209.13232(预印版)
  • https://ieeexplore.ieee.org/document/10638815(IEEE 版)

简介:

尽管基于卷积神经网络(CNN)的方法在处理图像等规则网格上定义的输入数据方面表现出色,研究人员逐渐意识到具有不规则拓扑的视觉信息对于表示学习至关重要,但尚未得到彻底研究。与具有内在连接和节点概念的自然图数据(如社交网络)相比,从规则网格数据构建图缺乏统一的原则且严重依赖于特定的领域知识。另一方面,某些视觉数据格式(例如点云和网格)并非在笛卡尔网格上定义的,并且涉及复杂的关系信息。因此,规则和不规则的视觉数据格式都将受益于拓扑结构和关系的探索,特别是对于具有挑战性的任务,例如理解复杂场景、从有限的经验中学习以及跨领域进行知识传递。

计算机视觉中的图神经网络:

在计算机视觉领域,目前许多与 GNN 相关的研究都有以下两个目标之一:

  1. GNN 和 CNN 主干的混合
  2. 用于表示学习的纯 GNN 架构

本综述的结构:

塔猫ChatPPT
塔猫ChatPPT

塔猫官网提供AI一键生成 PPT的智能工具,帮助您快速制作出专业的PPT。塔猫ChatPPT让您的PPT制作更加简单高效。

下载

本综述以任务为导向对计算机视觉中基于图神经网络(包括图 Transformers)的方法和最新进展进行了全面且详细的调研。具体来说,我们根据输入数据的模态将图神经网络在计算机视觉中的应用大致划分为五类:

  • 自然图像(二维)
  • 视频
  • 视觉 + 语言
  • 三维数据(例如,点云)
  • 医学影像

结论:

本综述系统性地总结了基于图神经网络的计算机视觉方法的统一数学表达,阐明了我们组织这些文章的逻辑关系,突出了该领域的关键挑战,展示了图神经网络在应对这些挑战的独特优势,并讨论了它的局限和未来发展路线。

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

                               图神经网络发展史GNN 最初以循环 GNN 的形式发展,用于从有向无环图中提取节点表示。随着研究的发展,GNN 逐渐扩展到更多类型的图结构,如循环图和无向图。受到深度学习中 CNN 的启发,研究人员开发了将卷积概念推广到图域的方法,主要包括基于频域的方法和基于空域的方法。频域方法依赖于图的拉普拉斯谱来定义图卷积,而空域方法则通过聚合节点邻居的信息来实现图卷积。这些方法为处理复杂的图结构和不规则拓扑提供了有效的工具,极大地推动了 GNN 在多个领域,尤其是计算机视觉中的应用和发展。

TPAMI 2024 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

具体来说,我们详尽地调查了如下这些任务:
  1. 基于二维自然图像的视觉任务,包括图像分类(多标签、少量镜头、零镜头、迁移学习)、物体检测、语义分割和场景图生成。
  2. 基于视频的视觉任务,包括视频动作识别、时序动作定位、多目标跟踪、人体运动预测和轨迹预测。
  3. 视觉 + 语言方向的任务,包括视觉问答、视觉定位、图像字幕、图像-文本匹配和视觉-语言导航。
  4. 基于三维数据的视觉任务,包括三维表示学习(点云、网格)、三维理解(点云分割、三维物体检测、三维视觉定位)和三维生成(点云完成、三维数据去噪、三维重建)。
  5. 基于医学影像的任务,包括脑活动调查、疾病诊断(脑部疾病、胸部疾病)、解剖分割(脑表面、血管等)。

总结来说,尽管在感知领域取得了突破性的进展,如何赋予深度学习模型推理能力仍然是现代计算机视觉系统面临的巨大挑战。在这方面,图神经网络和图 Transformers 在处理“关系”任务方面表现出了显著的灵活性和优越性。为此,我们从面向任务的角度首次对计算机视觉中的图神经网络和图 Transformers 进行了全面的综述。各种经典和最新的算法根据输入数据的模态(如图像、视频和点云)分为五类。通过系统地整理每个任务的方法,我们希望本综述能够为未来的更多进展提供启示。通过讨论关键的创新、局限性和潜在的研究方向,我们希望读者能够获得新的见解,并朝着类似人类的视觉理解迈进一步。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

404

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2026

2024.08.16

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

56

2026.01.21

三角洲入口地址合集
三角洲入口地址合集

本专题整合了三角洲入口地址合集,阅读专题下面的文章了解更多详细内容。

50

2026.01.21

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

396

2026.01.21

妖精漫画入口地址合集
妖精漫画入口地址合集

本专题整合了妖精漫画入口地址合集,阅读专题下面的文章了解更多详细内容。

118

2026.01.21

java版本选择建议
java版本选择建议

本专题整合了java版本相关合集,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号