0

0

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

星夢妙者

星夢妙者

发布时间:2025-01-08 15:05:57

|

471人浏览过

|

来源于php中文网

原创

ViG:高效且可扩展的视觉骨干网络

论文链接: https://www.php.cn/link/38f6986c14cd82ea09ac933d4abebea6

成果: 本工作已被AAAI 2025收录。

Vision Mamba的成功证明了将视觉表征学习转化为线性复杂度视觉序列建模的巨大潜力。然而,即使像Vision Mamba这样的线性视觉序列建模方法在高清图像上效率显著提升,但在更常见的分辨率下,其性能仍略逊于Transformer和CNN。

为了进一步提升线性复杂度视觉序列建模的效率,我们针对现代计算设备的硬件特性,设计了一种新型模型——ViG。ViG将自然语言处理中高效的门控线性注意力模块(Gated Linear Attention, GLA)引入视觉表征学习,并结合参数高效的双向建模、长短上下文动态门控机制以及硬件感知的双向算子设计。最终,ViG在各种视觉任务上,在精度、参数量和效率方面均超越了主流的Transformer和CNN模型。

技术背景

Transformer的自注意力(Self-Attention, SA)机制需要处理所有历史输入之间的交互,导致计算复杂度随输入序列长度呈二次方增长:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

线性注意力(Linear Attention, LA)机制通过将softmax算子替换为简单的矩阵乘法,利用矩阵乘法的结合律,预先计算KV,从而将计算复杂度降低为线性:

线性门控注意力(Gated Linear Attention, GLA)机制进一步引入门控机制,控制对历史信息的遗忘和更新,提升了线性注意力机制的表达能力:

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

方法概述

双向门控注意力机制 (BiGLA):

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

图片作为二维信号,在一维序列表示上具有多向特性。我们改进GLA,仅引入双向门控机制更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络,显著提升了对视觉信号的空间表达能力。BiGLA算子将前向和反向视觉序列压缩到固定大小的隐状态更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

硬件感知的双向算子设计:

为了进一步提升效率,我们设计了一个硬件感知的双向实现,将BiGLA的前向和反向扫描合并到一个Triton算子中。这种设计避免了反向序列的实例化,只需维护单向视觉序列即可进行多向扫描和融合,显著降低了显存占用并提升了硬件运行速度。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

ArrowMancer
ArrowMancer

手机上的宇宙动作RPG,游戏角色和元素均为AI生成

下载

长短上下文动态门控机制:

BiGLA算子中的双向隐状态更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络进行长上下文全局压缩。为了增强对图像二维空间细节的感知,我们引入了短上下文卷积门控设计:

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

模型结构:

基于上述ViG模块,我们构建了两种结构变体:类似Vision Transformer的简单直筒结构ViG和类似CNN的层次化金字塔结构ViG-H。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

实验结果

实验结果表明,ViG和ViG-H在参数量和精度的权衡上优于先进的Transformer和CNN模型。ViG基础模块同时具备全局感受野和线性复杂度,这是传统CNN、基于原始注意力机制的Transformer和基于窗口化注意力机制的Transformer无法实现的。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

在高分辨率图像(1024x1024)上,ViG展现出显著的优势:计算量降低5.2倍,GPU显存节省90%,速度提升3.8倍,精度提升20.7%。

更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络更快、更强!地平线ViG,基于视觉Mamba的通用视觉主干网络

双向设计仅增加了2%的参数量,却带来了11.1%的精度提升;硬件感知实现减少了19%的推理代价和13%的显存占用。

总结与展望

ViG在高效视觉序列建模领域具有重要创新性和应用价值。通过BiGLA和二维门控局部注入机制,ViG有效结合了全局感知能力和局部细节捕获,实现了高效且准确的视觉表征学习。ViG在图像分类、目标检测和语义分割等任务中表现出色,尤其在高分辨率场景下,其性能和资源利用效率显著提升。 其硬件感知优化设计降低了内存占用和计算成本,为高清视觉信号处理和多模态序列建模提供了强有力的技术支撑。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2021

2024.08.16

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

11

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

4

2026.01.21

无人机驾驶证报考 uom民用无人机综合管理平台官网
无人机驾驶证报考 uom民用无人机综合管理平台官网

无人机驾驶证(CAAC执照)报考需年满16周岁,初中以上学历,身体健康(矫正视力1.0以上,无严重疾病),且无犯罪记录。个人需通过民航局授权的训练机构报名,经理论(法规、原理)、模拟飞行、实操(GPS/姿态模式)及地面站训练后考试合格,通常15-25天拿证。

16

2026.01.21

Python多线程合集
Python多线程合集

本专题整合了Python多线程相关教程,阅读专题下面的文章了解更多详细内容。

1

2026.01.21

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

windows激活码分享 windows一键激活教程指南
windows激活码分享 windows一键激活教程指南

Windows 10/11一键激活可以通过PowerShell脚本或KMS工具实现永久或长期激活。最推荐的简便方法是打开PowerShell(管理员),运行 irm https://get.activated.win | iex 脚本,按提示选择数字激活(选项1)。其他方法包括使用HEU KMS Activator工具进行智能激活。

2

2026.01.21

excel表格操作技巧大全 表格制作excel教程
excel表格操作技巧大全 表格制作excel教程

Excel表格操作的核心技巧在于 熟练使用快捷键、数据处理函数及视图工具,如Ctrl+C/V(复制粘贴)、Alt+=(自动求和)、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率,实现快速录入、查找、筛选和汇总。

6

2026.01.21

毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm
毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm

毒蘑菇VOLUMESHADER_BM测试网站网址为https://toolwa.com/vsbm/,该平台基于WebGL技术通过渲染高复杂度三维分形图形评估设备图形处理能力,用户可通过拖动彩色物体观察画面流畅度判断GPU与CPU协同性能;测试兼容多种设备,但中低端手机易卡顿或崩溃,高端机型可能因发热降频影响表现,桌面端需启用独立显卡并使用支持WebGL的主流浏览器以确保准确结果

23

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号