0

0

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

看不見的法師

看不見的法師

发布时间:2025-07-24 12:04:02

|

474人浏览过

|

来源于php中文网

原创

本文第一作者为美国东北大学博士生沈轩,研究方向为高效人工智能,专注于在 gpu、移动端、fpga 与 asic 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏,其研究聚焦于计算机体系结构与 ai 系统的高效化设计。

在高质量视频生成任务中,扩散模型已成为主流技术。然而,随着视频时长和分辨率的提升,Diffusion Transformer(DiT)中的注意力机制计算量急剧上升,成为推理效率的核心瓶颈。这是因为 DiT 通常采用 3D 全局注意力来建模时空一致性,虽然效果显著,但其计算复杂度随 token 数量呈平方增长,带来巨大开销。以 HunyuanVideo 为例,注意力模块耗时占比超过 80%,仅生成 8 秒 720p 视频就需近一小时。因此,提升视频生成模型的速度迫在眉睫。

当前主流加速方法如 Sparse VideoGen(https://www.php.cn/link/982e5bfb1002e50e4c0cb2d3d144b55a AdaSpa(https://www.php.cn/link/60f24162e3a72b51963ce5956bda2ab4 GPU 上取得一定端到端加速效果。但受限于稀疏度不足及固定稀疏模式,这些方法难以实现内容感知的细粒度调控,缺乏对输入动态变化的适应能力。因此,亟需一种无需训练、硬件友好且具备动态调节能力的稀疏注意力机制,以推动视频扩散模型的实际应用。

近期,来自美国东北大学、香港中文大学及 Adobe Research 的联合团队提出了一种即插即用、无需训练的动态稀疏注意力加速方案——DraftAttention。该方法大幅降低注意力计算负担,在几乎不牺牲生成质量的前提下,实现高达 2 倍的 GPU 端到端推理加速。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
论文标题:DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
arXiv 地址:https://www.php.cn/link/bb9cad607e756782441e479ff3d13c8a
GitHub 主页:https://www.php.cn/link/2f1f0bdbb82e8f2a7ab031d8f2a13ee1

背景挑战

视频生成中,注意力模块是推理效率的主要瓶颈。如图所示(Figure 1),在 HunyuanVideo 中,当视频时长从 8 秒增至 32 秒,注意力计算量(FLOPs)占比迅速攀升至 90%以上,尤其在高分辨率下更为突出。根本原因在于:视频模型普遍使用时空全局注意力,其复杂度随 token 数量平方增长,而 token 数量又正比于帧数与空间分辨率——一旦提升清晰度或长度,计算量呈指数级上升,严重拖慢推理速度,难以满足部署需求。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
因此,引入稀疏注意力是有效路径。但现有方法多采用固定稀疏模式,无法根据文本提示、视频语义或扩散过程中的中间状态灵活调整,导致高稀疏率下质量明显下降。为此,设计一种能自适应输入语义与扩散步长的“动态稀疏”机制,成为维持生成质量的关键。

问题建模

视频生成常借助 3D VAE(变分自编码器)将原始视频压缩至隐藏空间(latent space),大幅减少 token 数量,同时保留核心结构信息。该空间具有三维形态(T×H×W),其中 T 表示压缩后帧数,H 和 W 对应空间维度。我们进一步观察到隐藏空间存在显著时空冗余:并非所有 latent token 都同等重要。基于此,本文提出关键思路——跳过低重要性 token 的注意力计算,在减少冗余的同时保留关键特征,从而实现高效加速且不损质量。

方法概览

为此,研究团队提出 DraftAttention:一种无需训练、动态可调、硬件友好的稀疏注意力机制。其核心思想为:

利用低分辨率“草图注意力图”快速估计 token 重要性,并据此指导高分辨率注意力的稀疏模式选择。

具体流程如下:

  1. 草图构建:对隐藏特征图进行空间下采样(如 8×8 平均池化),生成低分辨率 Query 与 Key;
  2. 草图注意力计算:基于下采样后的 Q/K 计算 Draft Attention Map,识别最具信息量区域;
  3. 稀疏模式引导:从草图中选取得分最高区域,生成结构化稀疏 Mask,用于指导高分辨率注意力;

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

  1. Token 重排优化硬件执行:为使稀疏区域连续分布、契合 GPU memory layout,提出 token 重排策略,显著提升稀疏计算效率;

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

  1. 即插即用、无需训练:该机制可无缝集成至现有视频扩散模型(如 HunyuanVideo、Wan2.1),无需额外训练或微调。

这一设计既从计算图层面削减冗余,也从系统执行角度增强稀疏算子的硬件亲和力,实现速度与质量双赢。

值得一提的是,DraftAttention 并非经验启发式方法,而是建立在坚实的理论基础之上。我们从两个维度证明其有效性:

快剪辑
快剪辑

国内⼀体化视频⽣产平台

下载
  1. 近似误差可控:平均池化构建的 Draft Attention Map 与原图之间的 Frobenius 范数差异有界,且随 token 空间连续性增强而减小;
  2. 稀疏掩码误差有界:由草图提取的稀疏注意力模式引入的计算偏差同样可被严格限定在可控范围内。

两项理论结果共同表明:草图注意力在提供高质量稀疏引导的同时,不会破坏原始注意力机制的表达能力,为 DraftAttention 的实际表现提供有力支撑。

实验结果

我们在 HunyuanVideo 与 Wan2.1 等主流视频生成模型上全面评估 DraftAttention,重点关注生成质量与推理加速两方面。

对比代表性稀疏方法 Sparse VideoGen (SVG),在相同计算量下 DraftAttention 显著更优:

  • PSNR ↑:高分辨率下提升约 +2~+3 分;
  • SSIM ↑:结构一致性更强,视频更稳定;
  • LPIPS ↓:感知相似度更高,视觉更贴近真实;
  • VBench 多项指标(图像质量、主体一致性、背景连续性等)全面优于 SVG。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

尤其在高稀疏率(75%~90%)下,DraftAttention 能更好保持时空一致性与关键结构,而 SVG 等静态方法常出现模糊、断帧等问题。

在 NVIDIA H100 与 A100 GPU 上测试端到端加速效果:

  • 最高实现 1.75× 推理加速
  • 加速比随视频长度、分辨率与稀疏率同步提升,扩展性强;
  • 得益于 token 重排策略,稀疏注意力更具硬件友好性,执行效率显著提高。

无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

此外,我们提供多个 prompt 下的生成结果对比:

Prompt: "The banks of the Thames, as the camera moves vertically from low to high."

![无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention](/uploads/202

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6087

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

804

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1061

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1225

2024.03.01

golang map内存释放
golang map内存释放

本专题整合了golang map内存相关教程,阅读专题下面的文章了解更多相关内容。

75

2025.09.05

golang map相关教程
golang map相关教程

本专题整合了golang map相关教程,阅读专题下面的文章了解更多详细内容。

32

2025.11.16

golang map原理
golang map原理

本专题整合了golang map相关内容,阅读专题下面的文章了解更多详细内容。

59

2025.11.17

java判断map相关教程
java判断map相关教程

本专题整合了java判断map相关教程,阅读专题下面的文章了解更多详细内容。

36

2025.11.27

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

3

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
ASP 教程
ASP 教程

共34课时 | 3.6万人学习

麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.1万人学习

550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号