0

0

字节复旦团队创新的「元提示」策略提升了扩散模型图像理解的性能,达到了前所未有的水平!

王林

王林

发布时间:2024-01-17 12:48:13

|

800人浏览过

|

来源于51CTO.COM

转载

Text-to-image(T2I)扩散模型在生成高清晰度图像方面表现卓越,这要归功于其在大规模图像-文本对上的预训练。

这引发了一个自然的问题:扩散模型是否可以用于解决视觉感知任务? 

最近,字节跳动和复旦大学的团队提出了扩散模型来处理视觉任务。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

论文地址:https://arxiv.org/abs/2312.14733

开源项目:https://github.com/fudan-zvg/meta-prompts

Khroma
Khroma

AI调色盘生成工具

下载

团队的关键洞察是将可学习的元提示引入预训练的扩散模型中,以提取适用于特定感知任务的特征。

技术介绍 

团队将text-to-image扩散模型作为特征提取器应用于视觉感知任务中。

首先,输入图像经过VQVAE编码器压缩,分辨率降低为原大小的1/8,生成latent space特征表示。值得注意的是,VQVAE编码器参数固定,不参与后续训练。

下一步,将未添加噪声的数据送入UNet进行特征提取。为了更好地适应不同任务,UNet同时接收调制的时间步嵌入和多个元提示,以生成与形状一致的特征。

在整个过程中,为了增强特征表达,该方法进行了步的recurrent refinement。这使得UNet内不同层的特征能够更好地交互融合。在第次循环中,UNet的参数由特定的可学习的时间调制特征调节。 

最终,UNet生成的多尺度特征输入到专门为目标视觉任务设计的解码器中。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

可学习的元提示(meta prompts)设计 

Stable diffusion model采用UNet架构,通过交叉注意力将文本提示融入图像特征中,实现了文生图。这种整合确保了图像生成在语境和语义上的准确性。

然而,视觉感知任务的多样性超出了这一范畴,因为图像理解面临着不同的挑战,往往缺乏文本信息作为指导,使得以文本驱动的方法有时显得不切实际。 

为应对这一挑战,技术团队的方法采用了更为多样的策略——不依赖外部文本提示,而是设计了一种内部的可学习元提示,称为meta prompts,这些meta prompts被集成到扩散模型中,以适应感知任务。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

Meta prompts以矩阵 的形式表示,其中表示meta prompts的数量,表示维度。具备meta prompts的感知扩散模型避免了对外部文本提示的需求,如数据集类别标签或图像标题,也无需预训练的文本编码器来生成最终的文本提示。 

Meta prompts可以根据目标任务和数据集进行端到端的训练,从而为去噪UNet建立特别定制的适应条件。这些meta prompts包含丰富的、适应于特定任务的语义信息。比如:

- 在语义分割任务中,meta prompts有效地展示了对类别的识别能力,相同的meta prompts倾向于激活同一类别的特征。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

- 在深度估计任务中,meta prompts表现出对深度的感知能力,激活值随深度变化,使prompts能够集中关注一致距离的物体。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

- 在姿态估计中,meta prompts展现出一套不同的能力,特别是关键点的感知,这有助于人体姿态检测。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

这些定性结果共同突显了技术团队提出的meta prompts在各种任务中对任务相关激活能力的有效性。

作为文本提示的替代品,meta prompts很好地填补了了text-to-image扩散模型与视觉感知任务之间的沟壑。

基于元提示的特征重组 

扩散模型通过其固有的设计,在去噪UNet中生成多尺度特征,这些特征在接近输出层时聚焦于更细致、低级的细节信息。

虽然这种低级细节对于强调纹理和细粒度的任务来说足够,但视觉感知任务通常需要理解既包括低级细节的又包括高级语义解释的内容。

因此,不仅需要生成丰富的特征,确定这些多尺度特征的哪种组合方式可以为当前任务提供最佳表征也非常重要。 

这就是meta prompts的作用所在——

这些prompts在训练过程中保存了与所使用数据集特定相关的上下文知识。这种上下文知识使meta prompts能够充当特征重组的过滤器,引导特征选取过程,从UNet产生的众多特征中筛选出与任务最相关的特征。 

团队使用点积的方式将UNet的多尺度特征的丰富性与meta prompts的任务适应性结合起来。 

考虑多尺度特征,其中每个。和表示特征图的高度和宽度。Meta prompts 。每个尺度上重排的特征的计算为: 

最后,这些经过meta prompts过滤的特征随后输入到特定任务的解码器中。 

基于可学习的时间调制特征的recurrent refinement 

在扩散模型中,添加噪声然后多步去噪的迭代过程构成了图像生成的框架。

受此机制的启发,技术团队为视觉感知任务设计了一个简单的recurrent refinement过程——没有向输出特征中添加噪声,而是直接将UNet的输出特征循环输入到UNet中。

同时为了解决随着模型通过循环,输入特征的分布会发生变化但UNet的参数保持不变的不一致的问题,技术团队对于每个循环引入了可学习的独特的timestep embeddings,以调制UNet的参数。

这确保了网络对于不同步骤中输入特征的变化性保持适应性和响应性,优化了特征提取过程,并增强了模型在视觉识别任务中的性能。 

结果显示,该方法在多个感知任务数据集上都取得了最优。

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略

应用落地和展望 

该文章提出的方法和技术有广泛的应用前景,可以在多个领域内推动技术的发展和创新:

  1. 视觉感知任务的改进:该研究能够提升各种视觉感知任务的性能,如图像分割、深度估计和姿态估计。这些改进可应用于自动驾驶、医学影像分析、机器人视觉系统等领域。 
  2. 增强的计算机视觉模型:所提出的技术可以使计算机视觉模型在处理复杂场景时更加准确和高效,特别是在缺乏明确文本描述的情况下。这对于图像内容理解等应用尤为重要。 
  3. 跨领域应用:该研究的方法和发现可以激励跨领域的研究和应用,比如在艺术创作、虚拟现实、增强现实中,用于提高图像和视频的质量和互动性。 
  4. 长期展望:随着技术的进步,这些方法可能会进一步完善,带来更先进的图像生成和内容理解技术。 

团队介绍

智能创作团队是字节跳动AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。 

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中,欢迎点击「阅读原文」查看。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4359

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

502

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2927

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

48

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

88

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

270

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号