0

0

简化文生图prompt,LLM模型生成高质量图像

WBOY

WBOY

发布时间:2023-09-13 09:25:01

|

1065人浏览过

|

来源于51CTO.COM

转载

扩散模型已经成为主流的文本到图像生成模型,它可以通过文本提示来引导生成高质量且内容丰富的图像

如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,这将导致生成的图像质量明显下降

中山大学HCP实验室的林倞团队提出了一种名为SUR-adapter的简单而有效的微调方法,旨在提高模型对叙述性提示的理解能力。该方法是一种语义理解和推理适配器,适用于预训练的扩散模型,并具有参数高效的特点

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

简化文生图prompt,LLM模型生成高质量图像

请点击以下链接查看论文:https://arxiv.org/abs/2305.05189

开源地址:https://github.com/Qrange-group/SUR-adapter

为了达到这个目标,研究人员首先收集并标注了一个名为SURD的数据集。这个数据集包含了超过5.7万个多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示以及一张高质量的图像

研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。然后,他们将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成

简化文生图prompt,LLM模型生成高质量图像

我们通过集成多个LLM和预训练扩散模型进行实验,发现该方法能够有效地使扩散模型理解和推理简洁的自然语言描述,同时不会降低图像质量

这种方法可以使得文本到图像的扩散模型更易于使用,提供更好的用户体验,进一步推动用户友好的文本到图像生成模型的发展,并弥补简单叙事提示和基于关键字提示之间的语义差距

背景介绍

目前,以稳定扩散为代表的文本到图像预训练模型已经成为人工智能生成内容领域最重要的基础模型之一,在图像编辑、视频生成、3D对象生成等任务中起着重要作用

目前,这些预训练的扩散模型的语义能力主要取决于文本编码器(如CLIP),其语义理解能力直接影响到扩散模型的生成效果

本文首先通过构造视觉问答任务(VQA)中常见的问题类别,如"计数"、"颜色"和"动作",来测试Stable diffusion的图文匹配准确度。我们将人工统计并进行测试

以下是构造各种提示的示例,详见下表

简化文生图prompt,LLM模型生成高质量图像

根据下表所示的结果,文章揭示了目前的文生图预训练扩散模型存在严重的语义理解问题。大量问题的图文匹配准确度不足50%,甚至在某些问题下,准确度仅为0%

简化文生图prompt,LLM模型生成高质量图像

为了获得符合文本生成条件的图像,我们需要找到方法来增强预训练扩散模型中本文编码器的语义能力

方法概述

重写后的内容:1. 数据预处理

首先,我们可以从常用的扩散模型在线网站lexica.art、civitai.com和stablediffusionweb中获取大量的图片文本对。然后,我们需要对这些数据进行清洗和筛选,以获得超过57000张高质量的三元组数据(包括复杂提示、简单提示和图片),并将其构成SURD数据集

简化文生图prompt,LLM模型生成高质量图像

在下图中所示,复杂提示是指生成图像时扩散模型所需的文本提示条件,通常这些提示具有复杂的格式和描述。简单提示是通过BLIP对图像生成的文本描述,它采用符合人类描述的语言格式

一般来说,符合正常人类语言描述的简单提示很难让扩散模型生成足够符合语义的图像,而复杂提示(用户戏称为扩散模型的“咒语”)则可以达到令人满意的效果

需要进行重新编写的内容是:2. 大型语言模型的语义蒸馏

本文介绍了一种使用Transformer结构的Adapter来蒸馏大型语言模型在特定隐藏层中的语义特征的方法,并通过将Adapter引导的大型语言模型信息与原始文本编码器输出的语义特征进行线性组合,得到最终的语义特征

大语言模型选用的是不同大小的LLaMA模型,而扩散模型的UNet部分在整个训练过程中的参数都是冻结的

简化文生图prompt,LLM模型生成高质量图像

需要进行重写的内容是:3. 图像质量恢复

为了保持原意不变,需要将内容改写为中文: 由于本文结构在预训练大模型推理过程引入了可学习模块,一定程度破坏了预训练模型的原图生成质量,因此需要将图像生成的质量拉回原预训练模型的生成质量水平

简化文生图prompt,LLM模型生成高质量图像

本文使用SURD数据集中的三元组,在训练过程中引入了相应的质量损失函数,以恢复图像生成的质量。具体而言,本文希望通过新模块后获得的语义特征能够与复杂提示的语义特征尽可能地对齐

下图展示了SUR-adapter对预训练扩散模型的fine-tuning框架。右侧为Adapter的网络结构

简化文生图prompt,LLM模型生成高质量图像

实验结果

对于SUR-adapter的性能,本文从语义匹配和图像质量两个方面进行了分析

一方面,根据下表显示,SUR-adapter能够有效地解决文生图扩散模型中常见的语义不匹配问题,适用于不同的实验设置。在不同类别的语义准则下,准确度也有一定的提升

另一方面,本文利用常用的BRISQUE等常用的图像质量评价指标下,对原始pretrain扩散模型和使用了SUR-adapter后的扩散模型所生成图片的质量进行统计检验,我们可以发现两者没有显著的差异。

我们还进行了一项人类偏好的调查问卷测试

通过以上分析,可以得出结论,所提出的方法能够在保持图像生成质量的同时,缓解预训练文本到图像的固有图文不匹配问题

简化文生图prompt,LLM模型生成高质量图像

简化文生图prompt,LLM模型生成高质量图像

我们还可以通过以下图像生成的示例来定性展示,更详细的分析和细节请参阅本文和开源仓库

需要进行改写的内容是:

简化文生图prompt,LLM模型生成高质量图像

简化文生图prompt,LLM模型生成高质量图像

HCP实验室简介

林倞教授于2010年创办了中山大学人机物智能融合实验室(HCP Lab)。近年来,该实验室在多模态内容理解、因果及认知推理、具身智能等领域取得了丰富的学术成果。实验室多次荣获国内外科技奖项和最佳论文奖,并致力于开发产品级的人工智能技术和平台

EasySitePM Enterprise 企业网站管理系统3.5.10.0413 UTF8
EasySitePM Enterprise 企业网站管理系统3.5.10.0413 UTF8

EasySitePM Enterprise3.5系统是一款适用于不同类型企业使用的网站管理平于,它具有多语言、繁简从内核转换、SEO搜索优化、图片自定生成、用户自定界面、可视化订单管理系统、可视化邮件设置、模板管理、数据缓存+图片缓存+文件缓存三重提高访问速度、百万级数据快速读取测试、基于PHP+MYSQL系统开发,功能包括:产品管理、文章管理、订单处理、单页信息、会员管理、留言管理、论坛、模板管

下载

相关专题

更多
人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

410

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

301

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1976

2024.08.16

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

9

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

21

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

13

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

33

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号