0

0

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

PHPz

PHPz

发布时间:2024-02-24 12:37:26

|

1523人浏览过

|

来源于51CTO.COM

转载

模型|https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

论文|https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


1、闪电般的图片生成

生成式 AI 正凭借其根据文本提示(text prompts)创造出惊艳图像乃至视频的能力,赢得全球的瞩目。当前最先进的生成模型依赖于扩散过程(diffusion),这是一个将噪声逐步转化为图像样本的迭代过程。这个过程需要耗费巨大的计算资源并且速度较慢,在生成高质量图像样本的过程中,单张图像的处理时间约为 5 秒,其中通常需要多次(20 到 40 次)调用庞大的神经网络。这样的速度限制了有快速、实时生成需求的应用场景。如何在提升生成质量的同时加快速度,是当前研究的热点领域,也是我们工作的核心目标。

SDXL-Lightning 通过一种创新技术——渐进式对抗蒸馏(Progressive Adversarial Distillation)——突破了这一障碍,实现了前所未有的生成速度。该模型能够在短短 2 步或 4 步内生成极高质量和分辨率的图像,将计算成本和时间降低十倍。我们的方法甚至可以在 1 步内为超时敏感的应用生成图像,虽然可能会稍微牺牲一些质量。

SDXL-Lightning 不仅具有速度优势,而且在图像质量方面表现出色,在评估中超越了先前的加速技术。它能够实现更高的分辨率和更丰富的细节,同时保持良好的多样性和图文匹配度。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

速度对比示意

原始模型(20 步),SDXL-Lightning 模型(2 步)


2、模型效果

SDXL-Lightning 模型可以通过 1 步、2 步、4 步和 8 步来生成图像。推理步骤越多,图像质量越好。

以下是 4 步生成结果——


1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A girl smiling 

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A pickup truck going up a mountain switchback

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A fish on a bicycle, colorful art

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A close-up of an Asian lady with sunglasses

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A beautiful cup

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Mona Lisa, sketch

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A panda swimming

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A pickup truck going up a mountain switchback

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

House in the desert, surreal landscapes

以下是 2 步生成结果——

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Furniture design for a living room

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A cinematic shot of a baby raccoon wearing an intricate Italian priest robe

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A dog with soft fur and bright eyes jumping after a toy, in a cozy living room

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A tea cup containing clouds

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A family, medium shot

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Baby playing with toys in the snow

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

An old man and a dog are walking in the park

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

Dragon driving a car

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

A monkey making latte art

与以前的方法(Turbo 和 LCM)相比,我们的方法生成的图像在细节上有显著改进,并且更忠实于原始生成模型的风格和布局。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


3、回馈社区,开放模型

开源开放的浪潮已经成为推动人工智能迅猛发展的关键力量,字节跳动也自豪地成为这股浪潮的一部分。我们的模型基于目前最流行的文字生成图像开放模型 SDXL,该模型已经拥有一个繁荣的生态系统。现在,我们决定将 SDXL-Lightning 开放给全球的开发者、研究人员和创意从业者,以便他们能访问并运用这一模型,进一步推动整个行业的创新和协作。

在设计 SDXL-Lightning 时,我们就考虑到与开放模型社区的兼容。社区中已有众多艺术家和开发者创建了各种各样的风格化图像生成模型,例如卡通和动漫风格等。为了支持这些模型,我们提供 SDXL-Lightning 作为一个增速插件,它可以无缝地整合到这些多样风格的 SDXL 模型中,为各种不同模型加快图像生成的速度。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相结合,实现极速可控的图片生成。

ChatPs
ChatPs

一款基于Photoshop的AI插件

下载

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning 模型也支持开源社区里目前最流行的生成软件 ComfyUI,模型可以被直接加载来使用:

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布


4、关于技术细节

从理论上来说,图像生成是一个由噪声到清晰图像的逐步转化过程。在这一过程中,神经网络学习在这个转化流(flow)中各个位置上的梯度。

生成图像的具体步骤是这样的:

首先我们在流的起点,随机采样一个噪声样本,接着用神经网络计算出梯度。根据当前位置上的梯度,我们对样本进行微小的调整,然后不断重复这一过程。每一次迭代,样本都会更接近最终的图像分布,直至获得一张清晰的图像。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

图:生成流程(图片来自:https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

由于生成流复杂且非直线,生成过程必须一次只走一小步以减少梯度误差累积,所以需要神经网络的频繁计算,这就是计算量大的原因。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

图:曲线流程(图片来自:https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

为了减少生成图像所需的步骤数量,许多研究致力于寻找解决方案。一些研究提出了能减少误差的采样方法,而其他研究则试图使生成流更加直线化。尽管这些方法有所进展,但它们仍然需要超过 10 个推理步骤来生成图像。

另一种方法是模型蒸馏,它能够在少于 10 个推理步骤的情况下生成高质量图像。不同于计算当前流位置下的梯度,模型蒸馏改变模型预测的目标,直接让其预测下一个更远的流位置。具体来说,我们训练一个学生网络直接预测老师网络完成了多步推理后的结果。这样的策略可以大幅减少所需的推理步骤数量。通过反复应用这个过程,我们可以进一步降低推理步骤的数量。这种方法被先前的研究称之为渐进式蒸馏。

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

图:渐进式蒸馏,学生网络预测老师网络多步后的结果


在实际操作中,学生网络往往难以精确预测未来的流位置。误差随着每一步的累积而放大,导致在少于 8 步推理的情况下,模型产生的图像开始变得模糊不清。

为了解决这个问题,我们的策略是不强求学生网络精确匹配教师网络的预测,而是让学生网络在概率分布上与教师网络保持一致。换言之,学生网络被训练来预测一个概率上可能的位置,即使这个位置并不完全准确,我们也不会对它进行惩罚。这个目标是通过对抗训练来实现的,引入了一个额外的判别网络来帮助实现学生网络和教师网络输出的分布匹配。

这是我们研究方法的简要概述。在技术论文(https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452)中,我们提供了更深入的理论分析、训练策略以及模型的具体公式化细节。

5、SDXL-Lightning 之外

尽管本研究主要探讨了如何利用 SDXL-Lightning 技术进行图像生成,但我们所提出的渐进式对抗蒸馏方法的应用潜力不局限于静态图像的范畴。这一创新技术也可以被运用于快速且高质量生成视频、音频以及其他多模态内容。我们诚挚邀请您在 HuggingFace 平台上体验 SDXL-Lightning,并期待您宝贵的意见和反馈。

模型:https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

论文:https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2860

2024.08.16

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

26

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

68

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

84

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

113

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

29

2026.03.03

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

79

2026.02.28

Golang 工程化架构设计:可维护与可演进系统构建
Golang 工程化架构设计:可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

62

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MongoDB 教程
MongoDB 教程

共17课时 | 3.2万人学习

ASP 教程
ASP 教程

共34课时 | 5.7万人学习

麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号