Stable Diffusion能超越JPEG等算法，提高图像压缩率并保持清晰度？

WBOY

发布时间：2023-04-27 08:28:07

2413人浏览过

来源于51CTO.COM

转载

基于文本的图像生成模型火了，出圈的不止有扩散模型，还有开源的Stable Diffusion模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

最近一位瑞士的软件工程师Matthias Bühlmann无意间发现，Stable Diffusion不仅能用来生成图像，还可以用来压缩位图图像，甚至比JPEG和WebP的压缩率更高。

比如一张美洲骆驼的照片，原图为768KB，使用JPEG压缩到5.66KB，而Stable Diffusion可以进一步压缩到4.98KB，而且能够保留更多高分辨率的细节以及更少的压缩伪影，肉眼可见地优于其他压缩算法。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

不过这种压缩方式也存在缺陷，即不适合压缩人脸和文本图像，在某些情况下，甚至会生成一些原图并不存在内容。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

虽然重新训练一个自编码器也能做到类似于Stable Diffusion的压缩效果，但使用Stable Diffusion的一个主要优势在于，有人已经投入了上百万的资金帮你训练了一个，你又何必重新花钱训练一个压缩模型呢？

Stable Diffusion如何压缩图像

扩散模型正在挑战生成模型的霸主地位，对应的开源Stable Diffusion模型也在机器学习社区掀起一场艺术革命。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

Stable Diffusion由三个训练后的神经网络串联得到，即一个变分自编码器（VAE），U-Net模型和一个文本编码器。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

变分自编码器对图像空间中的图像进行编码和解码，从而获得该图像在潜空间的表征向量，以一个分辨率更低（64x64)具有更高精度(4x32bit)的向量来表示源图像(3x8或4x8bit的512x512)。

VAE在将图像编码到潜空间的训练过程主要依赖自监督学习，即输入和输出都是源图像，因此随着模型进一步训练，不同版本的模型的潜空间表征可能会看起来不同。

使用Stable Diffusion v1.4的潜空间表征通过重新映射和解释为4通道彩色图像后，看起来就是下图的中间图像，源图像中的主要特征仍然可见。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

需要注意的是，VAE往返编码一次并不是无损的。

比如在解码之后，蓝色带子上的ANNA名字就没有源图像那么清晰了，可读性显著降低。

Stable Diffusion v1.4中的变分自编码器不太擅长表示小文本以及人脸图像，不知道在v1.5版本中是否会改善。

Stable Diffusion的主要压缩算法就是利用图像的这种潜空间表征，从短文本描述中生成新的图像。

从潜空间表征的随机噪声开始，使用充分训练的U-Net迭代去除潜空间图像的噪声，用一种更简单的表征输出模型认为它在这个噪声中「看到」的预测，有点像我们在看云的时候，从不规则的图形中还原出脑海里的形状或面孔。

当使用Stable Diffusion来生成图像时，这个迭代去噪步骤是由第三个组件，即文本编码器引导的，该编码器为U-Net提供关于它应该尝试在噪声中看到什么的信息。

不过对于压缩任务来说，并不需要文本编码器，所以实验过程只创建了一个空字符串的编码用于告诉U-Net在图像重建过程中进行非引导去噪。

为了使用Stable Diffusion作为图像压缩编解码器，算法需要有效地压缩由VAE产生的潜表征。

在实验中可以发现，对潜表征进行下采样或者直接使用现有的有损图像压缩方法，都会大大降低重建图像的质量。

但作者发现 VAE 的解码似乎对潜表征的量化（quantization）非常有效。

通过对从浮点到8位无符号整数的潜量化进行缩放、拖拽（clamping）和重新映射，只会产生很小的可见重构错误。

FloatSearch

FloatSearch是一个专业的AI搜索引擎，提供多样化的见解

下载

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

通过量化8位的潜表征，图像表示的数据大小现在是64*64*4*8bit=16kB ，远小于未压缩源图像的512*512*3*8bit=768kB

如果潜表征的位数小于8bit，无法产生比较好的效果。

如果对图像进一步执行调色板（palettizing）和抖动（dithering），则量化效果就会再次提升。

使用256*4*8位向量和Floyd-Steinberg抖动的潜表征创建了一个调色板表示，使数据大小进一步压缩到64*64*8+256*4*8bit=5kB

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

潜空间调色板的抖动会引入噪声，从而扭曲了解码结果。但由于Stable Diffusion是基于潜噪声的去除，所以可以使用U-Net去除抖动引起的噪声。

经过4次迭代，重建结果在视觉上非常接近未量化的版本。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

虽然数据量大大减少了（源图像为压缩图像的155倍大），但效果是非常好的，不过也引入了一些伪影（比如原图的心形图案中不存在伪影）。

有趣的是，这种压缩方案引入的伪影对图像内容的影响比对图像质量的影响更大，而且以这种方式压缩的图像可能包含这些类型的压缩伪影。

作者还用zlib对调色板和索引进行了无损压缩，在测试样本中，大多数的压缩结果都小于5kb，但这种压缩方法仍然存在更多的优化空间。

为了评估该压缩编解码器，作者没有使用任何在网上找到的标准测试图像，因为网上的图像都有可能在Stable Diffusion的训练集中出现过，而压缩这类图像可能会导致不公平的对比优势。

为了尽可能公平地进行比较，作者使用了Python图像库中最高质量的编码器设置，以及使用mozjpeg库添加了压缩后的JPG数据的无损数据压缩。

值得注意的是，虽然Stable Diffusion的结果主观上看起来比JPG和WebP压缩的图像要好得多，但在标准测量指标(如PSNR或SSIM)方面，它们并没有明显更好，但也没有更差。

只是引入的伪影类型不那么明显，因为它们对图像内容的影响大于对图像质量的影响。

这种压缩方法也有一点危险，虽然重建特征的质量很高，但内容可能会受到压缩伪影的影响，即使它看起来非常清晰。

例如，在一张测试图像中，虽然Stable Diffusion作为编解码器在保持图像的质量方面要好得多，甚至连相机颗粒纹理（camera grain）都能保留下来(这是大多数传统压缩算法难以做到的) ，但其内容仍然受到压缩伪影的影响，像建筑物形状这样的精细特征可能会发生变化。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

虽然在JPG压缩图像中当然不可能比在Stable Diffusion压缩图像中识别出更多的真实值，但是Stable Diffusion压缩结果的高视觉质量可能具有欺骗性，因为JPG和WebP中的压缩伪影更容易识别。

如果你也想动手复现一遍实验，作者在Colab上开源了代码。

Stable Diffsuion还能用来压缩图像？压缩率更高，清晰度超越JPEG等算法

代码链接：https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing

最后，作者表示，文章中设计的实验仍然是相当浅显的，但效果仍然令人惊喜，未来仍然有很大的改进空间。

Perplexity如何提取网页表格数据 Perplexity数据抓取与分析技巧【办公提效】

InVideoAI如何修改视频内容_InVideoAI视频编辑技巧【操作】

AdobeFirefly如何生成字体效果_AdobeFirefly文字设计方法【说明】

Midjourney出图太慢怎么办_Midjourney速度优化办法【解答】

WorkBuddy如何批量提取PPT中的所有图片素材_WorkBuddy幻灯片素材拆分技巧【整理】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：深度学习巨头DeepMind发布论文：紧急教AI模型“做人”，抵消GPT-5可能引发的人类灭绝问题。下一篇：生成模型的无监督分类方法简介

作者最新文章

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04