100亿参数的语言模型跑不动？MIT华人博士提出SmoothQuant量化，内存需求直降一半，速度提升1.56倍！

WBOY

发布时间：2023-04-13 09:31:06

1906人浏览过

来源于51CTO.COM

转载

大型语言模型（LLM）虽然性能强劲，但动辄几百上千亿的参数量，对计算设备还是内存的需求量之大，都不是一般公司能承受得住的。

量化（Quantization）是常见的压缩操作，通过降低模型权重的精度（如32bit降为8bit），牺牲一部分模型的性能来换取更快的推理速度，更少的内存需求。

但对于超过1000亿参数量的LLM来说，现有的压缩方法都无法保持模型的准确率，也无法在硬件上高效地运行。

最近，麻省理工学院和英伟达的研究人员联合提出了一个通用后训练的量化（GPQ, general-purpose post-training quantization）方案SmoothQuant，对大型语言模型可以高效实现8-bit权重，8-bit激活（W8A8）的量化，无需训练也能保持模型的准确率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://arxiv.org/pdf/2211.10438.pdf

代码链接：https://github.com/mit-han-lab/smoothquant

由于激活相比权重更难量化，SmoothQuant通过数学等价变换将较难量化的激活迁移到权重上，实现了对激活异常值（activation outliers）的平滑处理。

SmoothQuant能够对所有LLM的各种层中权重和激活量化到INT8，包括OPT-175B, BLOOM-176B和GLM-130B。

相比现有方法仅对权重进行靓货，或者对激活进行混合精度的量化，SmoothQuant有更高的硬件效率，实现了1.56倍加速，内存需求仅为原始LLM的一半，并且在准确率上几乎没有损失。

SmoothQuant同时具有硬件友好的设计，研究人员将SmoothQuant集成进了LLM服务框架FasterTransformer中，实现了更快的推理速度，相比FP16的精度仅需一半数量的GPU

文章的第一作者肖光烜是MIT EECS的一年级博士生，本科毕业于清华大学计算机科学与技术学院。

导师Song Han是MIT EECS的副教授，博士毕业于斯坦福大学，主要研究方向为高效深度学习，曾提出深度压缩（deep compression）技术，可以将神经网络的尺寸降低一个数量级，而不损失准确率。

SmoothQuant

量化（Quantization）就是把高精度的值映射到更低精度的离散值，在这篇论文中研究人员主要关注对硬件更高效的整数均匀量化（integer uniform quantization），尤其是INT8。

量化操作可以在不同的粒度上执行，如per-tensor量化应用于整个权重矩阵，per-token量化应用于激活中的每个token，per-channel量化应用于权重的每个输出通道。

通过对激活的量化结果进行观察，研究人员总结出了几个模式：

1、量化比权重更难量化。

权重的分布相对更加均匀和平坦，之前的研究结果已经证明将大型语言模型的权重降低到INT8，甚至到INT4对准确率的影响都不大。

2、异常值是激活量化中的主要难点。

激活中的异常值通常比正常值要高出100倍左右，导致没有异常值通道中的量化bits/levels效率很低。

3、异常值固定在某一通道中出现。

异常值只在很小一部分的通道中才会出现，但如果一个通道中有一个异常值，那该异常值可能会在所有的token中出现。

给定一个token中所有通道的方差会很大（一些通道会非常大，但大部分很小），但是给定一个通道在所有token度中的方差会很小（异常值通道会很大）。

由于异常值具有持续出现和每个通道内小方差的特点，那如果对激活执行per-channel量化，其量化误差将会远远小于per-tensor量化。

通过一个简单的实验，其结果再次验证了研究人员的想法，量化到INT8时，per-channel的准确率远远高于per-tensor和per-token量化，和FP16基线准确率相差无几。

研究人员通过使用一个per-channel平滑因子s来将输入激活进行平滑(smooth)。为了保持线性层的数学等价，还需要反向缩放权重。

由于输入X通常是由之前的线性操作生成的（如线性层、层norms等），所以就可以很容易地将平滑因子融合到之前层的参数offline，而且不会产生额外缩放的内核调用开销。对于其他情况，比如当输入来自残差add时，可以向残差分支添加一个额外的缩放。

将量化难度从激活转移到权重

Smooth的目标是选择一个per-channel的平滑因子s，使该逆操作更易于量化。

为了减少量化误差，应该增加所有通道的有效量化比特。当所有通道的最大magnitude相同时，总的有效量化位数将是最大的。

因此，一个最直接的平滑因子选择就是输入中每个通道的最大值，可以保证在划分之后，所有的激活通道都有相同的最大值，从而实现更容易的量化。

但需要注意的是，激活的范围是动态的，对于不同的输入样本是不同的。所以研究人员使用预训练数据集中的校准样本来估计激活通道的规模。

由于这个公式将所有的量化困难迁移给了权重，可以发现在这种情况下，权重的量化误差会很大，导致准确性下降很多。

另一方面，也可以通过选择sj = 1/ max(|Wj |)，将所有的量化难度从权重推到激活上。同样，由于激活量化误差过大，模型的性能也不好。因此需要在权重和激活之间分割量化难度，使它们都易于量化。

研究人员引入一个超参数迁移强度α，来控制要从激活迁移到权重的难度。

可以发现，对于大多数模型，例如OPT和BLOOM模型，α=0.5是一个很好的平衡点，可以平均分配量化难度，特别是使用相同的量化器进行权重和激活。

该公式保证了相应通道的权重和激活具有相似的最大值，从而共享相同的量化难度。

对于其他一些激活异常值比较大的模型，例如GLM-130B有30%的异常值，这对激活量化来说比较困难，可以选择一个较大的α（如0.75），将更多的量化难度迁移到权重上。

SmoothQuant应用于Transformer块

线性层占据了LLM模型的大部分参数和计算。在默认情况下，SmoothQuant对Transformer中所有线性层的输入激活进行比例平滑，并用W8A8对线性层进行量化，在注意力计算中启用了BMM运算符的量化。

在流程中，首先用INT8对线性层和注意力层中的BMM等计算量大的运算符的输入和权重进行量化，而对其他轻量级元素的运算，如Softmax和LayerNorm，保持激活为FP16，这样的设计有助于平衡准确性和推理效率。

实验部分

研究人员选择了三个大型语言模型用来评估SmoothQuant，包括OPT, BLOOM和GLM-130B；并使用七个zero-shot任务，包括LAMBADA, HellaSwag, PIQA, WinoGrande, OpenBookQA, RTE, COPA等。

实验结果显示SmoothQuant可以处理非常大的LLM的量化问题，其激活更难量化。

SmoothQuant可以在所有评估数据集上匹配FP16的准确性，而W8A8、ZeroQuant和Outlier Suppression基线产生的结果几乎是随机的。

ChatDOC

ChatDOC是一款基于chatgpt的文件阅读助手，可以快速从pdf中提取、定位和总结信息

下载

并且SmoothQuant可以无损地量化所有超过100B参数的开放式LLMs

SmoothQuant的O1和O2级成功地保持了浮点精度，而O3级（per-tensor static）使平均精度下降了0.8%，可能是因为静态收集的统计数据与真实评估样本的激活统计数据之间的差异。

尽管如此，SmoothQuant-O1可以与FP16的准确性相匹配，而SmoothQuant-O3只降低了1%的准确性，明显优于基线。

SmoothQuant不仅对超过100B参数的非常大的LLM有效，而且对较小的LLM也有稳定的效果，SmoothQuant可以在所有规模的OPT模型上工作，并与INT8量化的FP16精度相匹配。

为了展示集成到PyTorch和FasterTransformer中的SmoothQuant-O3的速度提升和内存节省，研究人员我们测量了一次生成一批4个句子的所有隐藏状态的端到端延迟，也就是context阶段的延迟，并记录了这个过程中GPU内存使用的峰值。

由于Huggingface缺乏对模型并行的支持，所以研究人员只测量了SmoothQuant在单个GPU上的PyTorch实现的性能，因此选择了OPT-6.7B、OPT-13B和OPT-30B进行评估。

在FasterTransformer库中，SmoothQuant可以与Tensor Parallelism算法无缝对接，因此研究人员在OPT-13B、OPT-30B、OPT-66B和OPT-175B上测试SmoothQuant的单GPU和多GPU基准。

在NVIDIA A100 80GB GPU服务器上进行的实验结果显示，基于PyTorch实现的推理延迟和峰值内存使用上，SmoothQuant始终比FP16基线快，当序列长度为256时，在OPT-30B上获得了1.51倍的速度提升。

还可以看到一个趋势，即模型越大，加速越明显，但LLM.int8()几乎总是比FP16基线慢，这也是由于混合精度激活表示的巨大开销造成的。

在内存方面，SmoothQuant和LLM.int8()都可以将FP16模型的内存用量几乎减半，而SmoothQuant由于完全使用INT8 GEMM，所以节省的内存稍多。

与FasterTransformer对OPT的FP16实现相比，SmoothQuant-O3在使用单个GPU时可以进一步降低OPT-13B和OPT-30B的执行延迟，最高可达1.56倍。

OpenClaw部署常见问题_OpenClaw部署故障解答【解答】

Perplexity免费版和Pro版区别_Perplexity付费订阅价值分析教程【对比】

OpenClaw启动时卡在加载界面怎么办_OpenClaw加载卡死常见原因与对策【教程】

OpenClaw最新版与旧版有什么区别_OpenClaw主要版本功能差异对比【汇总】

Perplexity Chrome插件怎么用_Perplexity浏览器扩展一键搜索教程【指南】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：强化学习是否言过其实? 下一篇：Python 开发人员正在为医疗保健创建颠覆性的 AI 应用程序

作者最新文章

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04