7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

WBOY

发布时间：2023-10-07 16:49:06

594人浏览过

来源于51CTO.COM

转载

大型语言模型在性能方面表现出色，能够通过零样本或少样本提示来解决新任务。然而，在实际应用部署中，llm却不太实用，因为它的内存利用效率低，同时需要大量的计算资源

比如运行一个1750亿参数的语言模型服务至少需要350GB的显存，而目前最先进的语言模型大多已超过5000亿参数量，很多研究团队都没有足够的资源来运行，在现实应用中也无法满足低延迟性能。

也有一些研究使用人工标注数据或使用LLM生成的标签进行蒸馏来训练较小的、任务专用的模型，不过微调和蒸馏需要大量的训练数据才能实现与LLM相当的性能。

为了解决大型模型对资源的需求问题，华盛顿大学与谷歌合作提出了一种名为「分步蒸馏」（Distilling Step-by-Step）的新蒸馏机制。通过分步蒸馏，经过蒸馏后的模型尺寸相较于原模型来说更小，但性能却更优，而且在微调和蒸馏过程中所需的训练数据也更少

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

请点击以下链接查看论文：https://arxiv.org/abs/2305.02301

分布蒸馏机制把LLM中抽取出的预测理由（rationale）作为在多任务框架内训练小模型的额外监督信息。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

经过在4个NLP基准上进行实验后，我们发现：

1. 与微调和蒸馏相比，该机制用更少的训练样本实现了更好的性能；

相较于少样本提示LLM，该机制利用更小尺寸的模型实现了更出色的性能

3. 同时降低模型尺寸和数据量也可以实现优于LLM的性能。

实验中，微调后770M的T5模型在基准测试中仅使用80%的可用数据就优于少样本提示的540B的PaLM模型，而标准微调相同的T5模型即使使用100%的数据集也难以匹配。

蒸馏方法

分布蒸馏的关键思想是逐步抽取出信息丰富且用自然语言描述的预测理由，即中间推理步骤，以解释输入问题与模型输出之间的联系，并通过这些数据来更高效地训练小模型

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

分布蒸馏主要包括两个阶段：

1. 从LLM中提取原理（rationale）

研究人员利用少样本思维链（CoT）提示从LLM中提取预测中间步骤。

在确定目标任务之后，首先在LLM输入提示中准备几个样例。每个样例都由一个三元组组成，包括输入、原理和输出

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

输入提示后，LLM能够模仿三元组演示以生成其他新问题的预测原理，例如，在常识问答案任务中，给定输入问题：

Sammy想去人群聚集的地方。他会选择哪里呢？选项有：（a）人口稠密地区，（b）赛道，（c）沙漠，（d）公寓，（e）路障

（Sammy wanted to go to where the people are. Where might he go? Answer Choices: (a) populated areas, (b) race track, (c) desert, (d) apartment, (e) roadblock）

探迹

探迹AI销售智能体平台

下载

通过逐步提炼后，LLM可以给出问题的正确答案「（a）人口稠密地区」，并且提供回答问题的理由「答案必须是一个有很多人的地方，在上述选择中，只有人口稠密的地区有很多人。」经过逐步提炼，LLM能够得出正确答案为「（a）人口稠密地区」，并提供了解答问题的理由「答案必须是一个有很多人的地方，在上述选择中，只有人口稠密的地区有很多人。」

通过在提示中提供与基本原理配对的CoT示例，上下文学习能力可以让LLM为未曾遇到的问题类型生成相应的回答理由

2. 训练小模型

通过将训练过程构建为多任务问题，可以将预测理由抽取出来，并将其纳入训练小模型中

除了标准标签预测任务之外，研究人员还使用新的理由生成任务来训练小模型，使得模型能够学习生成用于预测的中间推理步骤，并且引导模型更好地预测结果标签。

通过在输入提示中加入任务前缀「label」和「rationale」来区分标签预测和理由生成任务。

实验结果

在实验中，研究人员选择5400亿参数量的PaLM模型作为LLM基线，使用T5模型作为任务相关的下游小模型。

在这项研究中，我们对四个基准数据集进行了实验，这四个数据集分别是e-SNLI和ANLI用于自然语言推理，CQA用于常识问答，以及SVAMP用于算术数学应用题。我们在这三个不同的NLP任务中进行了实验

更少的训练数据

分步蒸馏方法在性能上比标准微调更出色，而且只需较少的训练数据

在e-SNLI数据集上，当使用完整数据集的12.5%时就实现了比标准微调更好的性能，在ANLI、CQA和SVAMP上分别只需要75%、25%和20%的训练数据。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

与使用220M T5模型对不同大小的人工标记数据集进行标准微调相比，分布蒸馏在所有数据集上使用更少的训练示例时，优于在完整数据集上进行标准微调

更小的部署模型尺寸

与少样本CoT提示的LLM相比，分布蒸馏得到的模型尺寸要小得多，但性能却更好。

在e-SNLI数据集上，使用220M的T5模型实现了比540B的PaLM更好的性能；在ANLI上，使用770M的T5模型实现了比540B的PaLM更好的性能，模型尺寸仅为1/700

更小的模型、更少的数据

在减小模型尺寸和训练数据的同时，我们成功地实现了超越少样本PaLM的性能

在ANLI中，使用770M T5模型的性能超过了540B PaLM，而且只使用了完整数据集的80%

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

经观察可知，即使使用完整的100%数据集，标准微调也无法达到PaLM的性能水平，这表明通过分步蒸馏可以同时减小模型尺寸和训练数据量，从而实现超越LLM的性能

ai怎么关掉透视网格工具_ai透视网格关闭的两种方法【避坑】

如何设计高端商务名片利用Canva AI工具一键生成设计稿

用AI做孕期记录怎么赚钱_AI绘画孕期日记定制接单

如何快速策划一场公司年会活动利用智谱清言生成全套执行方案

ai怎么写_ai文字输入编辑技巧【实操】

谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁，使用起来得心应手。这里提供了谷歌浏览器纯净安装包，有需要的小伙伴快来保存下载体验吧！

下载

相关专题

Python 自然语言处理（NLP）基础与实战

本专题系统讲解 Python 在自然语言处理（NLP）领域的基础方法与实战应用，涵盖文本预处理（分词、去停用词）、词性标注、命名实体识别、关键词提取、情感分析，以及常用 NLP 库（NLTK、spaCy）的核心用法。通过真实文本案例，帮助学习者掌握使用 Python 进行文本分析与语言数据处理的完整流程，适用于内容分析、舆情监测与智能文本应用场景。

370

2026.01.27

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2828

2024.08.16

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板