蒸馏也能Step-by-Step：新方法让小模型也能媲美2000倍体量大模型

WBOY

发布时间：2023-05-18 18:31:30

966人浏览过

来源于51CTO.COM

转载

尽管大型语言模型能力惊人，但由于规模较大，其部署所需的成本往往巨大。华盛顿大学联合谷歌云计算人工智能研究院、谷歌研究院针对该问题进行了进一步解决，提出了逐步蒸馏（distilling step-by-step）范式帮助模型训练。相对于llm，这种方法对于训练小型模型并应用于特定任务方面更加有效，且所需的训练数据要比传统的微调和蒸馏更少。在一个基准任务上，他们的 770m t5 模型胜过了 540b palm 模型。令人印象深刻的是，他们的模型只使用了可用数据的 80%。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

虽然大型语言模型（LLMs）展现了令人印象深刻的少样本学习能力，但将这样大规模的模型部署在现实应用中是很难的。为 1750 亿参数规模的 LLM 提供服务的专门基础设施，至少需要 350GB 的 GPU 内存。更甚者，现今最先进的 LLM 是由超过 5000 亿的参数组成的，这意味着它需要更多的内存和计算资源。这样的计算要求对于大多数生产商来说都是难以企及的，更何况是要求低延迟的应用了。

为了解决大型模型的这个问题，部署者往往采用小一些的特定模型来替代。这些小一点的模型用常见范式 —— 微调或是蒸馏来进行训练。微调使用下游的人类注释数据升级一个预训练过的小模型。蒸馏用较大的 LLM 产生的标签训练同样较小的模型。但是很遗憾，这些范式在缩小模型规模的同时也付出了代价：为了达到与 LLM 相当的性能，微调需要昂贵的人类标签，而蒸馏需要大量很难获得的无标签数据。

在一篇题为「Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes」的论文中，来自华盛顿大学、谷歌的研究者引入了一种新的简单机制 —— 逐步蒸馏（Distilling step-bystep），用于使用更少的训练数据来训练更小的模型。这种机制减少了微调和蒸馏 LLM 所需的训练数据量，使之有更小的模型规模。

蒸馏也能Step-by-Step：新方法让小模型也能媲美2000倍体量大模型

论文链接：https://arxiv.org/pdf/2305.02301v1.pdf

Insou AI

Insou AI 是一款强大的人工智能助手，旨在帮助你轻松创建引人入胜的内容和令人印象深刻的演示。

下载

该机制的核心是换一种角度，将 LLM 看作是可以推理的 agent，而不是噪声标签的来源。LLM 可以产生自然语言的理由（rationale），这些理由可以用来解释和支持模型所预测的标签。例如，当被问及「一位先生携带着打高尔夫球的设备，他可能有什么？(a) 球杆，(b) 礼堂，(c) 冥想中心，(d) 会议，(e) 教堂」，LLM 可以通过思维链（CoT）推理回答出「（a）球杆」，并通过说明「答案一定是用来打高尔夫球的东西」来合理化这个标签。在上述选择中，只有球杆是用来打高尔夫的。研究者使用这些理由作为额外更丰富的信息在多任务训练设置中训练较小的模型，并进行标签预测和理由预测。

如图 1 所示，逐步蒸馏可以学习特定任务的小模型，这些模型的参数量还不到 LLM 的 1/500。与传统的微调或蒸馏相比，逐步蒸馏使用的训练示例要也少得多。

蒸馏也能Step-by-Step：新方法让小模型也能媲美2000倍体量大模型

实验结果显示，在 4 个 NLP 基准中，有三个有希望的实验结论。

第一，相对于微调和蒸馏，逐步蒸馏模型在各数据集上实现了更好的性能，平均减少了 50% 以上的训练实例（最多可减少 85% 以上）。
第二，我们的模型在模型尺寸更小的情况下表现优于 LLM（最多可以小到 2000 倍），极大地降低了模型部署所需的计算成本。
第三，该研究在缩减模型尺寸的同时，也减少了超越 LLM 所需要的数据量。研究者使用一个 770M 的 T5 模型超越了 540B 参数的 LLM 的性能。这个较小的模型只使用了现有微调方法 80% 的标记数据集。

当只有未标记的数据时，小模型的表现相比 LLM 而言仍然有过之而无不及 —— 只用一个 11B 的 T5 模型就超过了 540B 的 PaLM 的性能。

该研究进一步表明，当一个较小的模型表现比 LLM 差时，与标准的蒸馏方法相比，逐步蒸馏可以更有效地利用额外的无标签数据来使较小的模型媲美 LLM 的性能。

逐步蒸馏

研究者提出了逐步蒸馏这个新范式，是利用 LLM 对其预测的推理能力，以数据高效率的方式训练更小的模型。整体框架如图 2 所示。

蒸馏也能Step-by-Step：新方法让小模型也能媲美2000倍体量大模型

该范式有两个简单的步骤：首先，给定一个 LLM 和一个无标签的数据集，提示 LLM 生成输出标签以及证明该标签成立的理由。理由用自然语言解释，为模型预测的标签提供支持（见图 2）。理由是当前自监督 LLM 的一个涌现的行为属性。

然后，除了任务标签之外，利用这些理由来训练更小的下游模型。说白了，理由能提供了更丰富、更详细的信息，来说明一个输入为什么被映射到一个特定的输出标签。

实验结果

研究者在实验中验证了逐步蒸馏的有效性。首先，与标准的微调和任务蒸馏方法相比，逐步蒸馏有助于实现更好的性能，训练实例的数量少得多，大幅提高了学习小型特定任务模型的数据效率。

蒸馏也能Step-by-Step：新方法让小模型也能媲美2000倍体量大模型

其次，研究表明，逐步蒸馏方法以更小的模型大小超越了 LLM 的性能，与 llm 相比，大大降低了部署成本。

蒸馏也能Step-by-Step：新方法让小模型也能媲美2000倍体量大模型

最后，研究者调查了逐步蒸馏方法在超过 LLM 的性能方面所需的最低资源，包括训练示例数量和模型大小。他们展示了逐步蒸馏方法通过使用更少的数据和更小的模型，同时提高了数据效率和部署效率。

蒸馏也能Step-by-Step：新方法让小模型也能媲美2000倍体量大模型

Cursor和GitHubCopilot有什么区别_Cursor功能差异详解【详解】

Perplexity切换GPT-4o教程 Perplexity如何自由更换大语言模型【进阶技巧】

PlaygroundAI如何生成角色设计_PlaygroundAI角色创作流程【方法】

WorkBuddy如何写自媒体脚本大纲_WorkBuddy短视频创作灵感激发技巧【全解】

OpenClaw新手必知事项_OpenClaw入门基础指南【指南】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python高级篇—数据科学和机器学习下一篇：AI革命：CNN如何加速机器人和自主系统的进步

作者最新文章

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04