首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

WBOY

发布时间：2023-04-10 14:21:08

2831人浏览过

来源于51CTO.COM

转载

我们知道，从谷歌 T5 模型到 OpenAI GPT 系列大模型，大语言模型（LLMs）已经展现出了令人印象深刻的泛化能力，比如上下文学习和思维链推理。同时为了使得 LLMs 遵循自然语言指令和完成真实世界任务，研究人员一直在探索 LLMs 的指令微调方法。实现方式有两种：一是使用人类标注的 prompt 和反馈在广泛任务上微调模型，二是使用通过手动或自动生成指令增强的公共基准和数据集来监督微调。

在这些方法中，Self-Instruct 微调是一种简单有效的方法，它从 SOTA 指令微调的教师 LLMs 生成的指令遵循数据中学习，使得 LLMs 与人类意图对齐。事实证明，指令微调已经成为提升 LLMs 零样本和小样本泛化能力的有效手段。

最近，ChatGPT 和 GPT-4 的成功为使用指令微调来改进开源 LLMs 提供了巨大的机遇。Meta LLaMA 是一系列开源 LLMs，其性能与 GPT-3 等专有 LLMs 相媲美。为了教 LLaMA 遵循指令，Self-Instruct 因其卓越性能和低成本被快速采用。比如斯坦福的 Alpaca 模型使用由 GPT-3.5 生成的 52k 指令遵循样本，Vicuna 模型使用约 70k 来自 ShareGPT 的指令遵循样本。

为了推进 LLMs 指令微调的 SOTA 水平，微软研究院在其论文《Instruction Tuning with GPT-4》中首次使用 GPT-4 作为教师模型进行 self-intruct 微调。

论文地址：https://arxiv.org/pdf/2304.03277.pdf
项目地址：https://instruction-tuning-with-gpt-4.github.io/
GitHub 地址：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

研究者一方面发布了 GPT-4 生成的数据，包括中英文的 52k 指令遵循数据集、GPT-4 生成的对三种指令微调模型的输出进行评级的反馈数据。

另一方面基于 GPT-4 生成的数据开发了指令微调的 LLaMA 模型和奖励模型。为了评估指令微调 LLMs 的质量，研究者使用三个指标对测试样本进行评估：对三个对齐标准的人工评估、基于 GPT-4 反馈的自动评估以及非自然指令的 ROUGE-L（自动文摘评测方法之一）。

实验结果验证了使用 GPT-4 生成的数据进行 LLMs 指令微调的有效性。GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零样本性能。目前，研究者已经公开了使用 GPT-4 生成的数据以及相关代码。

数据集

该研究使用 GPT-4 生成以下四个数据集：

英语指令遵循数据集（English Instruction-Following Data）：对于从 Alpaca 收集到的 52K 指令，每个指令都提供了一个英文 GPT-4 答案。该数据集主要用来探索和比较 GPT-4 答案和 GPT-3 答案的数据统计。
中文指令遵循数据集（Chinese Instruction-Following Data）：该研究使用 ChatGPT 将 52K 指令翻译成中文，并要求 GPT-4 用中文回答。
比较数据（Comparison Data）：让 GPT-4 给自己的反应打分，分数范围从 1 到 10。此外，该研究还要求 GPT-4 对 GPT-4、GPT-3.5 和 OPT-IML 三种模型的响应进行比较和评分。这一数据集主要用来训练奖励模型。
非自然指令的回答（Answers on Unnatural Instructions）：GPT-4 的回答在 68K 指令 - 输入 - 输出三组核心数据集上解码。该子集用于量化 GPT-4 与指令微调模型之间的差距。

图 1 比较了 GPT-4 和 GPT-3.5 的英文输出响应集。图 1 (a) 和 (b) 显示了两个输出集合频率高于 10 的动 - 名词对（verb-noun pairs），图 1 (c) 比较了两个集合中出现频率最高的 25 对单词，图 1 (d) 比较了序列长度的频率分布，结果显示，GPT-4 倾向于生成比 GPT-3.5 更长的序列。

指令微调语言模型

该研究基于 LLaMA 7B checkpoint、并使用监督微调训练了两个模型：(i) LLaMA-GPT4 ，在 GPT-4 生成的 52K 英语指令遵循数据上训练。(ii) LLaMA-GPT4-CN，在来自 GPT-4 生成的 52K 中文指令遵循数据上训练完成。

奖励模型

人类反馈强化学习 (RLHF) 旨在使 LLM 行为与人类偏好保持一致，奖励建模是其关键部分之一，这一问题被往往公式化为回归任务，以预测给定提示和响应之间的奖励。但这种方法通常需要大规模的比较数据，现有开源模型如 Alpaca、Vicuna 和 Dolly 由于标注比较数据成本很高，因此不涉及 RLHF。与此同时，最近的研究表明，GPT-4 能够识别和修复自己的错误，并准确判断响应的质量。因此，为了促进 RLHF 的研究，该研究使用 GPT-4 创建了比较数据，如上文所述。

为了评估数据质量，该研究还训练了一个基于 OPT 1.3B 的奖励模型进行该数据集的评估。比较数据的分布如图 2 所示。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

瞬映

AI 快速创作数字人视频，一站式视频创作平台，让视频创作更简单。

下载

实验

该研究利用以下三种类型进行评估：人类评估、GPT-4 以及非自然指令评估。结果证实，与其他机器生成的数据相比，使用 GPT-4 生成的数据是进行 LLM 指令微调的一种高效且有效的方法。接下来我们看看具体实验过程。

人类评估

图 3 (a) 为 LLaMA-GPT4 vs Alpaca 比较结果，实验表明在 Helpfulness 这一指标下，GPT-4 以 54.12% 的得分胜出。图 3 (b) 为 LLaMA-GPT4 vs GPT-4 比较结果，表明 GPT-4 指令微调的 LLaMA 的性能与原始的 GPT-4 类似。

与使用自动求值的 SOTA 进行比较

该研究使用 GPT-4 对不同模型在 80 个未见问题上的回答进行自动评估。首先从 LLaMA-GPT-4 (7B) 和 GPT-4 两个聊天机器人中收集答案，并使用其他聊天机器人发布答案，包括 LLaMA (13B)，Alpaca (13B)，Vicuna (13B)，Bard (谷歌，2023) 和 ChatGPT。对于每次评估，该研究要求 GPT-4 对两个模型之间的响应质量进行评分，评分范围从 1 到 10。结果如图 4 所示。

图 4 (c,d) 比较了所有聊天机器人。LLaMA_GPT4 性能更高：7B LLaMA GPT4 的性能优于 13B Alpaca 和 LLaMA。然而，LLaMA_GPT4 与 GPT-4 等大型商业聊天机器人相比，仍有差距。

研究者在下图 5 中进一步研究了所有聊天机器人的性能。首先使用 GPT-4 将聊天机器人的英文响应翻译成中文，接着使用 GPT-4 将英文问题翻译成中文以获得答案。与 GPT-4 翻译和生成的中文响应的比较如 5 (a) 和 5 (b) 所示，5 (c) 中显示了所有被要求用中文回答的模型结果。

在下图 6 中，研究者将 LLaMA-GPT4 与 GPT-4、Alpaca 非自然指令进行比较。结果显示，LLaMA-GPT4 和 GPT-4 随 ground truth 响应长度的增加表现更好。这意味着当场景更具创意时，它们可以更好地遵循指令。当序列长度较短时，LLaMA-GPT4 和 GPT-4 都能生成包含简单 ground truth 答案的响应，并且添加额外单词可以使响应更像聊天。

更多技术和实验细节请参阅原论文。

Writesonic网页版和APP功能差异是什么_Writesonic版本说明【介绍】

Perplexity怎么搜索Kindle电子书资源_Perplexity图书查找指南【技巧】

JanAI如何在本地运行模型_JanAI本地部署使用方法【说明】

Tabnine团队开发怎么共享模型_协作方法是什么【介绍】

WorkBuddy如何写一份标准的个人年度总结_WorkBuddy成就提炼与亮点展示攻略【职场】

数码产品性能查询

该软件包括了市面上所有手机CPU，手机跑分情况，电脑CPU，电脑产品信息等等，方便需要大家查阅数码产品最新情况，了解产品特性，能够进行对比选择最具性价比的商品。

下载

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04