还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

WBOY

发布时间：2024-09-10 12:48:01

396人浏览过

来源于机器之心

转载

aixiv专栏是本站发布学术、技术内容的栏目。过去数年，本站aixiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

论文共同第一作者郑淼，来自于周泽南领导的百川对齐团队，毕业于北京大学，研究方向包括大语言模型、多模态学习以及计算机视觉等，曾主导MMFlow等开源项目。共同第一作者梁昊，北京大学前沿交叉学科研究院博士生，研究方向为大模型数据侧，指导老师为张文涛教授。北大-百川智能AI系统联合实验室成立于2024年1月，旨在围绕人工智能模型系统的全技术流程，研究科学和系统的数据生成和质量评估策略、大模型训练和推理加速等重要问题。联合实验室由北京大学博雅特聘教授崔斌和百川智能联合创始人陈炜鹏担任主任。

基于 Transformer 架构的大语言模型正在各个领域取得突破性成果。提示词工程（Prompt Engineering）在其中的角色至关重要。

用好提示词，研究人员和开发者能够引导模型在特定任务上表现得更优秀。这种方法不仅能够显著提升模型的性能，还能够增强模型的适应性，使其在面对各种复杂任务时更加灵活和高效。

此外，提示词工程还能优化模型的学习过程，提高复杂问题处理效率，减少训练时间和计算资源需求。

相较于传统的微调方法，提示词工程能以极低成本使模型适应多个下游任务，大幅节省计算资源和数据收集成本。然而，设计有效的提示词对非专业人士而言仍具挑战性，往往需要大量学习和实践。

直接利用大语言模型进行自动提示工程通常难以取得理想效果。不恰当的提示可能分散模型注意力，反而降低性能。因此，开发一个能辅助用户，操作简便的自动提示工程系统变得尤为重要。

PAS：突破性的自动提示工程系统

为应对这一挑战，北京大学 - 百川联合实验室提出了 PAS 自动提示工程系统。PAS 的创新之处在于：

1. 设计高质量的自动提示数据集

2. 对 GPT 模型进行少样本学习和数据筛选

3. 自动构建精简而高效的提示数据集

4. 通过微调实现有效的自动提示工程

PAS 能够对用户输入进行简洁而有效的补充，实现快速、简单且支持流式显示的自动提示工程。

在多个基准测试中，PAS 的表现远超既有的 SOTA 模型，且所需数据量更少。人工评测结果同样显示 PAS 具有优异表现，凸显了其在实际应用中的巨大潜力。

这一突破性成果不仅推动了提示词工程的发展，也为大语言模型在更广泛领域的应用铺平了道路。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

论文地址：https://arxiv.org/abs/2407.06027
PKU-Baichuan-MLSystemLab：

https://github.com/PKU-Baichuan-MLSystemLab

https://huggingface.co/PKU-Baichuan-MLSystemLab

方法

还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

训练 PAS 主要分为三步：

第一步：构建高质量问题数据集

训练 PAS 的首要任务是建立一个高质量的问题数据集。如图 (a) 所示，研究人员根据 LMSYS-1M 和 WildChat 数据集，通过以下三方面筛选出优质问题：

1. 数据去重：运用 embedding 技术结合聚类算法，有效去除重复数据。

2. 质量筛选：利用百川大模型对数据质量进行评估和筛选。

3. 多样性保证：最终选出覆盖 10 多个类别的 9000 条高质量问题数据。

第二步：补充提示工程数据

在这一阶段，研究人员综合利用内部积累的 100 条高质量数据和第一步筛选的问题数据，通过 few-shot learning 方法，借助 GPT 模型构建自动提示工程数据：

1. 初始数据生成：使用 few-shot learning 指导 GPT 生成初步的提示工程数据。

2. 质量控制：设计 Critique 步骤，再次利用 few-shot learning 让 GPT 评估生成数据的质量。

3. 迭代优化：自动筛除低质量数据，并重新生成，通过多轮迭代确保数据质量。

4. 最终成果：最终得到 9000 条高质量的自动提示工程数据。

还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

Cutout.Pro

AI驱动的视觉设计平台

下载

数据分布

生成的 9000 条数据的分布情况如上图所示，确保了数据的多样性和代表性。

第三步：微调自动提示模型

最后一步将利用前两个阶段获得的数据集来微调大型语言模型：

1. 选择基础模型：如 Qwen2-7b 等模型。

2. 定向微调：使用高质量数据集进行微调。

3. 专业化训练：最终得到一个专门用于自动提示工程的大语言模型。

实验及结果

还在死磕AI咒语？北大-百川搞了个自动提示工程系统PAS

人工评测

根据人类评估员的测评，相比先前的 SOTA（State-of-the-Art）模型，PAS 在各领域均展现出较高的胜率。在多个领域的平均胜率超过 50%，胜率与平局率之和更是高达 80% 以上。

机器评测 Benchmark

为全面评估 PAS 的性能，研究人员选择了Arena-Hard、Alpaca-Eval 2.0、Alpaca-Eval 2.0 (LC) 三个 benchmark。

随后，研究人员将 PAS 应用于六个顶尖的 AI 模型，包括：

GPT-4（三个版本）
GPT-3.5
Qwen2-72-Instruct
LLaMA3-70B-Instruct

评测结果显示：

相较于无提示情况和先前的 SOTA 自动提示工程模型，PAS 均取得了显著提升。
与之前的 BPO 模型相比，PAS 展现出更强的适应性，能够与各种超大模型兼容，并在每个模型上都实现了性能提升。

计算效率分析

PAS 不仅在性能上表现卓越，其计算效率也非常高：在数据效率方面，它仅需 9000 条微调数据便能展现出卓越性能。在输出效率方面，它能够限制补充自动提示的长度，通常不超过 30 个词。

对于用户体验而言，PAS 也为大模型带来了增益，具体来说：

与 BPO 等先前模型不同，PAS 无需修改用户的原始问题，仅进行补充自动提示。
提供极佳的用户体验，响应时间可控。
支持类似 GPT 的流式显示，进一步提升交互体验。

实例：PAS 帮助大模型绕开逻辑陷阱

「如果树上有 10 只鸟，其中一只被射死了，地上有多少只鸟？」

这个看似简单的问题实际上隐藏着一个巧妙的逻辑陷阱，你看到它可能也需要反应几秒，才知道树上还剩 9 只鸟，而地上只有 1 只。

正如图上所示，在没有 PAS 辅助的情况下，GPT 给出了错误的回答。而 PAS 系统通过补充提示词，显著改善了模型的表现：

在 PAS 的引导下，模型新一轮的回答展现出了显著的提升，不仅成功规避了问题中的逻辑陷阱，展示了清晰的、多步骤的逻辑推理过程，还能在给出正确答案之外引导用户理解整个推理过程。

感兴趣的读者可以阅读论文原文，了解更多研究内容。

aishort怎么避免重复生成内容_aishort优化输入方式实用技巧【技巧】

PerplexityAI怎么改写已有文章_PerplexityAI文本优化技巧【技巧】

如何提升代码运行的稳定性和效率利用DeepSeek进行自动化回归测试

如何快速掌握复杂的电路仿真设计利用豆包AI进行理论与实践步骤指导

如何零基础学会利用AI进行内容创作利用DeepSeek制定全套学习成长计划

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4373

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

503

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2927

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

270

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板