重新审视Prompt优化问题，预测偏差让语言模型上下文学习更强

王林

发布时间：2023-04-04 11:40:01

1675人浏览过

来源于51CTO.COM

转载

llms 在 in-context learning 下取得了良好的表现，但是选取不同的示例会导致截然不同的表现。一项最新的研究工作从预测偏差 (predictive bias) 角度，提出了 prompt 搜索策略，近似找到了最优的示例组合。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接: https://arxiv.org/abs/2303.13217
代码链接: https://github.com/MaHuanAAA/g_fair_searching

研究介绍

大型语言模型在上下文学习中表现出了惊人的能力，这些模型可以通过几个输入输出示例构建的上下文进行学习，无需微调优化直接应用于许多下游任务。然而，先前的研究表明，由于训练样本 (training examples)、示例顺序 (example order) 和提示格式 (prompt formats) 的变化，上下文学习可能会表现出高度的不稳定性。因此，构建适当的 prompt 对于提高上下文学习的表现至关重要。

以前的研究通常从两个方向研究这个问题：（1）编码空间中的提示调整 (prompt tuning)，（2）在原始空间中进行搜索 (prompt searching)。

Prompt tuning 的关键思想是将任务特定的 embedding 注入隐藏层，然后使用基于梯度的优化来调整这些 embeddings。然而，这些方法需要修改模型的原始推理过程并且获得模型梯度，这在像 GPT-3 和 ChatGPT 这样的黑盒 LLM 服务中是不切实际的。此外，提示调整会引入额外的计算和存储成本，这对于 LLM 通常是昂贵的。

更可行且高效的方法是通过在原始文本空间中搜索近似的演示样本和顺序来优化提示。一些工作从 “Global view” 或 “Local view” 构建提示。基于 Global view 的方法通常将提示的不同元素作为整体进行优化，以达到更优异的性能。例如，Diversity-guided [1] 的方法利用演示的整体多样性的搜索，或者试图优化整个示例组合顺序 [2]，以实现更好的性能。与 Global view 相反，基于 Local view 的方法通过设计不同的启发式选择标准，例如 KATE [3]。

但这些方法都有各自的局限性：（1）目前的大多数研究主要集中在沿着单个因素搜索提示，例如示例选择或顺序。然而各个因素对性能的总体影响尚不清楚。（2）这些方法通常基于启发式标准，需要一个统一的视角来解释这些方法是如何工作的。（3）更重要的是，现有的方法会全局或局部地优化提示，这可能会导致性能不理想。

本文从 “预测偏差” 的角度重新审视了 NLP 领域中的 prompt 优化问题，发现了一个关键现象：一个给定的 prompt 的质量取决于它的内在偏差。基于这个现象，文章提出了一个基于预测偏差的替代标准来评估 prompt 的质量，该度量方法能够在不需要额外开发集 (development set) 的情况下通过单个前向过程来评估 prompt。

具体来说，通过在一个给定的 prompt 下输入一个 “无内容” 的测试，期望模型输出一个均匀的预测分布（一个 “无内容” 的输入不包含任何有用的信息）。因此，文中利用预测分布的均匀性来表示给定 prompt 的预测偏差。这与先前的后校准方法 [4] 用的指标类似，但与后校准在固定的 prompt 情况下使用这个 metric 进行概率后校准不同的是，文中进一步探索了其在自动搜索近似 prompt 中的应用。并通过大量实验证实了一个给定 prompt 的内在偏差和它在给定测试集上的平均任务表现之间的相关性。

AdsGo AI

全自动 AI 广告专家，助您在数分钟内完成广告搭建、优化及扩量

下载

此外，这种基于偏差的度量使该方法能够以 “局部到全局” 的方式搜索合适的 prompt。然而，一个现实的问题是无法通过遍历所有组合的方式搜索最优解，因为它的复杂度将超过 O (N!)。

该工作提出了两种新颖的策略以高效的方式搜索高质量的 prompt：(1) T-fair-Prompting (2) G-fair-Prompting。T-fair-Prompting 使用一种直观的方式，首先计算每个示例单独组成 prompt 的偏差，然后选择 Top-k 个最公平示例组合成最终 prompt。这个策略相当高效，复杂度为 O (N)。但需要注意的是，T-fair-Prompting 基于这样的假设：最优的 prompt 通常是由偏差最小的示例构建的。然而，这在实际情况下可能并不成立，并且往往会导致局部最优解。因此，文章中进一步介绍了 G-fair-Prompting 来改善搜索质量。G-fair-Prompting 遵循贪心搜索的常规过程，通过在每个步骤上进行局部最优选择来找到最优解。在算法的每一步，所选择的示例都能使更新的 prompt 获得最佳的公平性，最坏情况时间复杂度为 O (N^2)，搜索质量显著提高。G-fair-Prompting 从局部到全局的角度进行工作，其中在早期阶段考虑单个样本的偏差，而在后期阶段则侧重于减少全局预测偏差。

实验结果

该研究提出了一种有效和可解释的方法来提高语言模型的上下文学习性能，这种方法可以应用于各种下游任务。文章验证了这两种策略在各种 LLMs（包括 GPT 系列模型和最近发布的 LMaMA 系列）上的有效性，G-fair-Prompting 与 SOTA 方法相比，在不同的下游任务上获得了超过 10％的相对改进。

与该研究最相近的是 Calibration-before-use [4] 方法，两者都使用 “无内容” 的输入提高模型的表现。但是，Calibration-before-use 方法旨在使用该标准来校准输出，而该输出仍然容易受到所使用示例的质量的影响。与之相比，本文旨在搜索原始空间找到近似最优的 prompt，以提高模型的性能，而不需要对模型输出进行任何后处理。此外，该文首次通过大量实验验证了预测偏差与最终任务性能之间的联系，这在 Calibration-before-use 方法中尚未研究。

通过实验还能发现，即使不进行校准，该文章所提方法选择的 prompt 也可以优于经过校准的随机选择的 prompt。这表明该方法可以在实际应用中具有实用性和有效性，可以为未来的自然语言处理研究提供启示。

Perplexity Max版和Pro版区别_Perplexity订阅计划对比选择【建议】

Perplexity如何搜索Reddit讨论内容_Perplexity社区观点检索指南【技巧】

Solaris— 谢赛宁研究团队开源的多人视频世界生成模型

Perplexity如何使用Gemini模型_Perplexity多模型协作搜索教程【高级】

Perplexity怎么做研究报告_Perplexity信息整理方法【方法】

相关专题

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

114

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

141

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

396

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

111

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板