LLM | 偏好学习算法并不学习偏好排序

WBOY

发布时间：2024-06-05 11:43:45

1375人浏览过

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

一、结论写在前面

偏好学习算法（preference learning algorithms）如rlhf和dpo）常用于引导大型语言模型（llms）生成更符合人类偏好的内容。但是，文献对其内部机制的理解仍有限。论文探讨了传统观点，即偏好学习训练模型通过排序准确性来赋予更偏好的输出比不太偏好的输出更高的似然性。

论文的工作凸显了偏好学习与排序准确性之间显著但关系微弱。论文理论和实证上都证明了RLHF和DPO难以教会模型正确地对偏好和非偏好好输出进行排序，即使在训练数据集中也是如此。尽管学习目标理论上促进了高排序准确性。论文发现大多数最先进的偏好调整模型在常见偏好数据集上的排序准确率不超过60%。论文进一步推导了如果偏好调整的LLM完美优化DPO或RLHF目标，其理想化的排序准确率。

论文证明现有模型存在显著的对齐差距——即观察察觉到的与理想化的排序准确率之间的差距。论文认为这种差异源于DPO目标，该目标在经验上和理论上都不适合修正参考模型中的轻微排序错误，并推导出一个简单高效的公式来量化学习特定偏好数据点的难度。最后，论文证明当模型接近目标中使用的参考模型时，排序准确性与经验上流行的胜率指标高度相关，进一步揭示了策略内（如RLHF）和策略外（如DPO）偏好学习算法之间的差异。

二、论文的简单介绍

2.1 论文的背景

偏好学习算法最初设计用于使用者之间的成对偏好数据集来训练模型，以准确性为目标。即，模型能够精确地将偏好的输出排在不偏好的输出之上。在语言模型的情况下，排序由分配给每个候选的相似性决定。因此，模型能够根据语义模型的情况，排序由分配给每个候选的相似性决定。

许多语言模型对齐技术早在产生具有高偏好排序准确性的模型，包括SLiC、RAFT、PRO和RRHF。最著名的是，Rafailov等人声称他们流行的直接偏好优化(DPO)算法"增加了优选响应相对于非优选响应的对数概率"。通常通过测量结果模型的生成结果相对于另一个模型的偏好程度(即胜率)来评估这些不同的目标[69]。然而，损失函数、排序准确性和胜率之间的关系尚不清楚，这让人不禁怀疑这些对齐技术在训练过程中实际上在做什么。

2.2 对齐差距

使用完美的参考模型训练以达到较低的DPO损失，将产生一个具有完美排序准确性的模型。然而，图1a显示，现实世界的参考模型在常见的偏好数据集上排序准确性较低，这促使讨论文研究更现实、不完美的参考模型。

2.2.1 现有参考模型很少具有正确排序

图1a表明，参考模型在常见的偏好数据集上很少能达到高排序准确性（除了合成指令GPT-J成对数据集），尽管许多模型可能已经根据偏好完成进行了训练。许多模型的训练数据没有详细记录，因此讨论文不清楚楚哪些偏好数据集，如果有的话，是分布内的。讨论还对几个预训练的大型语言模型（LLMs）进行了微调，以偏好完成，并观察到排序准确性并没有显著提高。基于讨论的发现，讨论转向不完美的参考模型的情况。

2.2.2 理想化的排序准确性

论文上面表明，从经验上看，参考模型在排序可能的完成时间表现出较大的准确性。然而，RLHF奖励和DPO目标被设计为确保模型学习偏好数据集，但不会偏离参考模型rRef太远，因此偏好调整模型的可能准确性可能存在限制。在这里，论文通过研究在完美优化DPO或RLHF时，当访问完美数据（即人类偏好的真实比例）时，最优策略将是什么，来正式化这一直观。

LLM | 偏好学习算法并不学习偏好排序

2.2.3 测量对齐差距

论文发现了一些令人惊讶的结果。首先，即使在理想条件下(即在真实偏好数据上完美优化目标函数)，理想排序准确性有时仍低于100%。这种差距随着β的选择而变化，表明DPO/RLHF的极限在很大程度上取决于对πRef的依赖程度。此外，论文发现许多最先进的模型都无法达到接近理想排序准确性的排序准确性，表现出19到59个百分点的对齐差距。

表1：现有算法的理想排名准确性并不完美，但偏好调整模型显示出的排名准确性远未达到这种理想情况。论文提供了在Alpaca Farm [8]验证数据集（详见附录C.2）上，多种开放访问的偏好调整模型的长度归一化（R）和非长度归一化（R）排名准确性。同时提供了理想排名准确性（推论3.3）。由于理想排名准确性可以通过多种B值计算，论文提供了最小、中位数和最大理想排名准确性值的范围，详情见附录C.4

LLM | 偏好学习算法并不学习偏好排序图片

2.3 理解DPO的排名准确性

论文现在转向训练目标来解释对齐差距。论文专注于DPO目标，因为其未能达到高排名准确性特别令人惊讶（表1）。特别是，DPO直接在线下数据集上最大化偏好-非偏好对的奖励边际，因此论文期望它在分布外的保留数据上表现良好。论文还注意到，DPO是社区中对齐LLMs的流行选择，因为它比执行RLHF成本更低。

2.3.1 DPO很少改变偏好排序

为了研究DPO训练过程中排序准确性的变化，论文在Anthropic HH-RLHF偏好数据集上训练了三种规模的模型(GPT-2、Pythia 2.8B和Llama 2-7B)，每种模型都有三个随机种子，并研究了训练数据集的不同分区上的排序准确性。论文在图2中展示了训练一个Pythia 2.8B模型的结果，其他两个模型的结果放在附录D.2中。在图2中，论文根据参考模型πRef是否具有正确的排序以及当前模型πθ是否具有正确的排序，将训练数据集中随机抽取的1K个样本划分为四组。

Chromox

Chromox是一款领先的AI在线生成平台，专为喜欢AI生成技术的爱好者制作的多种图像、视频生成方式的内容型工具平台。

下载

令人惊讶的是，图2显示，尽管DPO在训练过程中持续降低损失Cppo，但它很少改变排序。除了模型忘记正确偏好排序的那组点之外，论文观察到损失持续下降，奖励边际持续增加。然而，在验证损失最低的点，不到一半的错误排序点已被翻转为正确的排序。这表明DPO目标在实际中诱导高排序准确性方面存在问题。

LLM | 偏好学习算法并不学习偏好排序图片

图2：尽管不断降低损失，DPO很少颠倒对子的排名，而是主要增加了已正确排序对子的奖励边际。论文使用DPO目标训练了一个Pythia-2.8B模型，并将训练数据集分为四个子集：初始时排名正确并被翻转为（1）正确或（2）错误的例子，以及初始时排名错误并被翻转为（3）正确或（4）错误的例子。在所有三个图中，点的色调表示类别。虚线垂直线表示评估损失达到最低的训练步骤。论文还为另外两个模型提供了每种三个种子的结果，详见附录D

LLM | 偏好学习算法并不学习偏好排序图片

图 3：单独的 DPO 损失并不能预测排名准确性，这是由于损失中参考模型对数比率的影响。每个点代表来自训练数据集 1K 子样本中一个独立训练示例的 DPO 损失，使用的是对应于验证损失最低检查点的模型 rg-。每个点的颜色表示 wg 是否在该示例上实现了正确的排名，即是否 o (yw .c) > To* (yw w)。虚线是定理 4.1 中的函数 f(c) = - log o(3o)。总之，tg- 正确分类的示例往往是参考模型已经正确分类的那些。

2.3.2 分析：翻转排名有多容易？

下面的结果表明，DPO 损失可以在模型排名准确性没有改善的情况下显著降低。论文的理论成果使论文能够正式识别那些在其排名中难以翻转的点。图 3 展示了多种设置下的参考模型对数比率，并强调了即使在参考模型中排名错误轻微的数据点，也需要损失降低到非常低的值才能翻转排名。论文观察到，难以学习的数据点明显比易于学习的点要长，而且易于学习的数据点通常包含的偏好注释较为明确。更广泛地说，论文的结果激发了使用更强大的 TRef 模型以及 DPO 的迭代或策略内变体的需求。

2.4 排名准确性与胜率

论文对排名准确性的研究揭示了 DPO 和 RLHF 如何与偏好数据对齐，但论文尚未将这些见解与模型在对齐过程中生成行为的变化联系起来。特别是，排名准确性是一个方便但策略外的指标，因此不如策略内指标（如胜率）那样被广泛采用（见第 2.2 节）。论文通过排名准确性和胜率的视角，探讨了大型语言模型（LLMs）的策略内（即生成性）和策略外（即分类性）行为之间的差距。由于 DPO 目标直接优化排名准确性（命题 2.6），这两个指标之间的关系直接反映了策略外训练如何影响策略内行为。

论文研究了胜率与排名准确性之间的关系，具体在两种情况下进行：(1) 在DPO训练期间，以及(2) 在一种调节TRef影响的DPO变体中。论文使用Alpaca Eval GPT4 自动标注工具对训练数据集中的500个响应进行胜率测量。

论文推测，当模型与参考模型相距较远时，向参考模型进行正则化可能会损害模型在预训练阶段主要获得生成能力。换句话说，当离线目标中使用的参考模型与当前模型相距甚远时，模型的离策略行为无法再可预测地描述在线策略生成。论文的发现证实了在拟合偏好数据与维持预训练阶段获得的生成能力之间的基本权衡[21]，并与先前的观察结果一致，即添加在线策略偏好数据可以使离线学习更有效[48， 63， 23， 51]。

LLM | 偏好学习算法并不学习偏好排序图片

图4：当模型权重未远离ORef时，排名准确率和胜率同步增加。 LLM | 偏好学习算法并不学习偏好排序表示在检查点t时的模型权重，而0，表示模型权重转移

论文标题：Preference Learning Algorithms Do Not Learn Preference Rankings

论文链接：https://www.php.cn/link/b984bddf9e7c8fb09854e208c0284764

如何提升代码执行的低延迟性能利用DeepSeek优化底层算法逻辑减少冗余

如何提升PPT图表的数据分析深度利用Excel AI插件自动生成趋势预测

MagicAgent— 荣耀联合复旦推出的智能体基础模型

如何提升小红书笔记的封面点击率利用Midjourney生成符合审美潮流的配图

论文ai率怎么查_论文ai率检测方法【工具】

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

497

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2910

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04