人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

PHPz

发布时间：2024-05-13 15:22:01

394人浏览过

来源于机器之心

转载

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

自我博弈（self play）就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。

今年年初，加利福尼亚大学洛杉矶分校（UCLA）的顾全全教授团队提出了一种自我博弈微调方法 (Self-Play Fine-Tuning, SPIN)，可不使用额外微调数据，仅靠自我博弈就能大幅提升 LLM 的能力。

最近，顾全全教授团队和卡内基梅隆大学（CMU）Yiming Yang教授团队合作开发了一种名为「自我博弈偏好优化（Self-Play Preference Optimization, SPPO）」的对齐技术，这一新方法旨在通过自我博弈的框架来优化大语言模型的行为，使其更好地符合人类的偏好。左右互搏再显神通！

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

人类偏好就是尺！sppo对齐技术让大语言模型左右互搏、自我博弈

论文标题：Self-Play Preference Optimization for Language Model Alignment
论文链接：https://arxiv.org/pdf/2405.00675.pdf

技术背景与挑战

大语言模型（LLM）正成为人工智能领域的重要推动力，凭借其出色的文本生成和理解能力在种任务中表现卓越。尽管LLM的能力令人瞩目，但要使这些模型的输出行为更符合实际应用中的需求，通常需要通过对齐（alignment）过程进行微调。

这个过程关键在于调整模型以更好地反映人类的偏好和行为准则。常见的方法包括基于人类反馈的强化学习（RLHF）或者直接偏好优化（Direct Preference Optimization,DPO）。

基于人类反馈的强化学习（RLHF）依赖于显式的维护一个奖励模型用来调整和细化大语言模型。换言之，例如，InstructGPT就是基于人类偏好数据先训练一个服从Bradley-Terry模型的奖励函数，然后使用像近似策略优化（Proximal Policy Optimization,PPO）的强化学习算法去优化大语言模型。去年，研究者们提出了直接偏好优化（Direct Preference Optimization,DPO）。

不同于RLHF维护一个显式的奖励模型，DPO算法隐含的服从Bradley-Terry模型，但可以直接用于大语言模型优化。已有工作试图通过多次迭代的使用DPO来进一步微调大模型 (图1)。

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

^{图1.基于Bradley-Terry模型的迭代优化方法缺乏理论理解和保证}

如Bradley-Terry这样的参数模型会为每个选择提供一个数值分数。这些模型虽然提供了合理的人类偏好近似，但未能完全捕获人类行为的复杂性。

这些模型往往假设不同选择之间的偏好关系是单调和传递的，而实证证据却常常显示出人类决策的非一致性和非线性，例如Tversky的研究观察到人类决策可能会受到多种因素的影响，并表现出不一致性。

SPPO的理论基础与方法

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

Winston AI

强大的AI内容检测解决方案

下载

^{图2.假想的两个语言模型进行常和博弈。}

在这些背景下，作者提出了一个新的自我博弈框架 SPPO，该框架不仅具有解决两玩家常和博弈（two-player constant-sum game）的可证明保证，而且可以扩展到大规模的高效微调大型语言模型。

具体来说，文章将RLHF问题严格定义为一个两玩家常和博弈（图2）。该工作的目标是识别纳什均衡策略，这种策略在平均意义上始终能提供比其他任何策略更受偏好的回复。

为了近似地识别纳什均衡策略，作者采用了具有乘法权重的经典在线自适应算法作为解决两玩家博弈的高层框架算法。

在该框架的每一步内，算法可以通过自我博弈机制来近似乘法权重更新，其中在每一轮中，大语言模型都在针对上一轮的自身进行微调，通过模型生成的合成数据和偏好模型的注释来进行优化。

具体来说，大语言模型在每一轮回会针对每个提示生成若干回复；依据偏好模型的标注，算法可以估计出每个回复的胜率；算法从而可以进一步微调大语言模型的参数使得那些胜率高的回复拥有更高的出现概率（图3）。

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

^{图3.自我博弈算法的目标是微调自身从而胜过上一轮的语言模型}

实验设计与成果

在实验中，研究团队采用了一种Mistral-7B作为基线模型，并使用了UltraFeedback数据集的60,000个提示(prompt)进行无监督训练。他们发现，通过自我博弈的方式，模型能够显著提高在多个评估平台上的表现，例如AlpacaEval 2.0和MT-Bench。这些平台广泛用于评估模型生成文本的质量和相关性。

通过SPPO方法，模型不仅在生成文本的流畅性和准确性上得到了改进，更重要的是：「它在符合人类价值和偏好方面表现得更加出色」。

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

^{图4.SPPO模型在AlpacaEval 2.0上的效果提升显著，且高于如 Iterative DPO 的其他基准方法。}

在AlpacaEval 2.0的测试中（图4），经过SPPO优化的模型在长度控制胜率方面从基线模型的17.11%提升到了28.53%，显示了其对人类偏好理解的显著提高。经过三轮SPPO优化的模型在AlpacaEval2.0上显著优于多轮迭代的DPO, IPO和自我奖励的语言模型（Self-Rewarding LM）。

此外，该模型在MT-Bench上的表现也超过了传统通过人类反馈调优的模型。这证明了SPPO在自动调整模型行为以适应复杂任务方面的有效性。

结论与未来展望

自我博弈偏好优化（SPPO）为大语言模型提供了一个全新的优化路径，不仅提高了模型的生成质量，更重要的是提高了模型与人类偏好的对齐度。

随着技术的不断发展和优化，预计SPPO及其衍生技术将在人工智能的可持续发展和社会应用中发挥更大的作用，为构建更加智能和负责任的AI系统铺平道路。

aishort怎么避免重复生成内容_aishort优化输入方式实用技巧【技巧】

PerplexityAI怎么改写已有文章_PerplexityAI文本优化技巧【技巧】

如何提升代码运行的稳定性和效率利用DeepSeek进行自动化回归测试

如何快速掌握复杂的电路仿真设计利用豆包AI进行理论与实践步骤指导

如何零基础学会利用AI进行内容创作利用DeepSeek制定全套学习成长计划

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

504

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2932

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

热门下载

网站特效

网站源码

网站素材

前端模板