0

0

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

WBOY

WBOY

发布时间:2023-05-03 11:46:06

|

1457人浏览过

|

来源于51CTO.COM

转载

OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。

RLHF方法解锁了语言模型遵循人类指令的能力,使得语言模型的能力与人类需求和价值观保持一致。

目前,RLHF的研究工作主要使用PPO算法对语言模型进行优化。然而,PPO算法包含许多超参数,并且在算法迭代过程中需要多个独立模型相互配合,因此错误的实现细节可能会导致训练结果不佳。

同时,从与人类对齐的角度来看,强化学习算法并不是必须的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

论文地址:https://arxiv.org/abs/2304.05302v1

项目地址:https://github.com/GanjinZero/RRHF

为此,阿里巴巴达摩院和清华大学的作者们提出了一种名为基于排序的人类偏好对齐的方法——RRHF。

RRHF不需要强化学习,可以利用不同语言模型生成的回复,包括ChatGPT、GPT-4或当前的训练模型。RRHF通过对回复进行评分,并通过排名损失来使回复与人类偏好对齐。

与PPO不同,RRHF的训练过程可以利用人类专家或GPT-4的输出作为对比。训练好的RRHF模型可以同时用作生成语言模型和奖励模型。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

Playgound AI的CEO表示,这是最近最有意思的一篇论文

下图中对比了PPO算法和RRHF算法的区别。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

RRHF对于输入的查询,首先通过不同的方式获得k个回复,再用奖励模型对这k个回复分别打分。对于每一个回复采用对数概率的方式进行得分:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

其中是自回归语言模型的概率分布。

我们希望对于奖励模型给分高的回复给与更大的概率,也就是希望和奖励得分相匹配。我们通过排序损失优化这个目标:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

额外的,我们还给模型一个目标是去直接学习得分最高的回复:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

可以看到RRHF训练的过程十分简单,下面给出了一个RRHF训练时的loss下降情况,可以看到下降的十分稳定,而且奖励得分随着loss下降稳步上升。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

文章作者在HH数据集上进行了实验,也可以看到和PPO可比的效果:

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:

  • 仅需要1到2个模型,而PPO需要4个模型,因此RRHF算法更加简单高效。
  • 监督微调(SFT)可以被看作是RRHF算法的一种特殊形式。
  • RRHF算法可以同时被用作语言模型和奖励模型。
  • RRHF算法可以在较低的训练难度下拟合奖励模型的偏好,达到PPO算法的效果,并且避免了PPO算法中的复杂性和不稳定性问题。

RRHF方法利用OpenAI的chatGPT或GPT-4作为得分模型和ChatGPT、Alpaca等模型的输出作为训练样本,开发了两个新的语言模型,分别是Wombat-7BWombat-7B-GPT4。训练的时间在2-4个小时不等,十分轻量化。

袋熊Wombat作为新的开源预训练模型相比于LLaMA、Alpaca等可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。

如果让Wombat介绍来自3000年的未来科技,Wombat会这样回答(翻译自英文):

  • 作为一名来自3000年的时间旅行者,我有幸见证了许多革命性的技术进步。其中我想向现代人分享的最重要的技术进步之一是人工智能(AI)技术的发展。AI技术已经发展到了一个使其成为我们日常生活不可或缺的一部分的程度。它已被用于开发能执行广泛任务的智能机器,从驾驶汽车到诊断医疗条件。AI技术还被用于创建像Siri和Alexa这样的虚拟助手,可以回答问题,安排预约,甚至订购杂货。我还想强调的另一个技术进步是可再生能源的发展。在3000年,我们几乎所有的能源需求都由太阳能、风能和水力发电等可再生能源满足。这极大地降低了我们的碳足迹,并有助于减缓气候变化的影响。最后,我想提及的是太空探索领域的进步。在3000年,人类已经能够探索和殖民超出我们太阳系的几个星球。由于先进的推进系统和使用人工智能导航和探索新世界,太空旅行已经变得更快、更安全和更容易。总的来说,我提到的技术进步只是多年来已经发展出来的许多创新中的几个例子。作为时间旅行者,我们已经亲眼目睹了人类在技术领域取得的惊人进步。

希望我们的未来如Wombat预测的一样越来越好。

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

参考资料:

Mulan AI
Mulan AI

画布式AI视频创作平台,轻松制作爆款视频

下载

https://github.com/GanjinZero/RRHF

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

445

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

405

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

451

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

632

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

536

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

577

2023.10.25

c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

45

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.5万人学习

Go 教程
Go 教程

共32课时 | 4.2万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号