系统回顾深度强化学习预训练，在线、离线等研究这一篇就够了

王林

发布时间：2023-04-09 11:31:03

2034人浏览过

来源于51CTO.COM

转载

近年来，强化学习 (RL) 在深度学习的带动下发展迅速，从游戏到机器人领域的各种突破，激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而，现有 RL 研究普遍让智能体在面对新的任务时只能从零开始学习，难以利用预先获取的先验知识来辅助决策，导致很大的计算开销。

而在监督学习领域，预训练范式已经被验证为有效的获得可迁移先验知识的方式，通过在大规模数据集上进行预训练，网络模型能够快速适应不同的下游任务上。相似的思路同样在 RL 中有所尝试，尤其是近段时间关于 “通才” 智能体 [1, 2] 的研究，让人不禁思考是否在 RL 领域也能诞生如 GPT-3 [3] 那样的通用预训练模型。

然而，预训练在 RL 领域的应用面临着诸多挑战，例如上下游任务之间的显著差异、预训练数据如何高效获取与利用、先验知识如何有效迁移等问题都阻碍了预训练范式在 RL 中的成功应用。同时，过往研究考虑的实验设定和方法存在很大差异，这令研究者很难在现实场景下设计合适的预训练模型。

为了梳理预训练在 RL 领域的发展以及未来可能的发展方向，来自上海交通大学和腾讯的研究者撰文综述，讨论现有 RL 预训练在不同设定下的细分方法和待解决的问题。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2211.03959.pdf

绘蛙AI商品图

电商场景的AI创作平台，无需高薪聘请商拍和文案团队，使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载

RL 预训练简介

强化学习（RL）为顺序决策提供了一个通用的数学形式。通过 RL 算法和深度神经网络，在不同领域的各种应用上实现了以数据驱动的方式、优化指定奖励函数学习到的智能体取得了超越人类的表现。然而，虽然 RL 已被证明可以有效地解决指定任务，但样本效率和泛化能力仍然是阻碍 RL 在现实世界应用中的两大障碍。在 RL 研究中，一个标准的范式是让智能体从自己或他人收集的经验中学习，针对单一任务，通过随机初始化来优化神经网络。与之相反，对人类来说，世界先验知识对决策过程有很大的帮助。如果任务与以前看到的任务有关，人类倾向于复用已经学到的知识来快速适应新的任务，而不需要从头开始学习。因此，与人类相比， RL 智能体存在数据效率低下问题，而且容易出现过拟合现象。

然而，机器学习其他领域的最新进展积极倡导利用从大规模预训练中构建的先验知识。通过对广泛的数据进行大规模训练，大型基础模型 (foundation models) 可以快速适应各种下游任务。这种预训练 - 微调范式在计算机视觉和自然语言处理等领域已被证明有效。然而，预训练还没有对 RL 领域产生重大影响。尽管这种方法很有前景，但设计大规模 RL 预训练的原则面临诸多挑战。1）领域和任务的多样性；2）有限的数据源；3）快速适应解决下游任务的难度。这些因素源于 RL 的内在特征，需要研究者加以特别考虑。

预训练对 RL 有很大的潜力，这项研究可以作为对这一方向感兴趣的人的起点。本文中，研究者试图对现有深度强化学习的预训练工作进行系统的回顾。

近年来，深度强化学习预训练经历了几次突破性进展。首先，基于专家示范的预训练使用监督学习来预测专家所采取的行动，已经在 AlphaGo 上得到应用。为了追求更少监督的大规模预训练，无监督 RL 领域发展迅速，它允许智能体在没有奖励信号的情况下从与环境的互动中学习。此外，离线强化学习 (offline RL) 发展迅猛，又促使研究人员进一步考虑如何利用无标签和次优的离线数据进行预训练。最后，基于多任务和多模态数据的离线训练方法进一步为通用的预训练范式铺平了道路。

在线预训练

以往 RL 的成功都是在密集和设计良好的奖励函数下实现的。在诸多领域取得巨大进展的传统 RL 范式，在扩展到大规模预训练时面临两个关键挑战。首先，RL 智能体很容易过拟合，用复杂的任务奖励预训练得到的智能体很难在从未见过的任务上取得很好的性能。此外，设计奖励函数通常十分昂贵，需要大量专家知识，这在实际中无疑是个很大的挑战。

无奖励信号的在线预训练可能会成为学习通用先验知识的可用解决方案，并且是无需人工参与的监督信号。在线预训练旨在在没有人类监督的情况下，通过与环境的交互来获得先验知识。在预训练阶段，智能体被允许与环境进行长时间的交互，但不能获得外在奖励。这种解决方案，也被称为无监督 RL，近年来研究者一直在积极研究。

为了激励智能体在没有任何监督信号的情况下从环境中获取先验知识，一种成熟的方法是为智能体设计内在奖励 (intrinsic reward) ，鼓励智能体通过收集多样的经验或掌握可迁移的技能，相应地设计奖励机制。先前研究已经表明，通过内在奖励和标准 RL 算法进行在线预训练，智能体能够快速适应下游任务。

离线预训练

尽管在线预训练在无需人类监督的情况下能够取得很好的预训练效果，但对于大规模应用来说，在线预训练仍然是有限的。毕竟，在线的交互与在大型和多样化的数据集上进行训练的需求在一定程度上是互斥的。为了解决这个问题，人们往往希望将数据收集和预训练环节脱钩，直接利用从其他智能体或人类收集的历史数据进行预训练。

一个可行的解决方案是离线强化学习。离线强化学习的目的是从离线数据中获得一个奖励最大化的 RL 策略。其所面临的一个基本挑战是分布偏移问题，即训练数据和测试期间看到的数据之间的分布差异。现有的离线强化学习方法关注如何在使用函数近似时解决这一挑战。例如，策略约束方法明确要求学到的策略避免采取数据集中未见的动作，价值正则化方法则通过将价值函数拟合到某种形式的下限，缓解了价值函数的高估问题。然而，离线训练的策略是否能泛化到离线数据集中未见的新环境中，仍然没有得到充分的探索。

或许，我们可以避开 RL 策略的学习，而是利用离线数据学习有利于下游任务的收敛速度或最终性能的先验知识。更有趣的是，如果我们的模型能够在没有人类监督的情况下利用离线数据，它就有可能从海量的数据中获益。本文中，研究者把这种设定称为离线预训练，智能体可以从离线数据中提取重要的信息（例如，良好的表征和行为先验）。

迈向通用智能体

在单一环境和单一模态下的预训练方法主要集中于以上提到的在线预训练和离线预训练设定，而在最近，领域内的研究者对建立一个单一的通用决策模型的兴趣激增（例如，Gato [1] 和 Multi-game DT [2]），使得同一模型能够处理不同环境中不同模态的任务。为了使智能体能够从各种开放式任务中学习并适应这些任务，该研究希望能够利用不同形式的大量先验知识，如视觉感知和语言理解。更为重要地是，如果研究者能成功地在 RL 和其他领域的机器学习之间架起一座桥梁，将以前的成功经验结合起来，或许可以建立一个能够完成各种任务的通用智能体模型。

DeepSeek生成的文章查重率高怎么办_要求其改变叙述结构并加入特定的行业案例分析

如何用提示词学英语_AI作为语言陪练指令集【学习】

如何训练自己的AI模型？LoRA模型训练入门指南

Stable Diffusion XL (SDXL)是什么？与原版有何区别

AI帮你学乐器，哪些App能实时反馈弹奏错误？

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

406

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2065

2024.08.16

拼多多赚钱的5种方法拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变，以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销，利用平台社交电商红利实现盈利。

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页，请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”，点击“添加新页面”并输入网址。若要使用主页按钮，需在“外观”设置中开启“显示主页按钮”并设定网址。

2026.01.26

苹果官方查询网站苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行，可用于查询序列号（SN）对应的保修状态、激活日期及技术支持服务。此外，查找丢失设备请使用 iCloud.com/find，购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

2026.01.26

npd人格什么意思 npd人格有什么特征

NPD（Narcissistic Personality Disorder）即自恋型人格障碍，是一种心理健康问题，特点是极度夸大自我重要性、需要过度赞美与关注，同时极度缺乏共情能力，背后常掩藏着低自尊和不安全感，影响人际关系、工作和生活，通常在青少年时期开始显现，需由专业人士诊断。

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心（Windows Defender）可通过系统设置暂时关闭，或使用组策略/注册表永久关闭。最简单的方法是：进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置，将实时保护等选项关闭。

2026.01.26

2026年春运抢票攻略大全春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务，并强调官方渠道唯一性与信息安全。

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例，应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元，专项扣除 1000 元，专项附加扣除 2000 元，当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元，对应税率为 3%，速算扣除数为 0，则当月应纳税额为 2000×3% = 60 元。

2026.01.26

热门下载

网站特效

网站源码

网站素材

前端模板