0

0

DeepSeek GRPO或致模型崩溃,Qwen3新范式GSPO能否成新标准?

星夢妙者

星夢妙者

发布时间:2025-09-19 14:14:01

|

393人浏览过

|

来源于php中文网

原创

大型语言模型的训练一般分为“预训练”和“后训练”两个阶段。“预训练”阶段,开发者借助大规模文本数据集对模型进行训练,使其学会预测句子中的下一个词;“后训练”阶段,则致力于让模型更好地理解和执行人类指令,此阶段似乎是强化学习的一种特殊形式。

用于大语言模型(LLMs)微调的强化学习(RL)算法正不断演进。起初,OpenAI开创了基于人类反馈的强化学习(RLHF)技术来改进ChatGPT。该技术让人类标注员对模型生成的多种响应打分,选出最优答案作为训练参考。不过,这一过程耗时、昂贵且依赖人力,通常需要一支专业的数据标注团队。

DeepSeek用RL技术自动化了这一环节,算法让模型在探索中通过获得“奖励信号”自主学习正确行为,降低了成本,提高了效率。OpenAI在ChatGPT训练中采用了近端策略优化(Proximal Policy Optimization, PPO),而DeepSeek团队提出了组相对策略优化(Group Relative Policy Optimization, GRPO)算法,这也是DeepSeek - R1中的核心技术。

GRPO的核心创新在于消除了对计算密集型价值模型的依赖。它采用群组生成和相对评估机制,对于给定输入提示,系统生成G个不同响应构成群组,奖励模型对群组内所有响应评分,再计算群组内分数的均值和标准差,为每个响应计算相对优势值。优于群组平均水平的响应获正向优势,反之获负向优势。这种设计降低了强化学习训练的内存占用和计算复杂度,让大规模模型训练更高效可行。

Qwen3首次亮相时,其旗舰模型性能就与DeepSeek - R1、o3 - mini、Gemini 2.5 Pro等顶级模型相当。Qwen3系列模型覆盖MoE模型和密集模型,还有众多细分版本,且仍在不断迭代更新,如Qwen3 - 235B - A22B - Instruct - 2507 - FP8在知识数学、编程、人类偏好对齐、Agent能力等测评中表现出色,超过了Kimi - K2、DeepSeek - V3等顶级开源模型以及Claude - Opus4 - Non - thinking等领先闭源模型。

最近,Qwen团队发布论文,揭示了Qwen3模型成功的核心技术细节——组序列策略优化(Group Sequence Policy Optimization, GSPO)算法。有分析指出,使用GRPO训练大语言模型存在严重稳定性问题,会导致模型崩溃。GRPO将重要性采样权重应用于每个token,而非整个生成序列。

在强化学习中,重要性采样用于校正行为策略与目标策略的差异,当两者不一致时,为已有数据样本赋予权重,使样本更能代表目标策略,提升训练稳定性和有效性。但GRPO在每个token生成步骤单独计算重要性权重,在训练目标中应用此类权重时,因每个token比值独立计算,会导致高方差累积,破坏梯度稳定性,引发模型崩溃。同时,这种做法会将高方差噪声引入训练梯度,在长序列上累积,存在“裁剪机制”时,不稳定性问题会加剧。

在专家混合模型(Mixture - of - Experts, MoE)中,GRPO的问题更严重,因为token级别的路由变化会加剧不稳定性,基于GRPO的训练流程通常需依赖“路由重放”等额外策略。Qwen团队通过实验验证了理论分析。在所有实验场景中,新提出的GSPO算法均比GRPO有更高的训练效率。

通义万相
通义万相

通义万相,一个不断进化的AI艺术创作大模型

下载

在CodeForces任务中,GRPO最终得分收敛于2000分以下,而GSPO随训练计算量增加持续提升成绩,展现出更强的“可扩展性”。那么,GSPO是如何解决这些问题的呢?GSPO将重要性采样从token级转移至序列级,其重要性比值基于整个序列的似然度计算。这种采样权重设计缓解了逐token方差的累积问题,提升了训练稳定性。

指数中的因子用于“长度归一化”,若不进行长度归一化,几个token的似然变化就可能导致序列级重要性比值剧烈波动,不同长度生成响应在目标函数中需不同裁剪范围,会增加训练不稳定性。针对专家混合模型(MoE)的专项实验凸显了GSPO的优势。

由于MoE模型具有稀疏激活特性,使用GRPO会加剧训练不稳定性。在使用GRPO训练48层的Qwen3 - 30B - A3B - Base模型时,每次强化学习梯度更新后,相同rollout样本新策略激活的专家约有10%与旧策略不同,这是低效的训练方式。而GSPO无需使用“路由重放”就能稳定收敛,消除了不必要的训练复杂性,保留了MoE架构的全部潜力。

总结来看,GSPO有诸多优势。

它将重要性采样从token级别提升到序列级别,并进行序列长度归一化处理;降低了方差,消除了对“路由技巧”等辅助策略的依赖。

业界普遍认为,在大语言模型后训练阶段引入强化学习对提升推理能力至关重要。大量实验结果证实,GRPO的“逐token重要性采样”方法存在不稳定性和低效性问题。因此,GSPO提出的“序列级重要性采样”很可能成为未来后训练强化学习的新标准。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6098

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

809

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1062

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1261

2024.03.01

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

403

2023.08.14

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

532

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

574

2023.10.25

手机安装chatgpt的方法
手机安装chatgpt的方法

手机安装chatgpt的方法:1、在ChatGTP官网或手机商店上下载ChatGTP软件;2、打开后在设置界面中,选择语言为中文;3、在对局界面中,选择人机对局并设置中文相谱;4、开始后在聊天窗口中输入指令,即可与软件进行交互。想了解更多chatgpt的相关内容,可以阅读本专题下面的文章。

2827

2024.03.05

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

23

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号