RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

看不見的法師

发布时间：2025-04-23 20:06:32

643人浏览过

来源于php中文网

原创

清华和上交的最新论文中，上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。

通过一系列实验，他们证明引入强化学习的模型在某些任务中的表现，竟然不如未使用强化学习的模型。

论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用，尤其是在赋予模型超越自身原有能力方面，效果可能并非像人们普遍认为的那样“无懈可击”。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

消息一出，网友们纷纷下场站队。

有人认为这篇文章抓住了 RL 自身的漏洞，虽然提高了采样效率，但它似乎在推理方面存在不足，未来我们需要新的方法来释放 LLM 的全部潜力。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

也有人表示，或许强化学习实际上限制了模型开发新推理行为的能力。真正的推理增强可能需要蒸馏等方法。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

质疑声之外，RL 的追随者也在为“信仰”发声：这种说法是错的，验证远比生成简单的多。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

也有网友表示，这更像是奖励结构的缺陷，而非 RLVR 本身的问题。如果用二元奖励结构，出现这种情况可以理解。但我们可以调整奖励结构来缓解这个问题，甚至还能激励更好的推理。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

强化学习：擅长加速，不擅长开路

实验中，研究人员在三个具有代表性的领域进行了实验，来评估 RLVR 对基础模型和 RLVR 模型的推理能力边界的影响。

在数学任务实验中，研究团队在 GSM8K、MATH500 和 AIME24 等基准上评估了多个大语言模型系列（如 Qwen-2.5 和 LLaMA-3.1）及其经过 RL 训练的变体。他们通过分析 pass@k 曲线，比较了基础模型与 RL 模型的表现，发现虽然 RL 在低 k 值下提升了模型的准确性，但在高 k 情况下却显著降低了问题的覆盖范围。

此外，研究者还手动审查了模型生成的 CoT（Chain of Thought）推理过程，以确认正确答案是推理得出而非纯属运气。最后，他们还研究了采用 Oat-Zero 方法训练的模型，并对数据集进行了过滤，剔除容易猜测的问题，从而聚焦于更具挑战性的样本。

整体结果显示，尽管 RL 能在初始准确率上带来提升，基础模型在推理覆盖率方面仍表现更为稳健。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

在编码任务实验中，研究团队在 LiveCodeBench、HumanEval+ 和 MBPP+ 等基准上评估了源自 Qwen2.5-7B-Instruct-1M 的 RLVR 训练模型 CodeR1-Zero-Qwen2.5-7B。他们通过 pass@k 指标来衡量性能，并根据预定义的测试用例评估模型的正确性。

结果显示，RLVR 提升了单样本 pass@1 的分数，但在较高采样数（k = 128）时，模型的覆盖率有所下降。与此相比，原始模型在较大 k 值下表现出了持续改进的潜力，而 RLVR 的性能则趋于平稳。这表明，尽管 RLVR 提高了模型的确定性准确性，但在探索多样性方面存在一定的限制。

阿里云AI平台

下载

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

在视觉推理实验中，研究团队在过滤后的视觉推理基准（MathVista 和 MathVision）上评估了 Qwen-2.5-VL-7B，删除了多项选择题，聚焦于稳健的问题解决能力。RLVR 在视觉推理任务中的表现提升与数学和编码基准中的改进相一致，表明原始模型已能够解决广泛的问题，即便是在多模态任务中也同样如此。

跨领域的一致性表明，RLVR 提升了模型的推理能力，同时并未从根本上改变模型的问题解决策略。

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

推理能力的边界

使用单次通过的成功率或平均核采样衡量模型推理能力边界的传统指标存在重要缺陷。如果模型在少数几次尝试后未能解决难题，但却本可以通过更多次的采样获得成功，此时其真实推理潜力可能会被低估。

如果为基础模型投入大量采样资源，它的性能能否与经过强化学习训练的模型相匹配？

为精准评估大语言模型的推理能力边界，研究团队将代码生成领域常用的pass@k指标拓展至所有可验证奖励的任务。针对一个问题，从模型中采样k个输出，若至少一个样本通过验证，该问题的pass@k 值为1，否则为0。数据集上的平均 pass@k 值反映了模型在 k 次试验内可解决的数据集问题比例，能严格评估 LLM 的推理能力覆盖范围。

直接按问题采样k个输出计算pass@k可能导致高方差。他们采用无偏估计法，对评估数据集D中的每个问题生成 n 个样本（n ≥ k），统计正确样本数。对于使用编译器和预定义单元测试用例作为验证器的编码任务，pass@k 值能准确反映模型是否能解决问题。

然而，随着 k 增大，数学问题中“黑客”行为可能凸显，即模型可能生成错误的推理过程，却在多次采样中偶然得出正确答案，这一情况常被以往指标忽视。为此，他们筛选出易被“黑客”攻克的问题，并手动检查部分模型输出的 CoT 正确性。结合这些措施，他们严格评估了 LLM 的推理能力极限。

当强化学习不再“强化”

清华与上交的这篇论文，为当前业界广泛推崇的强化学习范式敲响了警钟。让我们不得不重新思考强化学习在大模型训练流程中的真正角色。

我们也不能将模型的“能力”与“效率”混为一谈。能力，指的是模型是否拥有解决某类问题的潜质与逻辑链条；效率，则是在给定的能力范围内，模型能以多快、多稳、多省资源的方式得出答案。

强化学习或许确实能够提升模型在已有能力基础上的输出表现（比如在低采样次数下更快给出正确答案），但这并不代表它为模型带来了新的推理路径或更复杂问题的解决能力。相反，在高采样场景中，RL 带来的“收敛性”可能牺牲了答案的多样性，从而错失了解决更多难题的机会。

总的来说，这项研究的意义不在于“RL 无用”的结论，而在于它揭示了在过热预期背后，强化学习真正适用的边界。这或许会促使研究者和企业在制定大模型优化方案时，回归问题本质，用更清晰的标准衡量“能力的提升”究竟意味着什么。

参考链接：

https://arxiv.org/pdf/2504.13837

https://x.com/iScienceLuvr/status/1914171319970848942

https://limit-of-rlvr.github.io/

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会“套公式”、却不会真推理

OpenClaw升级版本怎么操作_OpenClaw版本升级方法【方法】

OpenClaw版本回滚_OpenClaw版本回退指南【指南】

OpenClaw离线安装怎么做_OpenClaw离线安装详解【详解】

OpenClaw怎么联机对战 OpenClaw多人模式开启步骤【实测】

如何提高技术文档的可读性利用DeepSeek进行代码注释自动化生成

相关专题

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

504

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

292

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

759

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

534

2024.03.13

Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用，系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法，并结合数据可视化、销售分析、科研数据处理等实战案例，帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

2025.09.08

Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用，系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例（如销售数据分析、用户行为可视化、趋势图与热力图绘制），帮助学习者掌握从原始数据到可视化报告的完整分析能力。

2025.10.14

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板